GoogleのSpeech to Textで音声をニューラルネットワークを使ってテキスト化してみた | そう備忘録

GoogleのSpeech to Textで音声をニューラルネットワークを使ってテキスト化してみた

souichirou

やった事を忘れない為の備忘録 同じような事をやりたい人の参考になればと思ってブログにしてます。 主にレゴ、AWS(Amazon Web Services)、WordPress、Deep Learning、RaspberryPiに関するブログを書いています。 仕事では工場に協働ロボットの導入や中小企業へのAI/IoT導入のアドバイザーをやっています。 2019年7月にJDLA(一般社団法人 日本デイープラーニング協会)Deep Learning for GENERALに合格しました。 質問は記事一番下にあるコメントかメニュー上部の問い合わせからお願いします。

おすすめ

1件の返信

  1. 2023年3月10日

    […] Google Cloud Speech-to-Text を利用して「長時間」の音声ファイルをテキスト化したいと考えております。Cloud Speech-to-Texthttps://cloud.google.com/speech-to-text/docs/how-to?hl=ja以下を参考に1分未満のファイルのテキスト化に成功しておりますが、1分以上のファイルには longrunningrecognize を非同期で実行する必要があるとのことで、いろいろと調べながら試してみたものの上手く進まないため必要なご支援をお願いしたいものです。https://www.souichi.club/deep-learning/speech-to-text/実施したいことは以下のとおりです。上記を理解する程度の知見しかないことはご承知おきください。 ・必要なスクリプトの作成 ・GoogleCloudの設定方法(Storageの設定含む)  (対処できれば格式ばったものは不要です。スクリーンショットなどで十分です。) ・300MBの70分程度のFLACファイルを対象 ・アップロードしたファイルは一般公開(関係者以外閲覧不可)しない設定 ・サンプリングレート、音声文字変換モデルの選択、自動句読点入力の設定  (スクリプトを書き換える等で済むのであればその方法で構いません。) ・テキスト化したデータはStorageに.txtにて保存なお、Pythonによる長時間の音声ファイルのテキスト化について述べた記事があります。Python環境やスクリプトの作成が分からないところがあり試すことはできませんでした。https://qiita.com/r-wakatsuki/items/d867bfb80afc24d96de5( 上記の実施したいことが達成できれば良いので Python不可というわけではありません。) 個人利用のため 予算が僅少な可能性もあり、あまりにも少ないようであれば追加のうえ相談させてください。 どうぞ宜しくお願い致します。追伸: 本件の後に、別件別費用(当然ながら)にて、 Google Cloud Speech-to-Text を利用して、 リアルタイムで流れてくる音声のテキスト化(Googleドキュメントの音声入力の様な)をお願いするかもしれません。 アップロード不可の音声ファイルがありまして、これを寝ている間に流してテキスト化できればなと思っております。  Googleドキュメントの音声入力 ですと途中止まる可能性があり、連続再生ですとファイルの区切りが分からないため、 例えば、再生時間を一定時間ごとにテキストに付記するような手当をお願いするかもしれません。 本件が流用できるようであれば、これを前提に対応いただけると助かります。 […]

質問やコメントや励ましの言葉などを残す

名前、メール、サイト欄は任意です。
またメールアドレスは公開されません。