AI音声認識(Googleドキュメント&マイク)でセミナー音声・動画から文字起こし

音声や動画をテキストにする、文字起こし。
これを、Googleドキュメントでやっています。

IMG_20190523_113211

※自宅にて

Googleドキュメントでの音声認識入力

音声認識入力は Google ドキュメント+マイクでやるのが定着しています。

今は毎日書いているメルマガやブログはほぼ音声認識入力です。
本も音声認識入力で書いています。

そのポイントについてはこちらの記事に書きました。

GAS正規表現置換で、Googleドキュメント音声認識入力のデメリットを補う方法 | EX-IT

音声認識入力はマイク性能が大事です。
そのマイクは16,000円ほどで、大きくて重いのですが、音声収録にもつかえます。
(むしろ収録のためのマイクではあるのですが)

 

ただその後も、いろんなマイクを試してみて、このマイクは安くて、そこそこのものです。
出張中は使いました。

音声認識精度はそれなりですが、周りが騒がしいと認識が鈍くなります。
まずは、こちらを試してみるのもいいでしょう。

セミナー音声・動画を文字起こし

セミナー音声や動画をテキストにしておけば、自分で読み返すこともできますし、テキストとして活用することもできます。

昔、音声を文字起こしをしたいなと思いつつ自分で文字起こしをしようと思いましたが、聴きながら文字を打つというのは、なかなか特殊なスキルで断念していました。
そこでクラウドソーシング(ネットで仕事を依頼)に文字起こしをお願いしましたが、それなりに手間もかかるものです。
やりとりもありますし。
自分でセミナー音声や動画を文字起こしできないかということで、今は Google ドキュメントを使っています。

Google ドキュメントはパソコン上で開くので、パソコンで再生した音声・動画をそのまま認識できればいいのですが、その方法はうまくいきませんでした。
パソコンで再生した動画や音楽音声を文字起こしするアプリもありますが、認識精度はGoogleがやはり優れています。
となれば、 Google ドキュメント音声認識を使いたいもの。
Google の音声認識入力を使いつつ、うまく文字起こしができないかと考えたのが、泥臭くも確実な方法でした。。

 

Googleドキュメント&マイクで文字起こし

パソコンで音声を再生して パソコンにつないだマイクでその音声を聞き取り、それをパソコン内の Google ドキュメントで音声認識するという方法です。
なんだか変な感じではあるのですがこのように設置しています。

IMG_20190523_114112
2時間22分のセミナーを文字起こししてみました 。

冒頭部分

 

終わりの部分

全部で43000字ほど。
Googleドキュメントの特性上、改行や句読点は入っていません。
(しくみ上入りません)
修正が大変じゃないかと思われるかもしれませんが、前述の記事でご紹介したようなプログラムを使えばある程度のものは修正できます。

GAS正規表現置換で、Googleドキュメント音声認識入力のデメリットを補う方法 | EX-IT

改行は、ブログやメルマガの場合、 Enter キーでその都度入れています。
しかし、音声を文字起こしするなら、ずっと見ておくのも大変なので後で入れたほうがいいでしょう。

これも、こういったプログラムで「ます」を「ます+改行」に置換する、つまり「ます」の後ろで改行するということができます。

var text= text.replace(/ます/g,’ます\n’);

こういった修正ができるので、音声認識入力が定着したわけですし、 Google ドキュメントの魅力(GASというプログラムを使える)です。

修正後はこうなります。

まあ、これでも修正は結構必要ですけども、これだけのテキストが手に入るというのは大きなメリットです。

Google ドキュメントはネットにつながっていれば、どこからでも見ることができます。
1台のパソコンで音声を再生→音声認識の処理をしている間、他のパソコンで仕事をしていて 音声認識が止まってないかを確認することもできます。

途中で音声認識が止まることっていうのもあり得えますが、設置や機材が命です。
個別コンサルティングセミナーはとまらずに収録できました 。

コツは次のようなものです。

パソコンの設定

途中でスリープ状態になると音声認識が止まってしまいます。
そのため、スリープをオフまたは思いっきり長くしておきましょう。

パソコンのスピーカー

パソコンのスピーカーによって音が聞き取りにくいときがあります。
私が今使っているVAIOだと精度が下がり、SurfaceBook 2のほうが精度が上です。

マイクの位置

パソコンのスピーカーにできるだけ近くマイクを持って行きましょう。

静かな場所

マイクによっては周りが静かかどうかが大事です。

Google ドキュメントの音声認識が止まるケース

Google ドキュメントの音声認識が止まるのは、間があった場合、静かな部分がある場合です。
セミナー音声だと、スライドの切り替え、ホワイトボードに書くといった状況をはじめ、間があることがり、そこで止まってしまう場合があります。
音声認識を無理せず小分けにしたほうが無難です。

音声の状態

音声の収録状態によって音声認識できるかどうかが変わってきます。
私が今収録してある音声でいろいろ試してみたところ、。
音声にちょっとエコーがかかっているような感じだとうまく認識できませんでした。
最も認識できたのはセミナーではなくパソコンで収録のみやった音声です。
やはり音が安定しているので認識もよく、止まりません。
テキスト化することを考えると、収録の方法も考える余地はあります。

 

話し言葉

話し言葉と書き言葉は違います。
その違いの修正も必要です。

修正ありき

音声認識は決して完璧ではありませんし、今後も完璧にならないでしょう。

だからこそ修正ありきで考えておき割り切るのが一番です。

 

音声を収録してる方は試していただければ。
また、収録後のテキスト化を視野に入れて収録してみるのもおすすめです。

またまとまった文章を書くときは、セミナー音声を収録してそれを音声認識するという手もあります。
が、それをやるなら、音声認識入力しながらひとりで話したほうがやりやすいでしょうね。

 



■編集後記

昨日は、大阪にて引き続き個別コンサルティング。
朝は、友人とラン。
その後、会場にうかがい、個別コンサルティングを実施し、夕方の新幹線で帰ってきました。

 

■昨日の「1日1新」

大阪城公園から梅田までラン
道頓堀 親子丼
YOKOO 牛かつサンド

 

■昨日の娘日記

帰りの新幹線で、LINE通話し、帰宅すると出迎えてくれました。
風呂に入ろうとすると、泣くので、添い寝しつつ、こちらも寝てしまいましたが。