Web会議で自動議事録作成(失敗?編)

還暦プログラマKASAです。

 

 

この業界に限らず、議事録は重要です。

コロナの影響で面と向かっての会議は減りましたが、

代わりにZoomやTeamsでの会議は増えています。

 

後から「言った」、「言わない」の応酬は勘弁願いたいもの、

とはいえ「議事録を書け」と言われたらめっちゃ拒否したいですよね。

 

 

そこで前回はPCにしゃべらせましたが、

今回はPCにしゃべった言葉をテキストにしてもらいましょう。

 

音声認識を利用した開発を昔やりましたが、

あまりの誤認識で苦労した記憶があります。

正直、上に書いた状況にならなければ手を出さないネタでした。

が・・・

 

いや~驚きました、最近の音声認識恐るべしです。

 

早速使ってみます。

世の中ではGoogleのサービスが人気ありそうですが、

今回は仕事でも利用するWord onlineを使うことにしました。

MicroSoftにサインインすれば利用できるフリー版でOKです。

 

起動すると右上の方に「ディクテーション」というのがあります。

基本はこれを押せばマイク(入力)で拾った音声を文字にしていってくれます。

 

 

 

会議の場合、そのままWordを起動して録音できればリアルタイムで議事録の完成です。

とはいえ手直しは必要になりますが…

 

しかし、落とし穴がありました。

記録中に別のウインドウをアクティブ(クリック等)にすると、

記録が止まってしまうのです。

 

これではZoomとかの操作ができないのでリアルタイムでは使えないことが判明しました。

となれば録音するしかありません。

録音の場合は録音したファイルをUPすることで、

テキスト化した結果を受け取ることも可能ですが、

ちょっと気持ち悪いので手元で操作することにします。

 

要は「リアルタイムの音声」の代わりが、

「録音した音声」ということになります。

再生音を入力に廻せば良いわけで、

そこで登場するのが「ステレオミキサー」という機能です。

設定は「サウンド」の項目で設定します。

 

 

ところが私のPCには「サウンド」の「録音」に「ステレオミキサー」がでてきません!

 

Google先生によると「ドライバを最新化すればいいよ」、

とありましたのでやってみましたが追加されず…

 

どうも私の使っている「VAIO」には「ステレオミキサー」が動かないようになっているものがあるようです。

なのでここで手順を示すことはできませんが、

Google先生に聞けば教えてもらえると思います。

 

「ステレオミキサー」が動かないといって手作業で議事録を書きたくありません。

「ステレオミキサー」と同じようなソフトもありますが、

会社PCの場合ソフトをインストールできないケースもありますし、

ここは別の方法を考えます。

 

要は再生音(イヤフォン)を録音(マイク)に廻すことができれば良いわけで、

100均で手に入るオスオスミニプラグを使ってマイク端子とイヤホン端子をつなげばいけそうです。

(最近はモニタの付属品としてついていることも多いです)

もしPCのコネクタがマイク・イヤフォン一体でムリという人は、

100均でも手に入るマイク・イヤフォンスプリッタで分離すれば大丈夫です。

 

OKいけました、ガンガン書き込まれてます。

 

しかしこのままでは音声が聞こえません。

音声を聞きたい場合はこれも100均で手に入るミニプラグスプリッタ(1つのイヤフォン端子を2つにわけるやつ)を、

PCのイヤフォン端子に繋いで、片方をマイク端子とつなぎ、もう1つにイヤホンをつなげばいけそうです。

 

 

こんなやつらです、繋ぎ方は考えてください。

でもPCを触ってはいけません、リアルタイムの時と同じ状況(停止)になってしまいます。

 

「アプリの音量設定」でアプリ毎のデバイスを調整して、

再生アプリとWordの動作しているブラウザを別のサウンドデバイスにしたら、

他から影響うけないかと思いましたがうまくいきませんでした。

 

ささっと終わらせようと再生スピードを上げてみましたが、

認識率が結構低下しました。

再生スピードについては使うソフトによる部分が大きいと思われます。

とりあえず「GOM Player」はダメでした。

 

 

結論

会議の音声の自動文字起こしはできることはわかりました。

録音して、再生して、なおかつ再生中はPCが触れないという不自由が発生する状況です。

ということで「会議が終わったら議事録(の元)完成」は中途半端な結果となりました。

救いといえは通常の「文字起こし」作業のように音声を止め(自動入力された文字を編集し)ながら作業(編集)を進める場合は、

再生ソフトをまず止めることで、音声が止まり、ディクテーションも止まるという良い状況になります。

 

老婆心ながら、それでもwordで「リアルタイム字起こし」を目指す皆さん、

「マイクのプロパティ」で「このデバイスを聞く」にチェックを入れるのをお忘れなく。

大抵の場合、会議ソフトでは自分の声は(やまびこのようになるため)出力されていません。

 

後になって自分の発言が記録されていないなんてことになります。

 

でもっと注意です、

マイクを聞く設定にすると高確率でハウリングが発生します。

耳を破壊されない様ご用心ください。

(スピーカー出力でハウリングさせて家中に響きまくったのは秘密です)

 

 

あとがき

こんなことをしなくてもteamsにはライブ議事録(トランスクリプション)の機能があるようです。

こっちは発話者を区別してくれますので、

ごちゃまぜのWordのディクテーションとは一味ちがいます。

今は会話(会議)してくれる人がいません(寂)、そのうち試して報告します。

Pocket