文:武者良太
最長120分の録音に対応
議事録のテキスト化や、取材音声のテキスト化にお悩みの人はいないだろうか。録音した音声データの文字起こしの相場は1分200円前後。これが医療用語など、独特の専門用語が飛び交う場の音声の文字起こしとなると、1分400円にも500円にもなる。しかも納期は中1週間ほどかかるサービスが多く、急いでテキスト化したいときには、多くのオプション料金がかかってしまう。
そこで注目したいのが録音アプリの「Qyur2」だ。このアプリはカセットテープを模した録音・再生機能を持つもので、語学教育サービス・アルクのコンテンツを利用した教育用アプリとして進化。そして最新のアップデートで、Google CloudのAPI「Speech-to-Text」を利用した、録音音声の自動テキスト化にも対応した。
なお録音音声の自動テキスト化は有料。事前に購入したポイントを使うことで、音声認識を行わせることができる。ポイントの金額は基本100ポイント(10分)120円。最長120分の録音データの文字起こしができる。1時間のデータなら必要な料金は720円だ。ケバ取りや多少の誤字脱字があったとしても安い! そしてその場で変換してくれるから早い!
ところが実際に使ってみると、まだ機能面の自由度が低く安定感にも欠けるという印象が残った。
Google CloudのAPIにしてもIBM WatsonのAPIにしても、スマートフォンのマイクに口を近づけての音声入力なら変換精度は高い。しかし会議室のような響きやすくエアコンなどのノイズも入りやすい空間内で録った、複数の人の声が入り混じった音声データの文字起こしは正誤率が低い。「Qyur2」を使った際の結果も、Google CloudのAPIを直接使ったときと同じだった。
そのためマイクの品質がよく、音声周波数帯以外の音はカットできるIC/PCMレコーダーで録った音声データを使いたいのだが、筆者が調べたかぎりは「Qyur2」で録音したデータ以外は認識させることができなかった。
また「Qyur2」で録音した1時間ほどの音声データの文字起こしをしたところ、53分31秒の時点でアプリがクラッシュ。改めて文字起こしをするように操作すると、0分0秒から行うことになってしまった。つまり、53分31秒ぶんの変換でかかった料金を改めて請求されることになった。
IC/PCMレコーダーの音声データを扱うにはインポート機能をつけることで対処できるだろうし、音声データの範囲指定機能をもたせることでクラッシュしても重複せずにすむようになるはず。今後のアップデートで機能が改善されることを期待したい。そうなればまず、筆者自身がヘビーユーザーになるはずだからだ。なにせ筆者が知る限り、Google CloudのSpeech-to-Textをもっとも手軽に扱えるUIであることには違いないからだ。