ITEM | 2019/06/25

Google、IBM、MicrosoftのどのAI文字起こしツールを使えばいいか判別できるサービス「SPEECH TO TEXT」

文:武者良太
AIごとの日本語認識力も見えてくる
会議や講演会の文字起こしは面倒な作業だ。作業そのものは録音された声...

SHARE

  • twitter
  • facebook
  • はてな
  • line

文:武者良太

AIごとの日本語認識力も見えてくる

会議や講演会の文字起こしは面倒な作業だ。作業そのものは録音された声を聴き、文字入力してテキスト化するだけなのだが、短期記憶力が求められる上、長時間従事しても効率よく作業ができる集中力の高さも必要となってくる。

こういった単純作業こそ、AIに任せたほうがいい。

「SPEECH TO TEXT」は、1分までの文字起こしなら無料、それ以上の長さであれば1分10円〜で行ってくれるWEBサービスだ。

同類のサービスとの大きな違いは、Google、IBM Watson、Microsoftによる3つのAIを使えること。ユーザーはこれら3つのAIが音声から文字変換した結果(前述したように1分までは無料表示される)を見て、どのAIに仕事を依頼するか選べるようになっている。

以前紹介した「Qyur2」と同様、スマートフォンのマイクで録った録音データだと、誤字脱字が多い。また50MBまでの音声データしか受け付けてくれないといった制限もある。

反面、wav/mp3/aac/m4a/flacの音声データに対応しており、ICレコーダーで録音したデータをそのまま利用できるメリットもある。

ちなみに開発者である山崎将志氏は「文字起こしの精度は、音質(特に音圧)、ノイズの量、発話の明瞭さ、固有名詞の数に左右されます。またこの順番で精度に影響を与えます。 弊社の実験では、例えばNHKのニュースをテレビからライン録りし、16kHzのflacでエンコードした音声ファイルを文字起こしすると、Google、IBM Watson、Microsoftの3社のサービス全てで、概ね95%前後の精度で認識してくれます」と述べている。

高精度な変換結果を求めたい人は、低反響、少ノイズ、滑舌のいい録音データを用意しよう。


SPEECH TO TEXT