音声入力の誤認識率を数えてみた

IJETの音声入力セッションについての記事にも書きましたが、日本語音声入力のデモを見ると「間違いが多くてイライラしそう」という印象を受けてしまうことが多いようです。実際にどのくらい間違うのか、テストしてみました。ついでなのでドラゴンスピーチ(Ver.7)とMac OS X Mountain Lion音声入力機能の認識率の比較もしてみます。
テスト原稿(※スペース含め552文字)

第22回JTF翻訳祭
ゴールを見据えて ~原点回帰とイノベーション~
現在、産業翻訳業界を取り巻く環境は確実に変化している。ソースクライアントのコスト管理の厳格化、翻訳作業におけるさまざまな支援ツール・翻訳ソフトの活用による納期の短縮化など、翻訳者、翻訳会社は現在の市場の中で厳しい競争環境に晒されている。
その中で、新しい市場を求めてのチャレンジ、新しい取り組みも行われつつある。翻訳という仕事自体がここ数年の間に大きく変わるかもしれない。今は次世代の新たな翻訳業界へと変遷する過渡期なのかもしれない。
その潮流の中、ソースクライアント側の要望はこれまで以上に複雑多岐になっている。コスト、納期面で厳しい要求があることも事実ではあるが、一方では高品質の「素晴らしい、翻訳」も要求され、単価も低下していない市場も存在することも事実である。また、現在の市場以外にも多くのニーズが隠れているかもしれない。
我々が目指すところはいったいどこにあるのか? ほんとうの「翻訳」とは何か、翻訳の原点を再確認しながらも、技術革新の進む中で次世代に向けての翻訳とはなにか、も合わせて考えていきたい。
日時     2012年11月28日(水)
場所
「アルカディア市ヶ谷(私学会館)」
〒102-0073 東京都千代田区九段北4-2-25

まずはドラゴンスピーチに音声入力。テストが目的なので、入力結果には一切修正をかけず、原稿を読み上げた結果そのままです。下線は原稿と異なる箇所。そのうちディクテーションが誤認識されている箇所を赤で示しました。

第22回JT翻訳したい
ゴールを見据えてチルダ原点回帰とイノベーション鶴田
現在、産業翻訳業界を取り巻く環境は確実に変化している。ソースクライアントのコスト管理の厳格化、翻訳作業における様々な支援ツール・翻訳ソフトの活用による納期の短縮化など、翻訳者、翻訳会社は現在の市場の中で厳しい競争環境にさらされている。
その中で、新しい市場を求めのチャレンジ、新しい取り組みも行われつつある。翻訳という仕事自体がここ数年の間に大きく変わるかもしれない。今は次世代の新たな翻訳業界へと変遷する過渡期なのかもしれない。
その潮流の中、ソースクライアント側の要望はこれまで以上に複雑多岐になっている。コスト、納期面で厳しい要求があることも事実ではあるが、一では高品質の「すばらしい、翻訳」も要求され、単価も低下していない市場も存在することも事実である。また、現在の市場以外にも多くのニーズが隠れているかもしれない。
我々が目指すところは一体どこにあるのか? 本当の「翻訳」とは何か、翻訳の原点を再確認しながらも、技術革新の進むなかで次世代に向けての翻訳とはか、もせて考えていきたい。
日時 2012年11月28日(水)
場所
「アルカディア市谷(私学会館)」
郵便番号102-0073 東京都千代田区九段北4-2-25

テスト結果
誤認識7字(〜、〒の不変換含む)…認識率98.7%
※音声の認識は正しいが漢字適用の異なる箇所(間違いではない)9箇所
誤認識文字数は、原稿での文字数でカウントしています(例:「チルダ」は「〜」の誤認識なので1文字)。
アプリをインストールして使い始めたばかりの時点(つまり内蔵辞書がデフォルトのままでまだ何も学んでいない)の状態で552字の原稿中エラー7字って、なかなか好成績じゃないですか?キーボードで入力しても、タイプミスでこのくらいは出そうな気がします。漢字かひらがなかの選択は、書き手の好みの問題なのでエラーには数えていません。原稿の「合わせて」が「併せて」になっている箇所は、文脈を考えるとドラゴンの方が正しい気がするんですが…^^;
次に、Mac OS X Mountain Lionで新導入された音声入力機能。こちらも修正とか読み直しは一切かけていない入力結果です。

第22回jps本屋臭い
ゴールを見て~原点回帰とイノベーション~
現在、産業翻訳業界を取り巻く環境は確実に変化している。ソースクライアントのコスト管理の剣客か、翻訳作業における様々な支援ツール・翻訳ソフトの活用による納期の短縮など、翻訳者、翻訳会社は現在の市場の中で厳しい競争環境にさらされている。
その中で、新しい市場を求めてのチャレンジ、新しい取り組みも行われつつある。翻訳とう仕事自体がここ数年の間に大きく変わるかもしれない。今は次世代の新たな翻訳業界変遷する過渡期なのかもしれない。
その潮流の中、ソースクライアント側の要望はこれまで以上に複雑多岐になっている。コスト、納期面で厳しい要求があることも事実ではあるが、一方では高品質の「すばらしい、翻訳」も要求され、なんかも低下していない市場も存在することも事実である。また、現在の市場以外にも多くのニーズが隠れているかもしれない。
我々が目指すところは一体どこにあるのか?全角スペース本当の「翻訳」とは何か、翻訳の原点を再確認しながらも.技術革新の進む中で次世代に向けての翻訳とはか、もわせて考えていきたい。
日時全角スペース2012年11月28日(水)
だしょ
「アルカディア市ヶ谷(私学会館) 」
郵便番号102-0073全角スペース東京都千代田区九段北4-2-25

テスト結果
誤認識15字(全角スペース、〒の不変換含む)…認識率97.3%
※音声の認識は正しいが漢字適用の異なる箇所(間違いではない)9箇所
「短縮化など」が「短縮かなど」となっている箇所を誤認識と数えるか漢字適用の問題と数えるかは微妙なところですが(ドラゴンでは正しい結果になってるし)、キーボードで入力しても同じ結果になる可能性のある間違いなので、漢字適用の方にカウントしました。ちなみに、誤認識と数えるとスコアは97.1%に下がります。
ドラゴンと比較すると、誤認識された文字数は倍という結果です。97.3%というのはそれでもなかなか悪くない数字ですが、2つの入力結果を比べてみると、性能の差は明らかだと思います。
そして両方使ってみてやはり痛感するのが使い勝手です。
ドラゴンの場合は読み上げに合わせて順次認識結果がテキストとして出力されていくので、入力確定の手間なくどんどん読むことができます。またマイクのオン・オフも音声コマンドで可能です。一方Macの音声入力では、読み上げ中は一切結果が出力されないのですが、どんどん読んでいくと途中で制限いっぱいになり、入力受付を勝手にやめて結果出力に移行してしまうのです。変なところで切れたりするのが不便なので、結局は手動で結果を出力させ、表示されたらまた入力再開…という細切れ手順になってしまうのですが、この結果出力と入力再開をさせるのに、いちいちキー入力またはマウスクリックが必要になります。そのため、音声入力を使っているのに結局かなり手を使う必要があり、RSI対策として音声入力を使うユーザーにとっては、これは非常に大きなマイナスです。
また、今回はテストなので誤認識修正はかけていませんが、ドラゴンでは修正してソフトに学習させることで認識率を高めていくという使い方をするのに対し、Mac音声入力では修正機能が非常に限定されていて、直したいところを直せるとは限らないのが減点ポイント。つまり、両方を今後数ヶ月といったスパンで使い続けたら、認識率の差はさらに広がる可能性がある、ということです。
やっぱり音声入力はドラゴンですねーww

One Reply to “音声入力の誤認識率を数えてみた”

Leave a Reply