音声入力の誤認識率を数えてみた

IJETの音声入力セッションについての記事にも書きましたが、日本語音声入力のデモを見ると「間違いが多くてイライラしそう」という印象を受けてしまうことが多いようです。実際にどのくらい間違うのか、テストしてみました。ついでなのでドラゴンスピーチ(Ver.7)とMac OS X Mountain Lion音声入力機能の認識率の比較もしてみます。
テスト原稿(※スペース含め552文字)

第22回JTF翻訳祭
ゴールを見据えて ~原点回帰とイノベーション~
現在、産業翻訳業界を取り巻く環境は確実に変化している。ソースクライアントのコスト管理の厳格化、翻訳作業におけるさまざまな支援ツール・翻訳ソフトの活用による納期の短縮化など、翻訳者、翻訳会社は現在の市場の中で厳しい競争環境に晒されている。
その中で、新しい市場を求めてのチャレンジ、新しい取り組みも行われつつある。翻訳という仕事自体がここ数年の間に大きく変わるかもしれない。今は次世代の新たな翻訳業界へと変遷する過渡期なのかもしれない。
その潮流の中、ソースクライアント側の要望はこれまで以上に複雑多岐になっている。コスト、納期面で厳しい要求があることも事実ではあるが、一方では高品質の「素晴らしい、翻訳」も要求され、単価も低下していない市場も存在することも事実である。また、現在の市場以外にも多くのニーズが隠れているかもしれない。
我々が目指すところはいったいどこにあるのか? ほんとうの「翻訳」とは何か、翻訳の原点を再確認しながらも、技術革新の進む中で次世代に向けての翻訳とはなにか、も合わせて考えていきたい。
日時     2012年11月28日(水)
場所
「アルカディア市ヶ谷(私学会館)」
〒102-0073 東京都千代田区九段北4-2-25

まずはドラゴンスピーチに音声入力。テストが目的なので、入力結果には一切修正をかけず、原稿を読み上げた結果そのままです。下線は原稿と異なる箇所。そのうちディクテーションが誤認識されている箇所を赤で示しました。

第22回JT翻訳したい
ゴールを見据えてチルダ原点回帰とイノベーション鶴田
現在、産業翻訳業界を取り巻く環境は確実に変化している。ソースクライアントのコスト管理の厳格化、翻訳作業における様々な支援ツール・翻訳ソフトの活用による納期の短縮化など、翻訳者、翻訳会社は現在の市場の中で厳しい競争環境にさらされている。
その中で、新しい市場を求めのチャレンジ、新しい取り組みも行われつつある。翻訳という仕事自体がここ数年の間に大きく変わるかもしれない。今は次世代の新たな翻訳業界へと変遷する過渡期なのかもしれない。
その潮流の中、ソースクライアント側の要望はこれまで以上に複雑多岐になっている。コスト、納期面で厳しい要求があることも事実ではあるが、一では高品質の「すばらしい、翻訳」も要求され、単価も低下していない市場も存在することも事実である。また、現在の市場以外にも多くのニーズが隠れているかもしれない。
我々が目指すところは一体どこにあるのか? 本当の「翻訳」とは何か、翻訳の原点を再確認しながらも、技術革新の進むなかで次世代に向けての翻訳とはか、もせて考えていきたい。
日時 2012年11月28日(水)
場所
「アルカディア市谷(私学会館)」
郵便番号102-0073 東京都千代田区九段北4-2-25

テスト結果
誤認識7字(〜、〒の不変換含む)…認識率98.7%
※音声の認識は正しいが漢字適用の異なる箇所(間違いではない)9箇所
誤認識文字数は、原稿での文字数でカウントしています(例:「チルダ」は「〜」の誤認識なので1文字)。
アプリをインストールして使い始めたばかりの時点(つまり内蔵辞書がデフォルトのままでまだ何も学んでいない)の状態で552字の原稿中エラー7字って、なかなか好成績じゃないですか?キーボードで入力しても、タイプミスでこのくらいは出そうな気がします。漢字かひらがなかの選択は、書き手の好みの問題なのでエラーには数えていません。原稿の「合わせて」が「併せて」になっている箇所は、文脈を考えるとドラゴンの方が正しい気がするんですが…^^;
次に、Mac OS X Mountain Lionで新導入された音声入力機能。こちらも修正とか読み直しは一切かけていない入力結果です。

第22回jps本屋臭い
ゴールを見て~原点回帰とイノベーション~
現在、産業翻訳業界を取り巻く環境は確実に変化している。ソースクライアントのコスト管理の剣客か、翻訳作業における様々な支援ツール・翻訳ソフトの活用による納期の短縮など、翻訳者、翻訳会社は現在の市場の中で厳しい競争環境にさらされている。
その中で、新しい市場を求めてのチャレンジ、新しい取り組みも行われつつある。翻訳とう仕事自体がここ数年の間に大きく変わるかもしれない。今は次世代の新たな翻訳業界変遷する過渡期なのかもしれない。
その潮流の中、ソースクライアント側の要望はこれまで以上に複雑多岐になっている。コスト、納期面で厳しい要求があることも事実ではあるが、一方では高品質の「すばらしい、翻訳」も要求され、なんかも低下していない市場も存在することも事実である。また、現在の市場以外にも多くのニーズが隠れているかもしれない。
我々が目指すところは一体どこにあるのか?全角スペース本当の「翻訳」とは何か、翻訳の原点を再確認しながらも.技術革新の進む中で次世代に向けての翻訳とはか、もわせて考えていきたい。
日時全角スペース2012年11月28日(水)
だしょ
「アルカディア市ヶ谷(私学会館) 」
郵便番号102-0073全角スペース東京都千代田区九段北4-2-25

テスト結果
誤認識15字(全角スペース、〒の不変換含む)…認識率97.3%
※音声の認識は正しいが漢字適用の異なる箇所(間違いではない)9箇所
「短縮化など」が「短縮かなど」となっている箇所を誤認識と数えるか漢字適用の問題と数えるかは微妙なところですが(ドラゴンでは正しい結果になってるし)、キーボードで入力しても同じ結果になる可能性のある間違いなので、漢字適用の方にカウントしました。ちなみに、誤認識と数えるとスコアは97.1%に下がります。
ドラゴンと比較すると、誤認識された文字数は倍という結果です。97.3%というのはそれでもなかなか悪くない数字ですが、2つの入力結果を比べてみると、性能の差は明らかだと思います。
そして両方使ってみてやはり痛感するのが使い勝手です。
ドラゴンの場合は読み上げに合わせて順次認識結果がテキストとして出力されていくので、入力確定の手間なくどんどん読むことができます。またマイクのオン・オフも音声コマンドで可能です。一方Macの音声入力では、読み上げ中は一切結果が出力されないのですが、どんどん読んでいくと途中で制限いっぱいになり、入力受付を勝手にやめて結果出力に移行してしまうのです。変なところで切れたりするのが不便なので、結局は手動で結果を出力させ、表示されたらまた入力再開…という細切れ手順になってしまうのですが、この結果出力と入力再開をさせるのに、いちいちキー入力またはマウスクリックが必要になります。そのため、音声入力を使っているのに結局かなり手を使う必要があり、RSI対策として音声入力を使うユーザーにとっては、これは非常に大きなマイナスです。
また、今回はテストなので誤認識修正はかけていませんが、ドラゴンでは修正してソフトに学習させることで認識率を高めていくという使い方をするのに対し、Mac音声入力では修正機能が非常に限定されていて、直したいところを直せるとは限らないのが減点ポイント。つまり、両方を今後数ヶ月といったスパンで使い続けたら、認識率の差はさらに広がる可能性がある、ということです。
やっぱり音声入力はドラゴンですねーww

ドラゴンスピーチ復帰

長らくアップグレードが途絶えていた日本語版ドラゴンスピーチですが、9月末についにバージョン11が発売されたそうです。
ホームページ: http://www.dragonspeech.jp/
CNETのレビュー記事: http://japan.cnet.com/digital/pc/35024472/

音声入力界の真打ちの復活は、音声入力ユーザーにとっては願ってもいない朗報。バージョン11英語版の評判の高さを考えても、かなりの高パフォーマンスが期待できるのではないかと思います。
が、ここにひとつ大きな問題が…。
仕様を見ると対応OSは「Microsoft Windows 7 SP1 (32ビットおよび64ビット) Microsoft Windows XP SP3 (32ビットのみ)」とのこと。私、Macユーザーです…orz
そこで、真打ちをお迎えするのはあきらめ、以前から検討していた代案を実行することにしました。VMWareを使ってMac上の仮想マシンに先代PCのWindows XP SP2をインストールし、昔使っていた手持ちのドラゴンスピーチを走らせる、というアイデアです。バージョン確認したらバージョン7でした。古っ!
でも実際に試してみると、これが意外に快適な使用感で、ちょっとびっくりしました。音声入力はここ数年使っていなかったので忘れていたのですが、こんなにさくさく使えるソフトだったっけ?という感じ。仮想マシンで走らせてもスピード面の違和感は全くなし。ソフトウェアのトレーニングをはしょってユーザー初期設定を済ませただけの状態で使い始めたのに、かなりの正確さでディクテーションを認識してくれ、4世代も前のソフトとは思えません。そして使い勝手の良さはMac OS Xの音声入力とは比べものになりません。いやー、やっぱり音声入力はドラゴンで決まりですww
VMWareでは仮想マシンとMac本体間で互換ファイルを共用できるらしいので、手持ちのMS Office 2007を仮想マシンに入れて使うこともできるのですが、重くなるのが嫌なので(ドラゴン+ワードの組み合わせは処理速度が遅くなりがち)、今のところはまずはEvernoteを仮想マシンにもインストールして、仮想マシン上で入力したノートからMacでコピペして使ってみています。

Mac OS X Mountain Lion新機能・音声入力についてのメモ

1. デフォルト設定では音声入力がオフになっているので、まず機能をオンにする。

  • りんごマーク→システム環境設定→音声入力と読み上げを開き、音声入力を入にする。
  • 音声入力を開始するためのショートカットを設定する。デフォルトはファンクションキーの二回押し。
  • 言語のリストから日本語を選んで選択。英語に変えれば英語の音声入力も可能。英語はイギリス英語、アメリカ英語、オーストラリア英語から選べる。
  • 入力マイクが複数ある場合は、「音声入力と読み上げ」の左側に表示されているマイク画像の下の三角形をクリックするとリストが表示されるので、使いたいものを選ぶ。

2.  使い方

  • 音声入力を開始するには、指定したショートカットを使う。ショートカットを起こすと、マイクの画像と完了ボタンが表示される。
  • 音声入力中には入力した文章は表示されない。入力が終わった時点で、表示される仕様になっている。
  • 入力を止めて文章を表示させるには、完了ボタンをクリックするか、リターンキーを押す。しばらく話さずに黙っていても自動的に終了するが、タイムアウトまで時間がかかる。
  • 一度に変換できるデータ量に限界があるらしく、長い文章を一度に音声入力しようとすると、途中で勝手に入力を中断して変換に移行してしまう。適宜区切って変換させる必要がある。
  • 入力機能が変換に迷った箇所については、その部分の下に点線が引かれている。その部分の変換が間違っている場合は、マウスで選択して右クリックを押すと、別の選択肢が表示され、選べるようになっている。ただし、右クリックをしても選択肢が表示されない場合もある。原因は不明。
  • 点線表示がない場合は、誤変換修正を学習させることはできないらしい。普通に上書き修正するしかない。
  • 句読点は、「点」「丸」「中黒」「三点リーダー」「ダッシュ」といえば「、」「。」「・」「…」「‐」が表示される。
  •  かっこ類は、「かっこ」または「かっこ開く」で 「(」、「かっこ閉じる」で「)」が表示される。同様に、「かぎかっこ」で「「 」、「中かっこ」で「{」、「大かっこ」で「[」が入力できる。
  • 改行するには「改行」、1行開けるには「新しい段落」と言う。
  • 入力箇所の削除や、カーソルの移動、メニュー選択などの音声コマンドはないらしい。

ちなみに上記もほとんどは音声入力を使って書きました。認識率は、やっぱり80%くらいですかね。きちんと字数を数えてみないとわからないですが、それほどあちこち修正しているという感じはしません。入力用のマイクには、私の使用環境では内蔵マイクやディスプレイオーディオの選択肢もありますが、音声入力専用のUSBヘッドセットマイクを使っています(以前からVXi社のマイクを愛用しているので、今回もVXi X100)。ドラゴンスピーチを使っていた時の経験だと認識率はマイクによって大きく左右されたので、内蔵マイクやディスプレーのマイクを使った場合のテストも、そのうちやってみたいと思います。

Mac OS X Mountain Lionに日本語音声入力登場

また間が空いてしまいました。相変わらずプレゼンシリーズの更新が放置状態になっていますが、まずは別の話題を。
待ちかねていたMac OS Mountain Lionが発表されたので、早速更新しました。なぜ待ちかねていたのかというと、新機能の一つとして、音声入力が盛り込まれていると聞いていたからです。しかも、日本語・英語の両方で入力が可能だとのこと。
早速試しにテスト入力してみました。テスト用の文章はIJET-23日英・英日翻訳国際会議のプログラムから適当に選んだものです。
日本語原文:

実用文を読む時、私たちは必ずしも一語一文、目で追いながらじっくり読むわけではありません。たとえばある文が接続詞の「しかし」で始まるとすると、前に書いてあったことから内容を予測して、あとの部分を読み飛ばしたりします。また、文章には「リズム」というか「ながれ」があり、それに乗ってスイスイと読んで、情報を得ていきます。
今回のワークショップで、 「英語の実用文をさっと一度読んで意味が伝わる和文に仕立て上げるには? 」という大きなテーマについて、 「ながれ」という切り口から皆様とともに考えたいと思います。まず、英文と和文の構造や構成の違いについておさらいした後、文と文の「つながり」に関係する接続詞、句読点(日本語ではあまり使われないコロンやダッシュなど) 、これまであまり取り上げられることがなかった(らしい)文末表現などの観点から検討する予定です。

音声入力結果、無修正:

実用本を読む時、私たちは必ずしも151分、目で追いながらじっくり読むわけではありません。例えばある分が接続詞の(しかし)で始まるとすると、米に書いてあったことから内容を予測して、後の部分を読み飛ばしたりします。また、文章には「リズム」と言うか「流れ」があり、それに乗ってすいすいと読んで、情報を行きます。
今回のワークショップでは、 「英語の実用文はさっと一度読んで意味が伝われば分に仕立て上げるには? 」という大きなテーマについて、 「流れ」という切り口から皆様と共に考えたいと思います。まず、英文と和文の構造や構成の違いについておさらいした後、文と文の「つながり」に関係する接続詞、句読点(日本語ではあまり使われない:八‐など」 、これまであまり取り上げられることがなかった(らしい)文末表現などの観点から検討する予定です。

英語原文:

Are you interested in interpreting but afraid to try because you’re prone to stage fright? Whether you’re starting out or are a veteran pro, there’s always room to make the job more fun.
The first part of this session will take a fresh look at what it means to help people communicate. I will ask you to join me in discussing differences and similarities between translating and interpreting as we explore specific areas, expectations, and how interpreters can benefit from also being translators. There is no need to shy away simply because someone says it’s unusual to be successful in both. You don’t have to be, but you can be.

音声入力結果、無修正:

Are you interested in interpreting that afraid to try because you have drawn to the stage freight? I know you’re starting out or I’ll get temporal, there’s always room to make that of more fun.
The first part of this system will take Krishna Kant hardly means to help people communicate. I will ask you to join me in discussing differences and similarities between translating and interpreting as we explore specific areas, expectations, and how interpreters can benefit from also being translators. There is no need Tiselius simply because someone says it’s unusual to be successful in both. You don’t have to be, but you can be.

第一印象としては、まずまず悪くない印象を得ました。音声入力エンジンはiPhoneのSiriと同じものらしいのですが、音声入力ソフト「ドラゴンスピーチ(Dragon Naturally Speaking)」を作っているニュアンス社が開発に関わっているようで、なるほどという感じです。マウスを動かしたり入力を削除したりするコマンドはあるのか?とか、誤入力を修正、学習する機能があるのか?とか、いろいろまだ疑問はありますが、ぼちぼち使いながら答えを探していくつもりです。ちなみにこの文章も、音声入力に手で修正を加えたものです。おおざっぱな印象では、認識率は80%ぐらいでしょうか。

IJETの音声入力セッションについてのコメント・感想

昨日の記事の続きです。セッションで出てきた会場からの質問についてここでコメントしておきます。
Q: 音声入力を使うメリットがあるのか、導入が大変そうだが楽になるのか?
会場でもコメントしましたが、私の場合腕の痛みに不安があったことから、かなり早くから(最初に使ったのはドラゴンVer.3)音声入力に関心があり、時間がある時に少しずつ触ってみるようにしていました。その後急激にRSIの症状が悪化してキーボードやマウスを使える状態でなくなってしまった時、職場で音声入力を導入することによりフルタイムの勤務を続けることができました。これがなかったらその時点で翻訳者生命は絶たれていたと思います。スムーズに音声入力に移行できたのは、それ以前から試用していたためある程度使い方に慣れていたことが大きな理由です。
正直日本語音声入力を使うことでキーボード入力に比べて効率が向上するという事はないと思いますが、キーボード入力ができない状況では強力な助っ人になります。仕事をしていて腕の疲れや痛み、重症の肩・首の凝りに不安を感じているという人は、まだキーボードを使える今のうちに音声入力を導入することで、いざという時に救われるかもしれません。古い記事ですが、こちらの体験記も参考にしてください。
Q: 音声入力だと声を酷使することにならないか?
RSI対策として音声入力を導入したら喉を壊した、という話はけっこうあります。RSI症状が出ている人は身体全体が常に緊張状態にあることが多く、そのため音声入力を使うと喉を傷めやすいようです。
対策としては、

  • 腹式呼吸で体の奥から発声するよう心掛ける(音楽や演劇でのボイストレーニングが有効)
  • 常に手元に水やお茶を用意し、ちびちびと頻繁に飲んで喉を潤す習慣をつける。私の経験では、一日中音声入力を使っていた時は勤務時間に2リットルぐらいは軽く飲んでいました。
  • キーボード入力と同様、音声入力の場合もこまめに休憩を取るようにする。上記に従って水を飲んでいるとトイレが近くなるので、これを利用してトイレに立ったついでに休憩を取り、ストレッチすると良いです。

Q: 情報収集や質問ができるようなユーザーコミュニティはあるのか?
英語ではSpeech Computing という大きなコミュニティがあり、私が音声入力を仕事に導入した時にはずいぶんお世話になりました。開発に関わった人が参加していたりして、質の高い情報が得られました。
また、Key Steps to High Speech Recognition Accuracyという文書は音声入力のバイブルとされていて、導入の際には必読です。RSI情報ドットコムこの文書の日本語版「ドラゴンスピーチ音声入力ガイド」(未完成)を掲載しているので参考にしてください(※リンク切れ修正しました)
日本語についてはやはりユーザー数が少ないため、コミュニティとして機能しているところはありません。以前「ViaVoiceメーリングリスト」というところに参加していたのですが、日本語音声入力で複数の選択肢があった時期でも、ほとんど利用者がいませんでした。もう消滅してしまっているようです。RSI情報ドットコムにも古い内容ですが音声入力関連情報を置いているので参照してください。質問も歓迎です。
セッションの感想コメント
予想はしていたものの、「日本語音声入力は使えない」という方向になってしまったのは残念でした。ああいうデモをやると、たいていは会場の環境の問題もあったりして通常より認識率が下がりますし、日本語入力は文字変換というプロセスがあるため、英語と比較するとどうしてももたもたした印象になります(おバカな日本語IMEを使い始めた初期の入力効率を英語のキーボード入力と較べるの同じようなもので、、音声だからというだけの問題ではありません)。
実際に日本語入力を仕事に使ったことがあるユーザーという立場から言うと、認識率は使えば使うほど向上します。また、話しながら訳文を考えるというプロセスも、最初は難しくてもやっているうちにけっこう慣れるものです。私の場合、メール等の作成より翻訳の方が高い認識率を達成できました。むしろ翻訳というプロセスと相性の良い技術だと思っています。
導入時のハードルは高いけれど、それは例えば初めて手書きからキーボード入力に移行した時や、フリック入力を始めた時のイライラとそれほど違わないもので、使っているうちに慣れるし、効率も上がっていきます。キーボードを捨てて音声入力に乗り換えよう!というのではなくても、併用という形で導入することで腕や肩への負担を軽減できRSI予防につながりますし、症状が悪化した場合のバックアップとしても期待できるので、興味のある方、痛みや凝り等で不安のある方はぜひ試してほしいと思います。

IJETの音声入力セッション

Project Tokyo 2010でのプレゼン内容がまだ途中になっていますが、6月2~3日に広島で開催されたIJET-23(第23回 日英・英日翻訳国際会議)に参加した際、音声入力に関するセッションがあったので、それについてここに書いておきます。IJET参加者による実況ツイートのTogetterまとめもあるので、量が多いですが興味のある方は読んでみてください。
セッションの内容
セッションのタイトルは「音声入力ソフト活用における2つの盲点」。プレゼン発表者は福光潤さんという特許翻訳者。日本での特許翻訳は和文特許の英訳の仕事が多く、福光さんも英日・日英両方の翻訳に携わっていて、両方に音声入力を利用しています。また、プライベートではシンガーソングライターとしても活動しているとのこと。音声入力の導入に際しては、作業効率向上への期待の他、シンガーらしく「声でどこまでできるのか?」という興味も動機となっていたというような話をされていました。
福光さんが使用しているソフトは英語入力にNuance社のDragon NationallySpeaking(日本での商品名は「ドラゴンスピーチ」) version 11、日本語入力についてはNuanceではもう開発を行っていないこともあり、アドバンスト・メディア社のAmiVoice SPを使っているとのこと。私はAmiVoiceの使用経験がないので、そのあたりの話に興味があってこのセッションに参加しました。
ドラゴンの日本語版と英語版を同時に立ち上げることはできないのですが、福光さんのデモによるとドラゴン英語版とアミボイスは同時に起動させることができるようで、両方とも開けておいて必要に応じて切り替えながら同じファイルに入力していくことも可能とのこと。これは便利そうです。
セッションでは実際にソフトを立ち上げて入力するデモがありました。ドラゴンによる英語入力とアミボイスでの日本語入力。これを見た参加者のほとんどは、音声入力は英語には使えるが日本語は全然ダメ、使い物にならない、という印象を受けたのではないでしょうか。また福光さんの話も「それほど効率化にはつながらないが、技術的な興味から使っている」というような内容で、その印象を裏付けることになってしまっていたのがちょっと残念でした。
タイトルの「2つの盲点」とは、

  • ソフトに学習させる過程が必要なので、音声入力自体が目的になってしまう
  • 修正に集中力を注ぎ込むことになってしまう

という点だそう。個人的にはちょっとピンとこなかったのですが…。
その盲点に関しての福光さんのアドバイス(経験談)は、

  • 誤認識はつきものと割り切る。
  • 誤認識が出る都度修正するのではなく、数ページくらい一気にボイスレコーダーに録音して音声ファイルを作り、それを読み込ませてからまとめて修正をかける。

とのこと。後で参加者から「まとめて吹き込み方式は自分にはとても無理だから使えそうにない」という感想をちらほらと聞きました。
次回に続きます。)