w3voice.jp のWikiへようこそ! †このページは、w3voiceを中心に、音声認識、音声入力について、情報交換を行うことを目的に開設しています。 また、w3voiceIM.jsが組み込まれていますので、このWiki自体も音声入力によるテキスト入力が可能です。 http://w3voice.jp/ とは †開発の動機 †音声インタフェース(音声認識や音声対話)をもっと使ってもらいたい! 音声インタフェースの研究開発はすでに長い歴史を持ってます。 そして、携帯電話やカーナビ、PC用音声認識ソフトという形で、みなさんが実際に接する機会も増えています。 しかし、私たちの日常で、(電話を除いて)音声入力を利用している場面は、そうそう見かけません。 それはなぜでしょうか? 音声認識の精度が悪いことが、その原因の一つに挙げられますが、現在のアルゴリズムでは、音声認識の劇的な性能向上は見込めません。 それでは、音声インタフェースに期待すること自体が時期尚早なのでしょうか? 私は、そうは思いません。 きっと、現状の技術でも、使える応用はたくさんあるはずです(だと思いたい)。 そして、それを発見したい。 今はあらゆるコミュニケーションサービスはWeb上で作られています。 それなら、Web上で利用できる手軽な音声入力アプリケーションを作れば、音声インタフェースの有効な利用方法を発見できるのではないだろうか。 じゃあ、やってみよう! だらだら書きましたが、これが開発をはじめた動機です。 特徴 †w3voiceは、Webアプリケーションに音声入力のメソッドを追加します。 つまり、音声認識や音声対話の音情報処理技術をWebサービスに組み込んだ、音声Webアプリケーションの構築を可能にします。 サーバサイドアーキテクチャを採用しているため、音声認識や各種信号処理のプログラムはWebサーバ側で動作します。 このため、ユーザが、自分のPCに専用プログラムやプラグインをインストールする必要が一切ありません。 また、開発者の立場からすると、プログラムや辞書、データをサーバ側で一括管理できるため、保守性がすぐれていることが特徴になります。 もう一つ、w3voiceは、生の波形信号を送受信することが特徴です。 信号波形の送受信は、ブロードバンドのネットワーク回線を必要とし、効率の良い行為だとは言えません。 しかし、あえて、波形そのものをやりとりすることで、音声認識や対話以外にも、音の分析や合成などを応用した、複雑な信号処理アプリケーションを提供することが可能になりました。 今後、さらなるネットワーク環境の充実がなされ、回線容量の問題は些細なことになると考えています(実際、動画などと比べれば音声のデータなんて小さなものです)。 他にも、w3voiceは以下のような設計コンセプトに基づき開発が行われています。
w3voiceアプリケーションは、http://w3voice.jp/ で公開中です。試していただき、ご感想やご意見をいただけますと幸いです。 w3voiceに関する各種情報 †
音声認識や音声入力について †
謝辞 † |