w3voice.jp のWikiへようこそ!

このページは、w3voiceを中心に、音声認識、音声入力について、情報交換を行うことを目的に開設しています。

また、w3voiceIM.jsが組み込まれていますので、このWiki自体も音声入力によるテキスト入力が可能です。

http://w3voice.jp/ とは

開発の動機

音声インタフェース(音声認識や音声対話)をもっと使ってもらいたい!

音声インタフェースの研究開発はすでに長い歴史を持ってます。 そして、携帯電話やカーナビ、PC用音声認識ソフトという形で、みなさんが実際に接する機会も増えています。 しかし、私たちの日常で、(電話を除いて)音声入力を利用している場面は、そうそう見かけません。 それはなぜでしょうか? 音声認識の精度が悪いことが、その原因の一つに挙げられますが、現在のアルゴリズムでは、音声認識の劇的な性能向上は見込めません。 それでは、音声インタフェースに期待すること自体が時期尚早なのでしょうか? 私は、そうは思いません。 きっと、現状の技術でも、使える応用はたくさんあるはずです(だと思いたい)。 そして、それを発見したい。

今はあらゆるコミュニケーションサービスはWeb上で作られています。 それなら、Web上で利用できる手軽な音声入力アプリケーションを作れば、音声インタフェースの有効な利用方法を発見できるのではないだろうか。 じゃあ、やってみよう!

だらだら書きましたが、これが開発をはじめた動機です。

特徴

w3voiceは、Webアプリケーションに音声入力のメソッドを追加します。 つまり、音声認識や音声対話の音情報処理技術をWebサービスに組み込んだ、音声Webアプリケーションの構築を可能にします。 サーバサイドアーキテクチャを採用しているため、音声認識や各種信号処理のプログラムはWebサーバ側で動作します。 このため、ユーザが、自分のPCに専用プログラムやプラグインをインストールする必要が一切ありません。 また、開発者の立場からすると、プログラムや辞書、データをサーバ側で一括管理できるため、保守性がすぐれていることが特徴になります。

もう一つ、w3voiceは、生の波形信号を送受信することが特徴です。 信号波形の送受信は、ブロードバンドのネットワーク回線を必要とし、効率の良い行為だとは言えません。 しかし、あえて、波形そのものをやりとりすることで、音声認識や対話以外にも、音の分析や合成などを応用した、複雑な信号処理アプリケーションを提供することが可能になりました。 今後、さらなるネットワーク環境の充実がなされ、回線容量の問題は些細なことになると考えています(実際、動画などと比べれば音声のデータなんて小さなものです)。

他にも、w3voiceは以下のような設計コンセプトに基づき開発が行われています。

  • JavaアプレットやFlash, Javascriptを活用することでクライアントPC側の事前インストール作業を必要とせず、利便性を確保
  • 既存のCGIプログラムやプロトコルなどの資産との統合が容易な実装
  • 音声対話インタフェースをコアに、音声インタファースの広い応用を可能とする実用的な枠組みを提供
  • オープンソースもしくはフリーソフトウェアを使いアプリケーションを構築可能な環境を提供

w3voiceアプリケーションは、http://w3voice.jp/ で公開中です。試していただき、ご感想やご意見をいただけますと幸いです。

w3voiceに関する各種情報

音声認識や音声入力について

謝辞

  • w3voiceの音声入力Javaアプレットは、2006年度卒業生の三宅純平君(現在、奈良先端科学技術大学院大学所属)による実装をベースに開発されています。
  • このページは、PukiWikiによって作成されています。PukiWikiの開発者のみなさまに深く感謝いたします。

トップ   差分 バックアップ リロード   一覧 単語検索   ヘルプ   最終更新のRSS
Last-modified: 2009-04-03 (金) 12:08:33 (1141d)