[English Documents]
使ってみよう音声入力・音声認識Webアプリケーション
w3voice Laboratoryでは、和歌山大学 聴覚メディア研究室で開発を行っている音声入力可能なウェブアプリケーションを公開しています。
音声認識や音声対話、音声合成などの技術を応用したWebサービスを体験してみましょう。
すべてのサービスは無料で御利用いただけます。
また、インターネットにつながり、Javaが動くコンピュータからの利用であれば、特別なプログラムを用意する必要もありません。
コンピュータにマイクを接続してから、アプリケーションにアクセスしてください。
はじめての方は免責事項をお読みください。
[使いかた]
[動作環境]
[免責事項]
[連絡先]
新着情報
2009/10/16 w3voice.jarをアップデートしました。電子署名の有効期限が2010年8月29までになりました。不具合などが発生した場合はご連絡ください。
2008/12/30 w3voiceアプリリンクを作りました。みなさんがw3voice skeletonで作られたアプリケーションを御紹介します。リンク希望がございましたら、お気軽に御連絡ください。
2008/6/18 Windows用Firefoxをお使いの方へ:詳細は不明ですがFirefoxでJavaアプレットが動作しない症状が頻繁に発生するそうです。私の環境では、FirefoxやJavaの再インストールでは直りませんでした。とりあえずの解決方法が以下のサイトで紹介されています。ご参照ください。FirefoxでJavaをアップデートしたら致命的な不具合が!(OKWave)
ひとくちメモ
w3voiceでは、録音パネルのボタンを押している間、録音します。
ボタンを離すと録音終了です。
- Javascriptによる音声認識ライブラリ w3voiceIM.js を公開しています。
- 音声認識、音声入力に関する情報交換サイト w3voice.jp Wiki をはじめました。
- mixiにw3voiceのコミュニティがあります。mixi住民のみなさん、参加をお待ちしております。
音声入力ウェブアプリケーション ただいま公開中
音声認識・対話アプリケーション
Web通信販売のデモンストレーション
インターネットで通信販売を使ったことありますか?
将来は、声で商品を注文できるようになるかもしれませんよ。
ここでは、音声認識を使って、声で注文できる未来のくだもの屋さんを作ってみました。
試作段階ですので、実際に商品を買うことはできませんが、看板娘のオタマちゃんに注文してみましょう。
(G4/G5搭載のMacintoshなどbig endianの計算機では、合成音が正しく再生されません。
今後対応予定ですが、当面は、MacintoshはIntel CPU搭載のものを御利用ください。)
大語彙連続音声認識 Julius
音声認識とは、コンピュータを使って、声を分析し、テキスト(文字列)に変換する技術です。
Juliusは、オープンソースの音声認識ソフトウェアです。ダウンロードして、みなさんのパソコンで動かすことができますが、ここではダウンロードしなくてもJuliusを試すことができます。
さあ、みなさんの声をJuliusで認識させてみましょう。ちゃんと認識してくれるでしょうか?
うまく動かないときは、言語モデルや音響モデル、パラメタの変更による再認識も試してください。
w3voice.jp Wiki
w3voiceを中心に、音声認識や音声入力に関する情報交換を行うWikiを開設しました。
また、w3voiceIM.jsが組み込まれているので音声認識によるテキスト入力に対応しています。
Webたけまるくん
たけまるくんは、
奈良県生駒市のキャラクタです。
生駒市にある北コミュニティセンターでは、このたけまるくんのアニメーションロボットが受け付けや案内をしてくれます。
たけまるくんはいろいろなおしゃべりをすることができます。だけど、コミュニティセンターの受け付け係なので、施設を案内することが得意です。
毎日多くの市民のみなさんがたけまるくんに話かけてくれます。
みなさんも話しかけてみましょう。
たけまるくんシステムは、このサイトの管理人が大学院生の時に開発しました。
ここでは負荷を軽くするために、少しだけ機能を限定しています。
(G4/G5搭載のMacintoshなどbig endianの計算機では、合成音が正しく再生されません。
今後対応予定ですが、当面は、MacintoshはIntel CPU搭載のものを御利用ください。)
コミュニケーションツール
おしゃべり写真 Voice Photo
あなたの写真に熱い魂を吹き込みます。
というのは冗談で、普通の写真のファイルを、しゃべる写真にしてしまうサービスです。
マウスのカーソルを写真の上に移動してみると…。しゃべりました?
JPEGファイルにあなたの発話を埋め込んだフラッシュを作成します。
ブログやWebページのアクセントとして使ってみてはいかがでしょうか?
(でも、あまり多用するとうるさいかもね…。)
完成したVoicePhotoを、
かなりうるさいおしゃべり掲示板に貼ることができます。
しゃべる写真が完成したら、同じページに表示される[掲示板にアップロード]をクリックしてください。
楽しい写真をお待ちしております。
(G4/G5搭載のMacintoshなどbig endianの計算機では、埋め込まれた音声が正しく再生されません。
今後対応予定ですが、当面は、MacintoshはIntel CPU搭載のものを御利用ください。)
かなりうるさいおしゃべり掲示板
音声入力(発話の投稿)に対応した掲示板システムです。
スピーカーの音量を調整してからアクセスしてくださいね。
私は、定期的にこの掲示板をチェックしていますので、質問など投稿していただくと答えることもあります。
通常のテキスト入力もできますが、音声入力を試してくださいね。
また、みなさんが作ったVoicePhotoも掲載されています。
それじゃあ、Let's Talk!
音声合成・分析アプリケーション
発話の分析(スペクトログラム)
みなさんの声を分析してみましょう。
このアプリケーションは、録音された信号を周波数分析し、サウンドスペクトログラムにして表示するものです。
このプログラムの内部処理には、MATLABを使用しています。
今後は機能を拡張したいと思っています。
Web開発者向けサービス
w3voice開発キット w3voice skeleton
本サイトと同様な音声入力Webアプリケーションを構築するのに必要なw3voiceの開発キットです。
アーカイブには、録音プログラム(Javaクラスファイル)及びPerlによるCGIのサンプルプログラムを含みます。
ただし、基本的なUNIXの知識とCGIプログラミングの経験が必要です。
みなさんもおもしろい音声アプリ作ってみませんか?
アプリを作成された際には、本サイトからリンクいたしますので、アドレスを御連絡ください。お待ちしております。
みなさんが、w3voice skeleton(開発キット)を使って作られたアプリケーションをぜひ御紹介ください。
このコーナからリンクさせていただきます。
ユニークなw3voiceアプリケーションをお待ちしております!
(営利、宗教、政治活動に関するサイト、法律や公序良俗に反するサイト、他者を誹謗中傷するサイトへのリンクはお断りさせていただきます。)
- コンピュータにマイクが正しく接続されているか、サウンドカード(オーディオデバイス)の設定が正しいかを確認してください。
- Javaアプレットの署名について確認されることがあります。その際は「OK」もしくは「信頼」を選択してください。
- 「Push here.」と表示された録音パネルをマウスのボタンで押しながら発声してください。
- ボタンを離したら録音は終了です。しばらく待つとブラウザの画面が更新され、結果が表示されます。
- 発声中はレベルメータが動いていることを確認してください。
- 正しく動作しないときの多くは、マイクの設定ミスが原因です。再度マイクの設定を見直してください。また、マイクの音量が小さすぎる(大きすぎる)ことがないか、ご確認ください。
- 本システムでは以下の技術を利用しています。すべて一般的な普及技術ですが、対応するプラグインがお使いのコンピュータに導入されていなかったり、ブラウザの設定で明示的に機能をオフにしていると、正しく動作しません。
- Windows XP SP2, Windows Vista, MacOS X 10.3以降, Linux (Debian 3.1, x86)にて動作確認をしています。他のプラットホームであってもJavaが動作すれば動く可能性があります。
- Webブラウザは以下のもので動作を確認しています。
- Windows XP SP2, Vista: Internet Exploroer 6, Internet Exploroer 7, Firefox
- MacOS X: Safari, Firefox, Camino
- Linux: Firefox
- 音声データをサーバと送受信するため、ブロードバンド環境での利用を前提にしています。データの送受信にはTCPの80(http)を使用します。
- 2008/10/17 w3voice開発キット(w3voice skeleton)をアップデートしました。
- w3voice.jarを最新版にアップデートしました。電子署名の有効期限が2009年8月29日までになります。
- 2008/9/8 音声入力アプレット(w3voice.jar) ver. 0.3b15 を公開し、w3voice.jpをアップデートしました。変更点は以下です。
- w3voice.jarの電子署名の有効期限が2009年8月29日までになりました。
- 音声データのアップロードアルゴリズムに変更があります。このため、w3voice.jarで録音完了後、"Upload.go"に関するエラーが発生する場合があります。この原因を調査中です。エラーが発生した際は、動作環境などを御連絡くださいますと助かります。
- 2008/3/27 w3voiceに関する学会発表に対して、FIT2007(第6回情報科学技術フォーラム)ヤングリサーチャー賞を授賞することができました(表彰式は9月のFIT2008の予定)。みなさまのご利用と励ましに感謝いたします。受賞の発表原稿(PDF形式)はこちらから御覧いただけます。
- 2008/3/9 (お詫びとお願い)w3voice.jpにおきましてRAIDユニットのハードウェア障害が発生し、断続的なサービス停止が発生しています。w3voice.jpでのサービスに異常がある場合、ユーザのみなさまに原因はなく、サーバ側のトラブルであることが考えられます。その際は、西村までメールで御連絡ください(nisimura@sys.wakayama-u.ac.jp)。御迷惑をおかけして大変申し訳ございません。
- 2007/11/12 w3voice開発キット(w3voice skeleton)をアップデートしました。
- w3voice.jar 0.30の最新ベータバージョンを収録しました。テスト中のバージョンのため、不具合があるかもしれません。動作が安定しない場合は、アーカイブの中のw3voice.jar 0.29をご利用ください。
- 録音プログラムのPHP版ソースコードを追加しました。
- 2007/10/19 音声Webアプリケーションの開発キットw3voice skeletonをリリースしました。
- 2007/9/12 w3voice 0.28をリリースしました。細かい修正をしています。
- 2007/7/9 和歌山大学のオープンキャンパスが2007年8月5日に開催されます。デザイン情報学科の会場でw3voiceの紹介を行います。主に受験生が対象のイベントですが、みなさまの御来場をお待ちしております。
- 2007/7/3 音声認識Javascriptライブラリw3voiceIM.js を公開しました。
- 2007/7/1 w3voice.jp Wiki はじめました。
- 2007/5/28 音声分析・合成プログラムSTRAIGHTを用いたボイスチャンジャーを公開しました。
- 2007/5/23 本サイトのデザインを変更しました。
- 2007/4/18 Slashdot Japanに掲載していただきました。
- 2007/4/9 独自ドメインを取得しました。新しいアドレスは http://w3voice.jp/ です。
- 2007/4/8 おしゃべり写真 Voice Photoを公開しました。
- 2007/3/21 w3voice 0.25を公開しました。
- MacOS X版Firefoxに暫定対応しました。
- 音声入力パネルのデザインを変更しました。
- Proxyを使ったアクセスに対応しました。
- 2007/3/13 日本音響学会2007年春季研究発表会において、「ネットワーク公開試験に向けた音声対話Webアプリケーションの開発」と題してw3voiceについて発表を行いました。
- 2007/3/9 w3voice Laboratoryの公開試験をはじめました。
免責事項:使用するまえに必ずお読みください
- このサイト(http://w3voice.jp/)で提供するすべてのサービスは、公開試験を目的に提供するものです。本サービスに関する欠陥、本サービスの利用が原因で発生した損失や損害について、一切責任を負いかねます。また、サービスを予告なく、休止、終了することがあります。
- すべてのサービスは無料で提供されます。また、営利、宗教、政治活動に関する利用、法律や公序良俗に反する利用、他者を誹謗中傷する利用は禁止とします。また、個人情報(掲載を承諾した場合を除く)は、投稿(録音)しないようにしてください。
- 本サービスは研究・実験を目的としており、入力された発話はすべてデータベースに蓄積され、研究活動の中で分析・調査等の対象として利用される予定です。録音されることをご了承の上、ご利用下さい。ただし、本人の同意なしに、個人の特定に係わるような情報、データを公開することはありません。
連絡先・著作権
- 和歌山大学システム工学部 西村 竜一 (nisimura@sys.wakayama-u.ac.jp)
- 本サイト中の文書、画像、プログラム等の著作権は、和歌山大学聴覚メディア研究室及び各著作物の著作者にあります。
- 感想や質問、動作レポートは気軽にメールでお寄せください。
- 共同研究の依頼、実用化の提案や新しいアイディア等を随時募集しております。
謝辞
- 本研究の一部は、「和歌山大学 平成19年度オンリー・ワン創成プロジェクト(若手研究): 音声インタフェースを持つ教育支援Webシステムの研究開発」及び「科学研究費補助金 若手研究(B): 若年話者を声で識別する安心ウェブシステムの研究開発」の支援を受けています。