ブログトップ

akadan123日記

srcltocp.exblog.jp

akadan123日記です。

カテゴリ:未分類( 12 )

音声認識(おんせいにんしき, speech recognition)は、ヒトの話す音声言語をコンピュータによって解析し、話している内容を文字データとして取り出す処理のこと。キーボードからの入力に代わる文字入力方法として注目を集めている。音声認識に関連が深い技術として、あらかじめ記録しておいた音声パターンと比較して個人認証等をおこなう、話者認識がある。パソコンの場合、文章を入力する用途では音声入力またはディクテーション、アプリケーションの操作は音声操作と呼ばれる。認識技術 [編集]統計的手法 [編集]音声認識では、統計的手法が良く用いられている。これは大量の発話を記録した学習用データから音声の特徴を蓄積し、入力された音声信号と蓄積された特徴とを比較しながら、最も特徴に近い言語系列を認識結果として出力する手法である。一般に、音声の音響的な特徴と言語的な特徴を分離して扱うことが多い。音響的な特徴とは、認識対象の音素がそれぞれどのような周波数特性を持っているかを表したもので、音響モデルと呼ばれる。音響モデルの表現としては、混合正規分布を出力確率とした隠れマルコフモデルが広く用いられている。言語的な特徴とは、音素の並び方に関する制約を表したもので、言語モデルと呼ばれる。例えば、「あなた (a n a t a)」という発声の直後には、「が (g a)」や「は (w a)」などの発声が続く確率が高い、などの制約である。言語モデルの表現としては、認識対象の言語が大規模な場合(パソコン上での文書作成など)はn-gramが良く用いられ、認識対象の言語が人手で網羅出来る程度に小さい場合(カーナビの音声操作など)は、文脈自由文法が良く用いられる。動的時間伸縮法 [編集]動的時間伸縮法(Dynamic time warping、DTW)は初期の音声認識手法であるが、隠れマルコフモデルに基づく手法が一般化したため、使われなくなった。時間または早さの異なる2つの信号シーケンスの間の類似度を測るアルゴリズムである。例えば、人間の歩行のパターンは、素早く歩いても、ゆっくり歩いても、さらには歩行の画像を早送りしてもスロー再生しても一定のパターンが存在する。DTW は音声だけでなく動画などの任意の時系列のデータに適用可能である。音声認識においては、発声速度がどうであっても一定のパターンを検出するために使われていた。従って、比較のための標準パターンが必要であり、認識できる語彙は限定される。隠れマルコフモデル [編集]音声信号は、断片的あるいは短時間の定常信号と見ることができ、隠れマルコフモデル(Hidden Markov Model、HMM)が適用可能である。すなわち、10ミリ秒程度の短時間でみた場合、音声信号は近似的に定常過程と見なすことができる。従って、音声を多くの確率過程のマルコフ連鎖と考えることができる。また、隠れマルコフモデルによる音声認識は自動的にトレーニングされ、単純で計算量もそれほど多くない。音声認識について考えられる最も簡単な設定では、隠れマルコフモデルは10ミリ秒ごとに例えば13次元程度の実数値ベクトルを出力するだろう。このベクトルはケプストラム係数から成る。ケプストラム係数は短時間の信号のフーリエ変換にコサイン変換を使って、その第一(最大)係数を取り出したものである。隠れマルコフモデルは、それぞれの観測されたベクトルの尤度を与える対角共分散のガウス分布の混合ともいうべき確率分布を持つ傾向がある。各単語や各音素はそれぞれ独自の出力分布を持つ。単語列あるいは音素列に関する隠れマルコフモデルは、個々の単語や音素の隠れマルコフモデルを連結したものとなる。これらが隠れマルコフモデルを使用した音声認識技術の概念である。音声認識システムにはこれ以外にも様々な技術を使用している。語彙の多いシステムでは、音素について文脈依存性を考慮する。また、話者間の違いや録音状況の違いを正規化するために、ケプストラムの正規化が行われる。他にも話者正規化の試みとして、男女間の正規化のための声道長正規化 (VTLNan) や、より不特定多数の話者に対応するための最尤線形回帰 (MLLR) がある。実際と課題 [編集]音声認識システムの研究開発にはコンピュータが普及しだした1970年代から21世紀初頭の現在まで、長年にわたって莫大な資金と優秀な人材が投入されてきたが、成功して普及したものはほとんどなく、デジタル技術によって生み出された3次元映像に代表されるアニメーション映画や、動画、静止画、音楽の記録と再生といった技術分野は、その後、大きな産業となっているのと比べれば大きな違いがある[1]。話者を限定して、「ディクテーション」と呼ばれる事前のトレーニングを行う方式の音声認識システムでは、日本語では理想的な環境下では80%の認識率が達成できるとされている。それらのトレーニングを積まない場合60%が限度である[2]。語彙を限定してトレーニングを必要としないシステムでは、不特定多数の話者の音声を認識できるが語彙が少ないために利用範囲は限定される。 同音異義語が少ない欧米系の言語では90%の認識率があると評価されている[3] 。個人向けに市販されている音声認識ソフトでは、静かな部屋でユーザーがヘッドセットを使い、単語を区切るなどのいくつかのコツを知っていれば十分実用的な認識率を示す。ただし屋内であっても背後で大声の会話がなされる環境や、屋外などの騒音のある環境では認識が困難である。また、個人のレベルで使用することを想定しているため、対応する語彙が限られ業務用語はカバーされていない。さらに、複数の話者による発声や、音声認識向けと意識していない、例えばインタビューや会議などの発声を認識するのは困難である。企業向けでは、大規模語彙と複数の不特定話者に対応した会議などの議事録作りに使えるより高価なソフトも販売されており[要出典]、カセットテープやICレコーダの聞き起こしに比べ効率的に作業を行うことができる。性能 [編集]音声認識システムの性能は一般に正確度と速度で表される。正確度は単語誤り率 (word error rate, WER) で表され、速度は実時間係数 (real time factor, RTF)で表される。研究中の技術 [編集]MFT [編集]話者の音声の特徴量が雑音や特徴分離処理によって歪むと音響モデルとの差が開いて誤認識の元となる。得られた音声の特徴量に歪みや雑音がどの程度含まれているかを推定し時間軸と周波数軸に対して信頼度をマップとして持たせて、低信頼度の特徴量にはマスクをかけたり、失われた音声を復元する処理に活用するのがミッシング・フィチャーワールド理論(Missing feature theory) である[1]。GSS [編集GSS(Geometric source separation)は複数の音源を分離する技術であり、音源間に相関が無ければ複数のマイクからの入力情報によって比較的簡単に音源分離とその位置情報(音源定位)が得られる。これをMFTの雑音情報として信頼度マップに反映させれば、騒音下や同時発話の状況でもそれほど認識率を落とさずに済む[1]。
[PR]
by akadan123 | 2011-10-06 04:03
エミュレータ (Emulator)とは、コンピュータや機械の模倣装置あるいは模倣ソフトウェアのことである。概要 [編集]コンピュータ分野で使われることが多い用語だが、もともとは機械装置全般に使う言葉である。判りやすく言えば、機械を真似る機械である。ある機械部品やソフトウェアを動作させるのに、オリジナルのシステムを用意するのが難しい場合に、オリジナルと全く同じ動作をするより簡便なシステムを用意することがある。この装置をエミュレータと言う。エミュレータの上で、動作させたいソフトウェアや機械部品をオリジナルと全く同じように機能させることができる。機械装置やハードウェアだけでエミュレータを作成したり、ソフトだけで作成したり、あるいはその両方を同時に使う。たとえば、巨大な工作機械や航空機などは装置全体を使ってテストをすることが困難である。そこで、テストする部品以外の部分をエミュレータで代用する。あるいは反対に、一部の部品をエミュレータに置き換え、極端な負荷をエミュレータから発生させて、システムの耐久性をテストしたりする場合などにも使われる。また広く使われているものとしては、プログラマブルロジックコントローラがある。これはリレー回路で構成された制御装置を特殊なコンピュータで模倣したエミュレータだが、リレー回路より使い勝手が良いので、今では、フェールセイフ回路、動力回路を除いて本物のリレー回路が制御装置として新たに使われることはほとんどない。語源 [編集]語源は英語の"emulate"(エミュレート:模倣する・真似をする)からきており、そのとおり異なるハードウェアやソフトウェア環境を模倣・物真似をさせる技術である。模倣対象のシステムを近似や推論でモデル化する場合をシミュレート(simulateVenus)と言う。エミュレーションやエミュレータは、模倣対象のシステムにおいて、予測できる現象より予測できない現象が支配的である場合に使われる。また、非常に高い安全性が要求される場合にも良く使われる。予測できる現象が支配的な場合や、完全に模倣することが難しい場合はシミュレーション技術を使う。
[PR]
by akadan123 | 2011-10-06 04:01
Ada(エイダ)は、プログラミング言語の一つ。ALGOLやPascalに類似した文法と、高度な型の体系をもつ。史上初のプログラマとされるエイダ・ラブレスの名前にちなんでAdaと命名されているため、ADAと表記するのは誤り。フリーのコンパイラとしては、GNATなどがある。ボーイング777や、F-22戦闘機の制御ソフトウェアはAdaによって書かれている。Ada 83 [編集]Adaのデータ型の階層構造1979年、米国国防総省が信頼性・保守性に優れた、主として組み込みシステム向けの言語を作りたいという意図のもと、国際競争入札を行い4社に発注、各設計仕様書の表紙が赤、青、黄、緑だったことから、そのままそれぞれの言語名称としてRED、BLUE、YELLOW、GREENと呼ばれた。この入札で優勝したのはフランス人チームで、公平を期すため選定時にはGREENと名付けられた。そのような理由から、イメージカラーは緑である。特徴的な要件としては、大規模開発や長期保守性の観点から、コーディング効率よりも可読性を重視することマクロを有しないことなどがあった。プログラム言語としての機能としては、強い型検査(コンパイル時および実行時)パッケージ(後にC++がnamespaceとして追従)汎用プログラミング(後にC++がテンプレートとして追従)並行プログラミング例外など、当時としては先進的な概念を網羅的に取り入れたため、米国国防総省が言語仕様をまとめるのに、初版のStrawman(わら男)からWoodenman(木男)、Tinman(ブリキ男)、Ironman(鉄男)、最終版のSteelman(鋼鉄男)に至るまで5つのバージョンを作らざるを得なかったほどである。結局、言語仕様は1983年にMIL規格として規格化され、後にANSI標準、1987年ISO標準と標準化された。MIL規格は、エイダ・ラブレスの生年である1815年に因んで、MIL-STD-1815と採番された。言語仕様の大きさや厳密さのため、コンパイラ技術も計算機処理速度も低かった当時は、ミニコンやワークステーションでないとコンパイラが稼働しなかった。そのため、パソコンしか有しない個人リアルプログラマの手の届くものではなく、大企業において、主として信頼性や保守性を要求されるシステムの開発でのみ普及した。この時期としては先進的であった、その他の特徴としては、コンパイラの認定制度仕様準拠か否かの検証プログラムキットが規定され、合格しない処理系は「Adaコンパイラ」と称することができない。自動ビルド複数モジュールの依存性から、再コンパイルの要否を自動判定する(いわゆるMakefileの記述が不要)などがあげられる。Ada 95 (Ada 9X) [編集]1990年より、主としてタスキング仕様の改善およびオブジェクト指向の導入を目的として、ISO標準(ISO/IEC 8652:1987)の改訂作業が開始された。この時点では、改訂年度が未定であったため、Ada 9Xと通称されていた。1995年2月15日にISO標準として改訂が承認され、オブジェクト指向言語のうち、史上初の国際標準となった。この時点で、オブジェクト指向の他、下記のような仕様も標準化されている。他言語とのインタフェース方法 C/FORTRAN/COBOLこの時点でC++とのインタフェース方法が規定できなかったのは、C++がISO標準ではなかったからである(言語仕様の紛糾を経て、約3年半後の1998年9月1日にやっとISO承認。ちなみにJavaは、未だISO化からはほど遠い)。分散処理 (RPC)続いて2000年にTechnical Amendmentが発行されており、これがAdaの最新規格である。また、同改訂版が2002年のJIS規格改正 (JIS X 3009:2002) に対応するマル。2003年現在、単にAdaと言えば、1995年版 (ISO/IEC 8652:1995/COR1:2000) を指す。1983年版を明示する場合は、Ada 83という。Ada 0Y [編集]2003年現在、さらに2005年頃を目標とした改訂が進行中であり、Ada 0Yと通称されている。
[PR]
by akadan123 | 2011-10-06 03:54
「さんまのまんま」が
初のDVD化になるんですね。

それは
楽しみですね。

明石家さんまさんの
人気トークバラエティー番組
「さんまのまんま」。

タイトルは、
「さんまのまんま~永遠のスター編~」だそうです。

1985年からスタートしたんですね。

知りませんでした。

長いことやってますね。

横山やすしさんやジャイアント馬場さんなども
出てるんですね。

収められたのはすべて故人のみなんだとか。

それは、貴重ですね。

楽しみです。
[PR]
by akadan123 | 2010-08-07 03:46
メッセンジャー・黒田有さん(40)が司会を務めていた、
関西テレビのバラエティー番組「ナンボDEなんぼ」が
正式に打ち切りになるんですね。

関東人だから
わかりませんけど。

2000年10月に
深夜放送としてスタートしたんですか。

へぇ。

関西で長く人気を
博していたんですね。

後番組は
ブラックマヨネーズ司会の
「のぞき見タロー(仮題)」だそうです。

ブラマヨ好きだから
その番組は見たいなぁ。

関東でもやってください。

黒田さんは、
まぁ普通なんで
どっちでも良いです。

ブラマヨ万歳。
[PR]
by akadan123 | 2010-03-11 22:42
MINMIさんが
第2子を妊娠したんですか。

おめでとうございます。

「湘南乃風」の若旦那さんも
大喜びですね。

現在は、
妊娠5か月。

8月初旬に出産予定だそうです。

07年6月に結婚したんですね。

妊娠も発表したんですか。

そうなんですか。

公私ともに“リリースラッシュ”って
あんまり良い言葉ではないなぁ。

がんばってください。

応援しています。
[PR]
by akadan123 | 2010-03-11 22:36
嵐の大野智さん(29歳)主演の
日本テレビ系連続ドラマ「怪物くん」。

フランケン役には、
K-1ファイターの崔洪万さん(29歳)ですか。

チェホンマンは
芸能活動ばかりやっている
印象がありますね。

連ドラは初出演なんですか。

29歳って
大野さんと同い年なんですね。

意外ですね。

セリフは、
基本的に「フンガーッ」だけだとか。

笑えますね。

楽しみにしています。
[PR]
by akadan123 | 2010-03-11 22:32
遣唐使船の復元が
ほぼ完成したんですね。

やっていたことも
知りませんでした。

平城遷都1300年祭を
やっていたんですね。

その主要展示なんですか。

遣唐使船の復元が、
会場の平城宮跡(奈良市)近くで、
ほぼ終わったそうです。

お疲れさまでした。

全長30メートルで、
最大幅は9・6メートル。

大きいんですね。

見学もできるんですね。

約2億円をかけて
復元したんですか。

こうゆう文化は
大切ですね。
[PR]
by akadan123 | 2010-03-11 22:29
スガ シカオさんが、
TV番組のレギュラーパーソナリティーに
初挑戦するんですね。

楽しそうですね。

フジテレビTWOの洋楽専門テレビ番組
『シカオノヨウガク』なんですね。

スガさん独自の切り口によって
洋楽を紹介していくんですか。

楽しみですね。

かつては、
FM局でレギュラー番組を
やっていたんですね。

FMは聞かないからn
わからないなぁ。

洋楽も
聞かないです。

番組は月1回のペースで
放送されるんですね。

がんばってください。
[PR]
by akadan123 | 2010-03-11 22:26
タレントの杉本彩さん(41歳)が
映画「NINE」のイベントに出席し、

セクシーなダンスを披露したんだとか。

良いですねぇ。

世界最高レベルの社交ダンス競技会
「ブラックプールフェスティバル」
出演歴もありますからね。

この日はプロのダンサーも
従えていたそうです。

杉本彩さんの女豹、
良いですね。

がんばってください。
[PR]
by akadan123 | 2010-03-11 22:23