Google Japan Blog: 大規模日本語 n-gram データの公開
■ Google Japan Blog: 大規模日本語 n-gram データの公開
一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」 と 「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデルを使って過去の単語から予測することができます。
このたび、Web から抽出した約200億文(約2550億単語)の日本語データから作成したn-gramデータ(1?7 gram)を公開致しました。データの配布にあたっては特定非営利活動法人 言語資源協会(以下、GSK)の言語資源流通サービスを利用させて頂いており、団体・個人の区別なく御利用頂けます。詳しくはこちらのページを御覧下さい。(なおデータ配布についてのお問い合わせはGSKへお願い致します。)...
投稿者:bizstyle
【トラックバック】
このエントリーのトラックバックURL
http://news.bizstyle.biz/cms/mt-tb.cgi/1446














