SEM/SEOサービスHOME>>SEM/SEOニュース>>Google(グーグル)ニュース >>Google Japan Blog: 大規模日本語 n-gram データの公開

SEM/SEOニュース

SEO(検索エンジン最適化)や Adwords(アドワーズ)やOverture(オーバーチュア)などの
検索キーワード連動型広告を含むSEM(検索エンジンマーケティング)、
検索エンジン業界のニュースを主に紹介。

SEMサービス お問い合せ

Google Japan Blog: 大規模日本語 n-gram データの公開

Google Japan Blog: 大規模日本語 n-gram データの公開
一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」 と 「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデルを使って過去の単語から予測することができます。
このたび、Web から抽出した約200億文(約2550億単語)の日本語データから作成したn-gramデータ(1?7 gram)を公開致しました。データの配布にあたっては特定非営利活動法人 言語資源協会(以下、GSK)の言語資源流通サービスを利用させて頂いており、団体・個人の区別なく御利用頂けます。詳しくはこちらのページを御覧下さい。(なおデータ配布についてのお問い合わせはGSKへお願い致します。)...

【トラックバック】

このエントリーのトラックバックURL

http://news.bizstyle.biz/cms/mt-tb.cgi/1446

>>グーグル中国、世界最短のドメインを取得:コラム - CNET Japan
>>MarkeZine:◎Google Analyticsで、新機能「サイト検索」が利用可能に



SEM/SEOニュース 記事検索


SEM/SEOニュース カテゴリ

バックナンバー

リンク

RSS