- プロフィール
Author:ぱっぱ
ITの会社で働くおんなのこです。
最近ひかりテレビでアニメばっかりみてます。
CakePHPとjQueryをお勉強中。
BUMPが好き。
アイスが好き。
音楽聞きながらの出勤は嫌いじゃない。
- 最新記事
- 月別アーカイブ
- カテゴリ
- 検索フォーム
- QRコード

|
--.--
-- --:-- |
Category : スポンサー広告
|
|
2011.01
19 |
Category : 卒研
覚え書きみたいな感じ。
Twitterから取得したTLデータをMeCabの形態素解析にかけると、大抵の固有名詞は単語がバラバラになってしまいます。 ![]() バラバラになってしまった「嵐にしやがれ」 これを、固有名詞と判断させるためにどうしたらいいのか。 はてなキーワードとwikipediaのタイトルをMeCabの辞書にぶっこんであげればよし。 ということでがんばってみた。 【主な参考ページ様】
MeCabの辞書をはてなキーワードとWikipediaで鍛える mecab辞書にwikipediaのタイトル名を追加 【はてなキーワード編】 ここからはてなダイアリーキーワードふりがなリストをダウンロード。(keywordlist_furigana.csv) キーワードIDをついてない方を選んだ。 で、このcsvファイルをMeCabの辞書用のcsvに変換しなければならない。 例えばこんな感じ。 嵐にしやがれ,0,0,942,名詞,固有名詞,*,*,*,*,嵐にしやがれ,アラシニシヤガレ,あらしにしやがれ,はてなキーワード, 先ほど入手したはてなダイアリーキーワードふりがなリストは あらしにしやがれ 嵐にしやがれ 上手い具合に整形してくれるプログラムが必要!! コチラのプログラムを使わせていただきました。(henkan.rb) その際に、もう少し固有名詞の制度をあげるため、スコアの数式を調整しました。 score = [-36000.0 ,-400 *(len**1.5)].max.to_i ↓ score = [-32768.0, (6000 - 200 *(title.size**1.3))].max.to_i なぜこうしたかは、コチラを参考にすると、わかりやすいです! 実行するときは、プログラムのあるところで ruby henkan.rb keywordlist_furigana.csv > hatena.csv このあと辞書を登録するために、設定ファイルを書き換えるんだけど、それは下の方にまとめて書きます。 *** 躓いたのは、文字コード。 変換したあとが化けちゃったりして大変だった。 変換するまえのkeywordlist_furigana.csvをなんかもちゃもちゃしてたらできた。 ------------------------------ 【wikipedia】 ほとんどコチラを参考にさせていただきました。 cygwinを入れて叩けばできるハズ。 【はてなキーワードとwikipediaの単語を辞書登録する】 ●csvファイルを統合 先ほど生成した二つのcsvファイルを、コピペ(でいいのか?)でがっつりと統合して新しいcsvファイルを作成。(hatena_wikipedia.csv) 重複してる言葉はどうなるんだろう? ここらへんはよく理解できていない(汗 ●辞書登録 (MeCabがCドライブ直下にあると仮定。) で、hatena_wikipedia.csvを C:\MeCab\dic\ipadic の下に入れる。 次に、辞書をコンパイルする。 そこで、コマンドプロンプトでipadicまで移動し、 "C:\MeCab\bin\mecab-dict-index" -d"C:\MeCab\dic\ipadic" -u hatena_wikipedia.dic -f utf8 -t utf8 hatena_wikipedia.csv 上手くいくと、hatena_wikipedia.dicが生成される。 C:\MeCab\etc\mecabrc を編集する。 userdic = C:\MeCab\dic\ipadic\hatena_wikipedia.dic をファイルに追加。 これで使えるようになります!Ξ(*゚▽゚)ノ csvファイルを統合する必要が無いんじゃない?と思うのですが 二つ辞書登録すると、動かなかったのでこの方法で。 やっぱり、重複して単語登録されてるのが悪いと思われます。うーん。 ![]() 「嵐にしやがれ」きちんと解析してくれました。 |
Trackback
Comment