RSS
Admin
Archives

毎日ぴよぴよ

勉強したことと日常を書いていきます! まだまだひよこちゃん(`・ω・´)

プロフィール

ぱっぱ

Author:ぱっぱ
ITの会社で働くおんなのこです。
最近ひかりテレビでアニメばっかりみてます。

CakePHPとjQueryをお勉強中。


BUMPが好き。
アイスが好き。
音楽聞きながらの出勤は嫌いじゃない。

最新記事
月別アーカイブ
カテゴリ
検索フォーム
QRコード
QRコード
Powered by fc2 blog  |  Designed by sebek
--.--
--


--:--
上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
2011.01
19
Category : 卒研
覚え書きみたいな感じ。



Twitterから取得したTLデータをMeCabの形態素解析にかけると、大抵の固有名詞は単語がバラバラになってしまいます。

形態素1

バラバラになってしまった「嵐にしやがれ」

これを、固有名詞と判断させるためにどうしたらいいのか。

はてなキーワードwikipediaのタイトルをMeCabの辞書にぶっこんであげればよし。

ということでがんばってみた。
【主な参考ページ様】
MeCabの辞書をはてなキーワードとWikipediaで鍛える
mecab辞書にwikipediaのタイトル名を追加


【はてなキーワード編】
ここからはてなダイアリーキーワードふりがなリストをダウンロード。(keywordlist_furigana.csv)
キーワードIDをついてない方を選んだ。


で、このcsvファイルをMeCabの辞書用のcsvに変換しなければならない。
例えばこんな感じ。

 嵐にしやがれ,0,0,942,名詞,固有名詞,*,*,*,*,嵐にしやがれ,アラシニシヤガレ,あらしにしやがれ,はてなキーワード,


先ほど入手したはてなダイアリーキーワードふりがなリストは
 あらしにしやがれ 嵐にしやがれ


上手い具合に整形してくれるプログラムが必要!!
コチラのプログラムを使わせていただきました。(henkan.rb)

その際に、もう少し固有名詞の制度をあげるため、スコアの数式を調整しました。
score = [-36000.0 ,-400 *(len**1.5)].max.to_i

score = [-32768.0, (6000 - 200 *(title.size**1.3))].max.to_i


なぜこうしたかは、コチラを参考にすると、わかりやすいです!


実行するときは、プログラムのあるところで

ruby henkan.rb keywordlist_furigana.csv > hatena.csv


このあと辞書を登録するために、設定ファイルを書き換えるんだけど、それは下の方にまとめて書きます。


***
躓いたのは、文字コード。
変換したあとが化けちゃったりして大変だった。
変換するまえのkeywordlist_furigana.csvをなんかもちゃもちゃしてたらできた。


------------------------------
【wikipedia】

ほとんどコチラを参考にさせていただきました。

cygwinを入れて叩けばできるハズ。



【はてなキーワードとwikipediaの単語を辞書登録する】
●csvファイルを統合
先ほど生成した二つのcsvファイルを、コピペ(でいいのか?)でがっつりと統合して新しいcsvファイルを作成。(hatena_wikipedia.csv)
重複してる言葉はどうなるんだろう?
ここらへんはよく理解できていない(汗


●辞書登録
(MeCabがCドライブ直下にあると仮定。)
で、hatena_wikipedia.csvを
C:\MeCab\dic\ipadic の下に入れる。



次に、辞書をコンパイルする。

そこで、コマンドプロンプトでipadicまで移動し、

"C:\MeCab\bin\mecab-dict-index" -d"C:\MeCab\dic\ipadic" -u hatena_wikipedia.dic -f utf8 -t utf8 hatena_wikipedia.csv

上手くいくと、hatena_wikipedia.dicが生成される。


C:\MeCab\etc\mecabrc を編集する。
userdic = C:\MeCab\dic\ipadic\hatena_wikipedia.dic
をファイルに追加。


これで使えるようになります!Ξ(*゚▽゚)ノ


csvファイルを統合する必要が無いんじゃない?と思うのですが
二つ辞書登録すると、動かなかったのでこの方法で。
やっぱり、重複して単語登録されてるのが悪いと思われます。うーん。


形態素2


「嵐にしやがれ」きちんと解析してくれました。

Comment

非公開コメント

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。