nubata001's blog

Twitter上でエゾリスのアイコンをした人（@tweeting_drtaka）から頼まれました。なんでも希少疾患を研究する現場を手助けするため、予め各疾患を研究する上で参考となるウェブページのURLをまとめたデータベースを作ろうとしているそうです。ただ、このデーターベース、単語単位でGoogle検索を行った結果を利用しているので、結構擬陽性のページが多くて困るとか。そこで、自然言語処理の出番という訳です。

一番初めに考えた戦略は各URLの内容を落としてきて、単語分割を行った上でnaive bayesで参考になるクラスとそうでないクラスに分類するというものです。HTMLの取得はpythonのurllib2で貰ったURLに順番にアクセスしてfetch。ただし、Wikipediaとかは機械的なアクセスを禁止しているので、user-agenetを偽装してアクセスしましょう。HTMLのパースはBeautifulSoupで、単語の切り出しと語幹抽出はNTLKにやらせれば一発です。あと、エゾリスさん曰くH1-H6のタグ内の単語は特に重視したいということなので、これだけは別に処理します。こういうところは本当にpythonの十八番ですね、サクサク行けます。

一方現在困っている問題は、ホームページのフェッチが思ったより時間が掛かるということ。順番にアクセスしていくと下手すると一ヶ月は掛かる可能性があってやってられません。とりあえず一部だけfetchしてやってみようと思っておりますが、場合によってはエゾリスさんが持っているはずのデータを寄越せと交渉しなくてはいけないかもしれません。困りました(´・ω・｀)。