どこでも見れるメモ帳

とあるSEの備忘録。何かあれば気軽にコメントください〜

1. データの準備(はてブからブログ記事取得・形態素解析)

はじめに

連載記事 はてブ記事を用いた興味分析 の1つ目の記事です.
本記事では,次の説明を行います.ただし,具体的な処理内容については割愛します.

  • 個人のはてブRSSファイルから,そのそれぞれのWebページに対して本文抽出し,DBに登録する.
  • 本文抽出したWebページに対して,MeCabによる形態素解析を行い,形態素とTF,IDFをDBに登録する.

最終的にできるDB(ER図)は次のようなものです.*1

詳細はGitHubのREADMEを参照ください.

*1:このER図はMySQL Workbenchで作成しました.こちらのページを参考 http://qiita.com/Curxis114/items/c47032c19abdb901b1c3