1. データの準備(はてブからブログ記事取得・形態素解析)
はじめに
連載記事 はてブ記事を用いた興味分析 の1つ目の記事です.
本記事では,次の説明を行います.ただし,具体的な処理内容については割愛します.
- 個人のはてブRSSファイルから,そのそれぞれのWebページに対して本文抽出し,DBに登録する.
- 本文抽出したWebページに対して,MeCabによる形態素解析を行い,形態素とTF,IDFをDBに登録する.
最終的にできるDB(ER図)は次のようなものです.*1
詳細はGitHubのREADMEを参照ください.
*1:このER図はMySQL Workbenchで作成しました.こちらのページを参考 http://qiita.com/Curxis114/items/c47032c19abdb901b1c3