読者です 読者をやめる 読者になる 読者になる

どこでも見れるメモ帳

ちょっとした備忘録を無秩序に投稿します.気軽にコメントください^^

1. データの準備(はてブからブログ記事取得・形態素解析)

はじめに

連載記事 はてブ記事を用いた興味分析 の1つ目の記事です.
本記事では,次の説明を行います.ただし,具体的な処理内容については割愛します.

  • 個人のはてブRSSファイルから,そのそれぞれのWebページに対して本文抽出し,DBに登録する.
  • 本文抽出したWebページに対して,MeCabによる形態素解析を行い,形態素とTF,IDFをDBに登録する.

最終的にできるDB(ER図)は次のようなものです.*1

詳細はGitHubのREADMEを参照ください.

*1:このER図はMySQL Workbenchで作成しました.こちらのページを参考 http://qiita.com/Curxis114/items/c47032c19abdb901b1c3