どこでも見れるメモ帳

ちょっとした備忘録を無秩序に投稿します.気軽にコメントください^^

自然言語処理

はてブのタグ付けを因果ネットワークで表示してみた(個人版)

はじめに 個人の興味の移ろいを、タグ付けの因果*1で視覚化できるのでは?と思い、試してみました。 今回も自分自身の「はてブ」で試しました。 視覚化までの流れ こちら(イベントの時系列分析による因果関係知識の獲得)を参考にアレンジして実装してみま…

はてブの共起タグをネットワーク表示してみた(大規模版)

はじめに はてブの共起タグをネットワークを表示してみました。 下図は、「機械学習」タグがついたWebページをほぼ全て取得し、「機械学習」タグと一緒についているタグをGephiでネットワーク表示してみたものです。*1 また、流行りの「deep learning」タグ…

はてブの共起タグをネットワーク表示するには(個人版)

はじめに はてブのタグについて,共起タグを取得し,ネットワーク表示する方法を簡単に記します. 環境はMacOSX,Firefox, はてブ拡張アドオンインストール済とします. 共起頻度が3回以上のタグ組み合わせをネットワーク表示 共起タグの取得 $ echo "tagA,t…

LDAの各変数の意味と幾何的解釈について

はじめに LDAの仕組みについて,時間をあけるとすぐに記憶が飛んでしまうためメモ. ここでは以下についてまとめます*1 LDAのグラフィカルモデルにおける各変数の意味とは? LDAは幾何的に何をやってるのか? LDAのグラフィカルモデル まず,各文書についてB…

はてブを用いた興味分析

はじめに / 何をやりたいのか? 「興味はどこからはじまって,どこへ向かうのか。」知りたい*1 「ある時点までの自分自身の興味推移に即して,いま最も面白いと感じるであろうコンテンツ*2を推薦したい」 「ある時点までの自分自身の興味推移に即して,興味…

1. データの準備(はてブからブログ記事取得・形態素解析)

はじめに 連載記事 はてブ記事を用いた興味分析 の1つ目の記事です. 本記事では,次の説明を行います.ただし,具体的な処理内容については割愛します. 個人のはてブRSSファイルから,そのそれぞれのWebページに対して本文抽出し,DBに登録する. 本文抽出…

2. LDAによるトピック解析

はじめに 連載記事 はてブ記事を用いた興味分析 の2つ目の記事です. ここでは,はてブに登録したWebページ全てに対して,LDA*1によるトピック解析を行い, はてブに登録している内容のトピック(話題,興味の対象)を分析します. 実装の前提として,データ…

HTML特殊文字を含めたストップワード

はじめに 自然言語処理するにあたって、Web収集した文書についてHTML特殊文字が邪魔したので、それを含めたストップリストを作成した.*1 ストップリスト a a's aacute able about above according accordingly acirc across actually acute aelig after aft…