2014-01-01から1年間の記事一覧
はじめに sed*1便利ですよね.ちょっとした文字列操作が簡単にできます. ただ,日常的に使わないと,コマンドとかオプションとかを覚えるのが難しいですよね. ワンライナーな用途を前提として,どういった使い方ができるのか,整理してみました. sedコマ…
はじめに / 何をやりたいのか? 「興味はどこからはじまって,どこへ向かうのか。」知りたい*1 「ある時点までの自分自身の興味推移に即して,いま最も面白いと感じるであろうコンテンツ*2を推薦したい」 「ある時点までの自分自身の興味推移に即して,興味…
はじめに 連載記事 はてブ記事を用いた興味分析 の1つ目の記事です. 本記事では,次の説明を行います.ただし,具体的な処理内容については割愛します. 個人のはてブRSSファイルから,そのそれぞれのWebページに対して本文抽出し,DBに登録する. 本文抽出…
はじめに 連載記事 はてブ記事を用いた興味分析 の2つ目の記事です. ここでは,はてブに登録したWebページ全てに対して,LDA*1によるトピック解析を行い, はてブに登録している内容のトピック(話題,興味の対象)を分析します. 実装の前提として,データ…
はじめに 自然言語処理するにあたって、Web収集した文書についてHTML特殊文字が邪魔したので、それを含めたストップリストを作成した.*1 ストップリスト a a's aacute able about above according accordingly acirc across actually acute aelig after aft…
はじめに 「動画ファイルが多量に存在するけど,ファイル名が適当すぎて目的のファイルをなかなか見つけられない」状況が生じたのでメモ. 方法をざっくり言うと,特定ディレクトリ内のすべての動画ファイルについて,N x Nマスの静止画サムネイルを作成*1す…
はじめに 「Firefoxにて,ページ内の全てのスクロールバーを一番上に移動したい」という状況が生じたのでメモ. 方法を簡単に言うと,ページ内の全てのDOM要素についてscrollTop要素が無いかチェックし,もしあれば0を代入する. ※今回用いるevaluateメソッ…
はじめに 「.NETやopenMPのparallel for的な処理をbashでやりたい」という状況が生じたのでメモ. 方法を簡単に言うと,xargsにseqでループカウンタを渡して,各処理をパラレルに処理する. ※xargsによる並列処理については以前に書いた*1. やりかた $ seq …
はじめに 「コマンドライン引数を色々試したいけど,各処理がシングルスレッドで回って遅い…」という状況が生じたのでメモ. 対処法を簡単に言うと,xargsにより各処理をパラレルに処理することにより高速化する. 言ってしまえば,ターミナルを複数立ち上げ…