2018-01-02

Jupyter Notebook(ipynb)の実質コードのみをgitリポジトリ管理するには

git jupyter

はじめに

Jupyter Notebook(ipynb)をなるべくマシなバージョン管理方法がないか調べてみました。
実現したいことを簡単にならべると次の通り。

jupyter notebook(ipynb)をgitでバージョン管理したい。
実行の都度変わる実行結果はコミットしたくない。
実質的なソースコードの変更のみコミットしたい。
コミット前後で実行結果が勝手に削除されたくない。
ローカルのファイルに対して変更は加えたくない。

これを実現する手順を述べます。

2017-04-09

Gitリポジトリを移行するには？

git

f:id:ni66ling:20170409154640p:plain

はじめに

Gitホスティングサービスを、GitLabからBitBucketへ移行する必要があったのでメモです。
移行対象は、単純にリポジトリのみとします。*1

やりかた

1.移行先の空リポジトリを作成します。*2
2.移行元のリポジトリをベアリポジトリとしてクローンします。

git clone --mirror [移行元リポジトリのURL]

3.移行先のリポジトリをリモート(ここではdestination)に追加します。

cd [リポジトリ名] 
git remote add destination [移行先リポジトリのURL]

4.移行先リポジトリに反映します。

git push destination master
git push --mirror destination

補足: 移行後に移行元のリポジトリにコミットしてしまったら？

あとから同期をとるには、次の手順を踏めばOK！

cd [リポジトリ名]
git fetch --all
git push destination --mirror

*1:GitLabにおけるマージリクエストを、BitBucketにおけるプルリクエストにマッピングする方法は分かりません。

*2:BitBucketの場合、画面から空リポジトリを作成

2016-05-31

EvernoteのWebクリッピング的な本文抽出を自前で行うには？

本文抽出 evernote ruby

はじめに

f:id:ni66ling:20160531161149p:plain

EvernoteのWebクリッピング機能便利ですね。
それと同じようなことを自前でできないか試してみました。

方針

Webページに対する本文抽出は、こちらのモジュールを利用*1
上記モジュールは、HTMLタグもすべて取っ払うため、HTMLタグは残すように修正*2
処理対象のWebページについて、文字コードがマチマチで落ちるので、例外処理を追加

試してみる

上の方針に従って、スクリプト作成しました。 github.com

ruby *3が入っていれば、git cloneして以下を実行すれば、Webクリッピングできるはずです。

ruby web_clip.rb [URL]

ちなみに、先頭画像は以下で作成しています。

ruby web_clip.rb http://ni66ling.hatenadiary.jp/entry/2015/06/25/013640

おわりに

最近Evernoteを使い始めて、はてブとの連携がすごく便利*4だと気付きました。
ただ残念なことに、過去にブックマークしたWebページは、Evernoteに一括移行することができないんですね。*5
そこで、過去ブックマークをEvernoteに一括移行できないかと調査しはじめたところです。
これから、Evernote APIとやらを用いて、自動でノートを作成できるように試してみたいと思います。*6

*1:ちなみに、ChromeにおけるEvernoteWebクリッピングは、はてブのモジュールが使われているんだとか。http://meme.efcl.info/2011/05/evernote-chromehatena-extract-content.html

*2:http://xoyip.hatenablog.com/entry/2014/03/08/204704

*3:バージョン1.9以降

*4:魚拓的意味です。数年前にはてブ登録した記事がいまだと読めない…ってことが最近よく起きるようになっていて。それで手軽に魚拓できて素晴らしい！と。

*5:結構ググったのですが、うまく見つけられず…。

*6:QiitaからEvernoteに移行するスクリプトを見つけたので、なんとか作れるんじゃないかなぁと思ってます。https://github.com/yasuhiroki/qiita-to-evernote

2016-02-14

はてブのタグ付けを因果ネットワークで表示してみた（個人版）

興味分析自然言語処理データ解析

はじめに

個人の興味の移ろいを、タグ付けの因果*1で視覚化できるのでは？と思い、試してみました。
今回も自分自身の「はてブ」で試しました。

視覚化までの流れ

こちら（イベントの時系列分析による因果関係知識の獲得）を参考にアレンジして実装してみました。

流れを簡単にまとめると、次の通りです。

タグ付け系列を生成*2
タグ付け系列を、Kleinbergのバースト系列（列挙型）で連続化
連続化したタグ付け系列の全ペアについて、タグ間に因果関係が存在するかGranger因果検定でテスト
テスト通過したタグ付け系列ペアについて、ネットワークで因果関係を描画もっとたくさん表示した場合*3：

結果について

なんだかそれっぽい因果もあるように見えますが、うーん…微妙。
微妙な理由を挙げてみると、次の通りです。

「まとめ」や「twitter」といった、興味対象自体ではないタグが邪魔する*4
個人だとデータ量が少なすぎて、バースト系列が信頼できない*5
Granger因果検定が正しく動作しているのか謎

改善案として、以下を考えています。
しかし、いずれの改善策も厳し目な印象です。

ネットワーク次数が高すぎるタグは除去する*6
タグでなく、Webページの本文も使う*7
第三者変数による影響を考慮する*8

おわりに

いろいろと思考錯誤した割に、単純な共起ネットワーク*9よりも結果が微妙だった*10ので、
なんとも煮え切らない気持ちになりました。
同じ方針*11だと興味推移を捉えるのは難しそうなので、次は別の方針で行きたいと思います。
以前試したDynamic Topic Model（以下リンク）のほうが今回よりは良かったので、次は再度トピックモデル関係の手法で試してみようかな*12と思います。 github.com

今回作ったスクリプトはGitHubにアップしました。
github.com

ni66ling.hatenadiary.jp

*1:タグ付けの因果とは、例えば、Xタグを付けると、Yタグを付ける傾向があり、また、Yタグを付けると、Zタグを付ける傾向があるとします。このとき、X→Y→Zというタグ付けの因果が生じているとします。具体例で言うと、DeepLearning→RNN→LSTMなど。

*2:タグそれぞれについて、そのタグを付けたWebページの通し番号を取得。この通し番号を時刻とみなします。

*3:表示の閾値を緩めた場合

*4:「まとめ」や「twitter」といったタグを媒介すれば、あらゆるタグに到達できてしまう。興味の移ろいを見たい、というそもそもの意図からずれてしまう。

*5:特定のタグを100回、1000回と多く使うことはなく、数回程度であるため、多くのタグ付け系列は「バーストなにそれ？」状態になってしまう

*6:本当に次数が高いタグも除去するとマズいのですが…

*7:これだとトピックモデルを使ったほうが良いですよね…

*8:改善手法である偏Granger因果検定も試してみました。しかし、結果はこちらも微妙でした。

*9:関連記事をご参照ください。

*10:因果関係は取れませんが