どこでも見れるメモ帳

ソフトウェアに関する備忘録を投稿します.何かあれば気軽にコメントください♪

EvernoteのWebクリッピング的な本文抽出を自前で行うには?

はじめに

f:id:ni66ling:20160531161149p:plain

EvernoteのWebクリッピング機能便利ですね。
それと同じようなことを自前でできないか試してみました。

方針

  • Webページに対する本文抽出は、こちらのモジュールを利用*1
  • 上記モジュールは、HTMLタグもすべて取っ払うため、HTMLタグは残すように修正*2
  • 処理対象のWebページについて、文字コードがマチマチで落ちるので、例外処理を追加

試してみる

上の方針に従って、スクリプト作成しました。 github.com

ruby*3が入っていれば、git cloneして以下を実行すれば、Webクリッピングできるはずです。

ruby web_clip.rb [URL]

ちなみに、先頭画像は以下で作成しています。

ruby web_clip.rb http://ni66ling.hatenadiary.jp/entry/2015/06/25/013640

おわりに

最近Evernoteを使い始めて、はてブとの連携がすごく便利*4だと気付きました。
ただ残念なことに、過去にブックマークしたWebページは、Evernoteに一括移行することができないんですね。*5
そこで、過去ブックマークをEvernoteに一括移行できないかと調査しはじめたところです。
これから、Evernote APIとやらを用いて、自動でノートを作成できるように試してみたいと思います。*6

*1:ちなみに、ChromeにおけるEvernoteWebクリッピングは、はてブのモジュールが使われているんだとか。http://meme.efcl.info/2011/05/evernote-chromehatena-extract-content.html

*2:http://xoyip.hatenablog.com/entry/2014/03/08/204704

*3:バージョン1.9以降

*4:魚拓的意味です。数年前にはてブ登録した記事がいまだと読めない…ってことが最近よく起きるようになっていて。それで手軽に魚拓できて素晴らしい!と。

*5:結構ググったのですが、うまく見つけられず…。

*6:QiitaからEvernoteに移行するスクリプトを見つけたので、なんとか作れるんじゃないかなぁと思ってます。https://github.com/yasuhiroki/qiita-to-evernote