EvernoteのWebクリッピング的な本文抽出を自前で行うには?
はじめに
EvernoteのWebクリッピング機能便利ですね。
それと同じようなことを自前でできないか試してみました。
方針
- Webページに対する本文抽出は、こちらのモジュールを利用*1
- 上記モジュールは、HTMLタグもすべて取っ払うため、HTMLタグは残すように修正*2
- 処理対象のWebページについて、文字コードがマチマチで落ちるので、例外処理を追加
試してみる
上の方針に従って、スクリプト作成しました。 github.com
ruby*3が入っていれば、git cloneして以下を実行すれば、Webクリッピングできるはずです。
ruby web_clip.rb [URL]
ちなみに、先頭画像は以下で作成しています。
ruby web_clip.rb http://ni66ling.hatenadiary.jp/entry/2015/06/25/013640
おわりに
最近Evernoteを使い始めて、はてブとの連携がすごく便利*4だと気付きました。
ただ残念なことに、過去にブックマークしたWebページは、Evernoteに一括移行することができないんですね。*5
そこで、過去ブックマークをEvernoteに一括移行できないかと調査しはじめたところです。
これから、Evernote APIとやらを用いて、自動でノートを作成できるように試してみたいと思います。*6
*1:ちなみに、ChromeにおけるEvernoteWebクリッピングは、はてブのモジュールが使われているんだとか。http://meme.efcl.info/2011/05/evernote-chromehatena-extract-content.html
*2:http://xoyip.hatenablog.com/entry/2014/03/08/204704
*3:バージョン1.9以降
*4:魚拓的意味です。数年前にはてブ登録した記事がいまだと読めない…ってことが最近よく起きるようになっていて。それで手軽に魚拓できて素晴らしい!と。
*5:結構ググったのですが、うまく見つけられず…。
*6:QiitaからEvernoteに移行するスクリプトを見つけたので、なんとか作れるんじゃないかなぁと思ってます。https://github.com/yasuhiroki/qiita-to-evernote