全文抽出について調べてみた

Pocketに全文抽出のAPIがあるかとおもったのだが

どうも、Pocketには、全文抽出したテキストを取得できるAPIはないようであった。

diffbotというところのサービスを利用すると取れるようだが、300$/月

libraryがあるか探す

python

newsに特化しているのかもしれないが、取り出せそうであった。

python3.4より新しいほうよがよいようだった

最初dockerで3.3.6で動かそうとしたらダメだった。

pip install newspaper3k

で、はいってくるのだけど、

nltk.download()

punkt

をダウンロードする必要があった。

Java

  • boilerpipe
  • Apache Tika

boilerpipe

デモサイトがあった

Apache Tika

こっちは、いろいろなファイルフォーマットに対応している。

参考

最初でてきたのは古かったりするが、最近もコメントがあった

最近も結構でているのだなぁ

Written on January 24, 2017