全文抽出について調べてみた
Pocketに全文抽出のAPIがあるかとおもったのだが
どうも、Pocketには、全文抽出したテキストを取得できるAPIはないようであった。
diffbotというところのサービスを利用すると取れるようだが、300$/月
libraryがあるか探す
python
newsに特化しているのかもしれないが、取り出せそうであった。
python3.4より新しいほうよがよいようだった
- 31.5. importlib — import の実装 — Python 3.5.2 ドキュメント importlib の reload というのを使っているため。
最初dockerで3.3.6で動かそうとしたらダメだった。
pip install newspaper3k
で、はいってくるのだけど、
nltk.download()
で
punkt
をダウンロードする必要があった。
Java
- boilerpipe
- Apache Tika
boilerpipe
デモサイトがあった
Apache Tika
こっちは、いろいろなファイルフォーマットに対応している。
参考
最初でてきたのは古かったりするが、最近もコメントがあった
本
最近も結構でているのだなぁ
Written on January 24, 2017