PDFやnxml等で書かれた科学論文を読みやすくHTMLに自動変換する実験的なWebアプリ・「Paper to HTML」

Ads

Paper to HTML


Paper to HTMLはPDFやJATS XML等で書かれた科学論文を読みやすくHTMLに自動変換するWebアプリです。今のところは実験的なプロトタイプで、科学論文をHTMLでレンダリングし、スマホ等でも読みやすくすることを目的として開発されたそうです。

現在対応しているファイル形式は、PDF、LaTeX、PubMed Central XML等となっています。機械学習で論文からコンテンツを抽出しているそうで、今はエラーは避けられないそうですが改善策を模索しているそうで、このような一般公開もその一つかもしれません。

今後の展開としてオープンソース化も検討しているそうですが、テキストデータの抽出に使用しているライブラリのみソースコードが公開されています。

Paper to HTML