画像やテーブルのデータ抽出や任意のPDFファイルをMarkdownに変換するPythonパッケージ・「Markdrop」

Ads

Markdrop


Markdropは画像やテーブルのデータ抽出も可能、任意のPDFファイルをMarkdownに変換するPythonパッケージです。

生成AIも導入されており、複数のLLMクライアントを使用して抽出されたテーブル/画像の解析をしつつ、データをMarkdownに変換する、というもの。

PDFからMarkdownへの変換にDocling、テーブル検出にはMicrosoftのTable Transformerなどを用いて実装されています。

使い方など詳細は以下リポジトリをご参照ください。ライセンスはGPLです。

Markdrop