Markdrop
Markdropは画像やテーブルのデータ抽出も可能、任意のPDFファイルをMarkdownに変換するPythonパッケージです。
生成AIも導入されており、複数のLLMクライアントを使用して抽出されたテーブル/画像の解析をしつつ、データをMarkdownに変換する、というもの。
PDFからMarkdownへの変換にDocling、テーブル検出にはMicrosoftのTable Transformerなどを用いて実装されています。
使い方など詳細は以下リポジトリをご参照ください。ライセンスはGPLです。