文字の書かれた紙をスキャンしてPDFにしたものをOCRと生成AIでプレーンテキストに変換するCLI・「PDF OCR CLI」

PDF OCR CLIは文字の書かれた紙をスキャンしてPDFにしたものをOCRと生成AIでプレーンテキストに変換するCLIです。

タイトルの通りで、画像等のメディアからテキスト部分を認識するOCR技術に生成AIを加えて高精度なOCRツールをCLIとして提供したもの。

モデルにはOCR向けモデルを提供しているMistralが採用されています。以下は他モデルと制度を比較した表です。（※同ページ参照）

Model	全体	数学	多言語	スキャン	表
Google Document AI	83.42	80.29	86.42	92.77	78.16
Azure OCR	89.52	85.72	87.52	94.65	89.52
Gemini-1.5-Flash-002	90.23	89.11	86.76	94.87	90.48
Gemini-1.5-Pro-002	89.92	88.48	86.33	96.15	89.71
Gemini-2.0-Flash-001	88.69	84.18	85.80	95.11	91.46
GPT-4o-2024-11-20	89.77	87.55	86.00	94.58	91.70
Mistral OCR 2503	94.89	94.29	89.55	98.96	96.12

現段階でMistralが最も高い精度であったため採用されたみたいです。スマホのOCRも最近は高精度になりましたが、こちらは紙からデータ抽出する作業がより捗りそうです。オプションも用意されているので応用も効きそうですね。

インストールやAPIキーの入力手順、オプションの使い方など詳細はリポジトリをご参照下さい。