PDF OCR CLI

PDF OCR CLIは文字の書かれた紙をスキャンしてPDFにしたものをOCRと生成AIでプレーンテキストに変換するCLIです。
タイトルの通りで、画像等のメディアからテキスト部分を認識するOCR技術に生成AIを加えて高精度なOCRツールをCLIとして提供したもの。
モデルにはOCR向けモデルを提供しているMistralが採用されています。以下は他モデルと制度を比較した表です。(※同ページ参照)
| Model | 全体 | 数学 | 多言語 | スキャン | 表 |
|---|---|---|---|---|---|
| Google Document AI | 83.42 | 80.29 | 86.42 | 92.77 | 78.16 |
| Azure OCR | 89.52 | 85.72 | 87.52 | 94.65 | 89.52 |
| Gemini-1.5-Flash-002 | 90.23 | 89.11 | 86.76 | 94.87 | 90.48 |
| Gemini-1.5-Pro-002 | 89.92 | 88.48 | 86.33 | 96.15 | 89.71 |
| Gemini-2.0-Flash-001 | 88.69 | 84.18 | 85.80 | 95.11 | 91.46 |
| GPT-4o-2024-11-20 | 89.77 | 87.55 | 86.00 | 94.58 | 91.70 |
| Mistral OCR 2503 | 94.89 | 94.29 | 89.55 | 98.96 | 96.12 |
現段階でMistralが最も高い精度であったため採用されたみたいです。スマホのOCRも最近は高精度になりましたが、こちらは紙からデータ抽出する作業がより捗りそうです。オプションも用意されているので応用も効きそうですね。
インストールやAPIキーの入力手順、オプションの使い方など詳細はリポジトリをご参照下さい。

