PDF OCR CLI
PDF OCR CLIは文字の書かれた紙をスキャンしてPDFにしたものをOCRと生成AIでプレーンテキストに変換するCLIです。
タイトルの通りで、画像等のメディアからテキスト部分を認識するOCR技術に生成AIを加えて高精度なOCRツールをCLIとして提供したもの。
モデルにはOCR向けモデルを提供しているMistralが採用されています。以下は他モデルと制度を比較した表です。(※同ページ参照)
Model | 全体 | 数学 | 多言語 | スキャン | 表 |
---|---|---|---|---|---|
Google Document AI | 83.42 | 80.29 | 86.42 | 92.77 | 78.16 |
Azure OCR | 89.52 | 85.72 | 87.52 | 94.65 | 89.52 |
Gemini-1.5-Flash-002 | 90.23 | 89.11 | 86.76 | 94.87 | 90.48 |
Gemini-1.5-Pro-002 | 89.92 | 88.48 | 86.33 | 96.15 | 89.71 |
Gemini-2.0-Flash-001 | 88.69 | 84.18 | 85.80 | 95.11 | 91.46 |
GPT-4o-2024-11-20 | 89.77 | 87.55 | 86.00 | 94.58 | 91.70 |
Mistral OCR 2503 | 94.89 | 94.29 | 89.55 | 98.96 | 96.12 |
現段階でMistralが最も高い精度であったため採用されたみたいです。スマホのOCRも最近は高精度になりましたが、こちらは紙からデータ抽出する作業がより捗りそうです。オプションも用意されているので応用も効きそうですね。
インストールやAPIキーの入力手順、オプションの使い方など詳細はリポジトリをご参照下さい。