文字の書かれた紙をスキャンしてPDFにしたものをOCRと生成AIでプレーンテキストに変換するCLI・「PDF OCR CLI」

Ads

PDF OCR CLI

文字の書かれた紙をスキャンしてPDFにしたものをOCRと生成AIでプレーンテキストに変換するCLI・「PDF OCR CLI」
PDF OCR CLIは文字の書かれた紙をスキャンしてPDFにしたものをOCRと生成AIでプレーンテキストに変換するCLIです。

タイトルの通りで、画像等のメディアからテキスト部分を認識するOCR技術に生成AIを加えて高精度なOCRツールをCLIとして提供したもの。

モデルにはOCR向けモデルを提供しているMistralが採用されています。以下は他モデルと制度を比較した表です。(※同ページ参照)

Model 全体 数学 多言語 スキャン
Google Document AI 83.42 80.29 86.42 92.77 78.16
Azure OCR 89.52 85.72 87.52 94.65 89.52
Gemini-1.5-Flash-002 90.23 89.11 86.76 94.87 90.48
Gemini-1.5-Pro-002 89.92 88.48 86.33 96.15 89.71
Gemini-2.0-Flash-001 88.69 84.18 85.80 95.11 91.46
GPT-4o-2024-11-20 89.77 87.55 86.00 94.58 91.70
Mistral OCR 2503 94.89 94.29 89.55 98.96 96.12

現段階でMistralが最も高い精度であったため採用されたみたいです。スマホのOCRも最近は高精度になりましたが、こちらは紙からデータ抽出する作業がより捗りそうです。オプションも用意されているので応用も効きそうですね。

インストールやAPIキーの入力手順、オプションの使い方など詳細はリポジトリをご参照下さい。

PDF OCR CLI