PDFのOCRを無料でする方法【日本語対応・2026年版】
- スキャンPDFや画像PDFをOCRでテキスト化する具体的な手順
- 日本語OCRの精度を上げる前処理(傾き補正・解像度・コントラスト)のコツ
- 文字化け・誤認識が起きやすいパターンと対処法
- Adobe Acrobat / Google Drive / Smallpdf との機能・コスト比較
紙でもらった資料・契約書・古い文献を 検索可能なテキスト にするには、OCR(光学文字認識) が欠かせません。
ところが「Adobe Acrobat の OCR 機能は有料」「Google Drive の OCR はファイルがクラウドに残る」「無料ツールは英語中心で日本語精度が低い」など、安全かつ高精度に使える選択肢は限られます。
本記事では オンラインで無料・登録不要・ファイル送信なし で日本語 PDF を OCR する手順と、認識精度を最大化する前処理のコツを実務目線でまとめます。
先に結論: 高精度な OCR を実現する 3 つの条件
OCR は「ボタンを押すだけ」で終わる作業ではありません。良い結果を得るには次の 3 条件が必要です。
- 元 PDF の解像度が 300dpi 以上(150dpi 以下は誤認識多発)
- 傾き・歪みを事前に補正(5 度以上傾いていると精度が大幅低下)
- ファイルがブラウザ内だけで処理される(クラウド型は機密漏洩リスク)
この 3 条件を無料で満たせるのが Editriq の OCR です。
ブラウザ内で動く OCR エンジンを使い、ファイルを外部サーバーに送信せず日本語 PDF を文字化できます。
なぜ「画像 PDF」と「テキスト PDF」を区別する必要があるか
PDF には大きく 2 種類あります。
- テキスト PDF: 文字データが内部に保存されており、検索・コピー&ペーストできる
- 画像 PDF: ページ全体が画像として保存されており、見た目は文字でも検索・コピー不可
スキャナで紙を取り込んだ PDF や、写真撮影で作った PDF は画像 PDF です。
Word に変換しようとしても本文が画像のままで編集不可、という状態になります。
これを編集可能・検索可能にするのが OCR の役割です。
判別方法は簡単で、PDF を開いて文字を選択しようとするだけです。
- マウスで文字をなぞって選択できる → テキスト PDF(OCR 不要)
- 文字を選択できず画像のように扱われる → 画像 PDF(OCR が必要)
Editriq で PDF を OCR する手順
Editriq の OCR は WebAssembly 版エンジン をブラウザ内で実行する設計で、ファイル送信なしに日本語 OCR が可能です。
1. PDF を読み込む
Editriq エディタ をブラウザで開き、OCR したい PDF をドラッグ&ドロップします。
スキャン PDF・写真 PDF・既存のテキスト PDF どれでも投入可能です。
2. OCR 言語を選ぶ
メニューから OCR 対象の言語を選びます。
- 日本語のみ: 国内文書、契約書、雑誌記事など
- 英語のみ: 海外の論文、英文契約書
- 日本語+英語: 技術書・業界レポートなど混在文書
複数言語を選択すると、ページ内で言語を自動判別して切り替えます。
3. OCR を実行
「OCR 開始」ボタンを押すと、ページごとに画像が解析されます。
処理時間の目安は 1 ページあたり 1-3 秒で、100 ページなら数分で完了します。
4. 認識結果を確認
OCR 完了後、PDF にテキストレイヤーが追加されます。
キーワード検索で正しく文字が抽出されているか確認しましょう。
特に注意したい誤認識パターン:
- ヘ(カタカナ)と へ(ひらがな): 視覚的にほぼ同じ
- カ(カタカナ)と 力(漢字): 同じく区別困難
- 0(ゼロ)と O(オー)と O(全角オー)
- 古い活字フォント: 旧字体や明朝体の細部で誤認識
5. テキスト PDF として保存
「保存」を押すと、検索可能なテキスト PDF として書き出されます。
このファイルは:
- PDF ビューアで全文検索できる
- マウスで文字をコピー&ペーストできる
- Word への変換時に「画像 PDF 警告」が出なくなる
用途別: OCR 精度を上げる前処理
スキャン PDF(紙資料の電子化)
紙をスキャナで PDF 化したものは、まずスキャン解像度が重要です。
- 推奨: 300dpi 以上(A4 / 600dpi がベスト)
- 150dpi 以下だと小さい文字が潰れて誤認識多発
- ファイルサイズ削減を狙って解像度を下げると、OCR 精度も落ちる
スキャン時に自動傾き補正機能をオンにすると、OCR 精度がさらに上がります。
スマホ撮影 PDF
スマホで紙の書類を撮影して PDF 化したものは、影や歪みが入りやすいです。
- 真上から撮影(斜めだと文字が歪んで認識率低下)
- 明るい場所で撮影(コントラストが弱いと認識精度低下)
- スマホアプリ側の自動補正機能(CamScanner / Microsoft Lens 等)で四角に切り出し+傾き補正してから OCR
古い書類・劣化文献
劣化した書類は、まずコントラスト調整で文字を強調します。
- グレースケール化して白黒 2 値化するとシャープになる
- 古い活字はフォント学習データの違いで認識精度が下がるため、OCR 後の校正が必須
- 縦書き古典資料は横書き優先 OCR では精度が出ないため、縦書き対応エンジンを選ぶ
Editriq vs Adobe Acrobat vs Google Drive vs Smallpdf: 比較表
| 項目 | Editriq | Adobe Acrobat | Google Drive | Smallpdf |
|---|---|---|---|---|
| 料金 | 完全無料 | 月額 1,738 円〜 | 無料(要 Google アカウント) | 月額 1,013 円〜 |
| 登録 | 不要 | 必要 | Google アカウント必要 | 必要 |
| ファイル送信 | なし(ローカル処理) | なし | あり(Google) | あり |
| 日本語精度 | 高(商用エンジン) | 高 | 高(Google エンジン) | 中 |
| 縦書き対応 | あり | あり | 限定的 | 限定的 |
| 1 ファイル枚数上限 | 実質無制限 | 無制限 | 10 枚 | 無料は 1日2回 |
| 機密文書適性 | ◎ 推奨 | ○(ローカル版) | △(Google保存) | △ |
結論: 機密文書を含む PDF を 無料・送信なし・日本語高精度 で OCR したいなら、Editriq が最適です。
Google Drive は便利ですが、ファイルが Google に保存される点が機密業務では懸念になります。
よくある失敗と対処法
失敗 1: 「OCR したのに検索でヒットしない」
OCR 結果が画像レイヤーの裏に隠れていて、表示用 PDF と重なっていないケースです。
→ 対処: 保存時に「OCR テキストを埋め込む」オプションを必ず有効化する。
失敗 2: 「日本語が中国語として認識された」
OCR エンジンが言語を自動判別する際、日本語と中国語簡体字が誤判定されることがあります。
→ 対処: OCR 前に言語を明示的に「日本語」に固定する。
失敗 3: 「数字の 0 と O が入れ替わっている」
OCR 全般で起きる典型的な誤認識です。
→ 対処: OCR 後に数字部分だけを正規表現検索(例: [0O]{4,})して、人間が確認・修正。
失敗 4: 「縦書きの古典資料が文字化け」
横書き優先の OCR エンジンでは、縦書きを左から右に読んでしまい意味不明な文字列になります。
→ 対処: 縦書き対応エンジンを選び、必要ならページごとに縦書き/横書きを指定する。
関連記事
- PDFのテキストを無料で編集する方法 — OCR 後のテキストレイヤーを修正する手順
- PDFをWordに無料で変換する方法 — OCR 結果を Word に書き出して編集
- PDFの墨消しを無料でする方法 — OCR で抽出された個人情報の安全な削除
- Smallpdf vs iLovePDF vs Editriq 徹底比較 — OCR 機能の制限・料金を 3 社で比較
- PDF編集の法的注意点 — OCR で抽出した個人情報の取扱いと法律論点
まとめ: 今すぐ無料で日本語 PDF を OCR するなら
OCR の品質は「使うエンジン」と「元 PDF の品質」の掛け算です。
Editriq は無料・登録不要・送信なしで日本語 OCR を実行でき、結合・墨消し・Word 変換まで同じツール内で完結します。
スキャン PDF が 1 ファイル手元にあれば、5 分で OCR 体験ができます。
業務で大量に処理する場合は、前処理(解像度・傾き・コントラスト)に時間をかけるほど後工程が楽になります。
今すぐ試す
Editriq の OCR は完全無料・登録不要・日本語対応。スキャン PDF をブラウザにドロップするだけで検索可能なテキスト PDF に変換できます。
Editriq で OCR する →無料 / 登録不要 / ブラウザ内で完結