PDFのOCRを無料でする方法【日本語対応・2026年版】

Editriq 編集部
この記事でわかること:
  • スキャンPDFや画像PDFをOCRでテキスト化する具体的な手順
  • 日本語OCRの精度を上げる前処理(傾き補正・解像度・コントラスト)のコツ
  • 文字化け・誤認識が起きやすいパターンと対処法
  • Adobe Acrobat / Google Drive / Smallpdf との機能・コスト比較

紙でもらった資料・契約書・古い文献を 検索可能なテキスト にするには、OCR(光学文字認識) が欠かせません。
ところが「Adobe Acrobat の OCR 機能は有料」「Google Drive の OCR はファイルがクラウドに残る」「無料ツールは英語中心で日本語精度が低い」など、安全かつ高精度に使える選択肢は限られます。

本記事では オンラインで無料・登録不要・ファイル送信なし で日本語 PDF を OCR する手順と、認識精度を最大化する前処理のコツを実務目線でまとめます。

先に結論: 高精度な OCR を実現する 3 つの条件

OCR は「ボタンを押すだけ」で終わる作業ではありません。良い結果を得るには次の 3 条件が必要です。

  1. 元 PDF の解像度が 300dpi 以上(150dpi 以下は誤認識多発)
  2. 傾き・歪みを事前に補正(5 度以上傾いていると精度が大幅低下)
  3. ファイルがブラウザ内だけで処理される(クラウド型は機密漏洩リスク)

この 3 条件を無料で満たせるのが Editriq の OCR です。
ブラウザ内で動く OCR エンジンを使い、ファイルを外部サーバーに送信せず日本語 PDF を文字化できます。

なぜ「画像 PDF」と「テキスト PDF」を区別する必要があるか

PDF には大きく 2 種類あります。

  • テキスト PDF: 文字データが内部に保存されており、検索・コピー&ペーストできる
  • 画像 PDF: ページ全体が画像として保存されており、見た目は文字でも検索・コピー不可

スキャナで紙を取り込んだ PDF や、写真撮影で作った PDF は画像 PDF です。
Word に変換しようとしても本文が画像のままで編集不可、という状態になります。
これを編集可能・検索可能にするのが OCR の役割です。

判別方法は簡単で、PDF を開いて文字を選択しようとするだけです。
- マウスで文字をなぞって選択できる → テキスト PDF(OCR 不要)
- 文字を選択できず画像のように扱われる → 画像 PDF(OCR が必要)

Editriq で PDF を OCR する手順

Editriq の OCR は WebAssembly 版エンジン をブラウザ内で実行する設計で、ファイル送信なしに日本語 OCR が可能です。

1. PDF を読み込む

Editriq エディタ をブラウザで開き、OCR したい PDF をドラッグ&ドロップします。
スキャン PDF・写真 PDF・既存のテキスト PDF どれでも投入可能です。

2. OCR 言語を選ぶ

メニューから OCR 対象の言語を選びます。

  • 日本語のみ: 国内文書、契約書、雑誌記事など
  • 英語のみ: 海外の論文、英文契約書
  • 日本語+英語: 技術書・業界レポートなど混在文書

複数言語を選択すると、ページ内で言語を自動判別して切り替えます。

3. OCR を実行

「OCR 開始」ボタンを押すと、ページごとに画像が解析されます。
処理時間の目安は 1 ページあたり 1-3 秒で、100 ページなら数分で完了します。

4. 認識結果を確認

OCR 完了後、PDF にテキストレイヤーが追加されます。
キーワード検索で正しく文字が抽出されているか確認しましょう。

特に注意したい誤認識パターン:

  • ヘ(カタカナ)と へ(ひらがな): 視覚的にほぼ同じ
  • カ(カタカナ)と 力(漢字): 同じく区別困難
  • 0(ゼロ)と O(オー)と O(全角オー)
  • 古い活字フォント: 旧字体や明朝体の細部で誤認識

5. テキスト PDF として保存

「保存」を押すと、検索可能なテキスト PDF として書き出されます。
このファイルは:

  • PDF ビューアで全文検索できる
  • マウスで文字をコピー&ペーストできる
  • Word への変換時に「画像 PDF 警告」が出なくなる

用途別: OCR 精度を上げる前処理

スキャン PDF(紙資料の電子化)

紙をスキャナで PDF 化したものは、まずスキャン解像度が重要です。

  • 推奨: 300dpi 以上(A4 / 600dpi がベスト)
  • 150dpi 以下だと小さい文字が潰れて誤認識多発
  • ファイルサイズ削減を狙って解像度を下げると、OCR 精度も落ちる

スキャン時に自動傾き補正機能をオンにすると、OCR 精度がさらに上がります。

スマホ撮影 PDF

スマホで紙の書類を撮影して PDF 化したものは、影や歪みが入りやすいです。

  • 真上から撮影(斜めだと文字が歪んで認識率低下)
  • 明るい場所で撮影(コントラストが弱いと認識精度低下)
  • スマホアプリ側の自動補正機能(CamScanner / Microsoft Lens 等)で四角に切り出し+傾き補正してから OCR

古い書類・劣化文献

劣化した書類は、まずコントラスト調整で文字を強調します。

  • グレースケール化して白黒 2 値化するとシャープになる
  • 古い活字はフォント学習データの違いで認識精度が下がるため、OCR 後の校正が必須
  • 縦書き古典資料は横書き優先 OCR では精度が出ないため、縦書き対応エンジンを選ぶ

Editriq vs Adobe Acrobat vs Google Drive vs Smallpdf: 比較表

項目 Editriq Adobe Acrobat Google Drive Smallpdf
料金 完全無料 月額 1,738 円〜 無料(要 Google アカウント) 月額 1,013 円〜
登録 不要 必要 Google アカウント必要 必要
ファイル送信 なし(ローカル処理) なし あり(Google) あり
日本語精度 高(商用エンジン) 高(Google エンジン)
縦書き対応 あり あり 限定的 限定的
1 ファイル枚数上限 実質無制限 無制限 10 枚 無料は 1日2回
機密文書適性 ◎ 推奨 ○(ローカル版) △(Google保存)

結論: 機密文書を含む PDF を 無料・送信なし・日本語高精度 で OCR したいなら、Editriq が最適です。
Google Drive は便利ですが、ファイルが Google に保存される点が機密業務では懸念になります。

よくある失敗と対処法

失敗 1: 「OCR したのに検索でヒットしない」

OCR 結果が画像レイヤーの裏に隠れていて、表示用 PDF と重なっていないケースです。
対処: 保存時に「OCR テキストを埋め込む」オプションを必ず有効化する。

失敗 2: 「日本語が中国語として認識された」

OCR エンジンが言語を自動判別する際、日本語と中国語簡体字が誤判定されることがあります。
対処: OCR 前に言語を明示的に「日本語」に固定する。

失敗 3: 「数字の 0 と O が入れ替わっている」

OCR 全般で起きる典型的な誤認識です。
対処: OCR 後に数字部分だけを正規表現検索(例: [0O]{4,})して、人間が確認・修正。

失敗 4: 「縦書きの古典資料が文字化け」

横書き優先の OCR エンジンでは、縦書きを左から右に読んでしまい意味不明な文字列になります。
対処: 縦書き対応エンジンを選び、必要ならページごとに縦書き/横書きを指定する。

関連記事

まとめ: 今すぐ無料で日本語 PDF を OCR するなら

OCR の品質は「使うエンジン」と「元 PDF の品質」の掛け算です。
Editriq は無料・登録不要・送信なしで日本語 OCR を実行でき、結合・墨消し・Word 変換まで同じツール内で完結します。

スキャン PDF が 1 ファイル手元にあれば、5 分で OCR 体験ができます。
業務で大量に処理する場合は、前処理(解像度・傾き・コントラスト)に時間をかけるほど後工程が楽になります。

今すぐ試す

Editriq の OCR は完全無料・登録不要・日本語対応。スキャン PDF をブラウザにドロップするだけで検索可能なテキスト PDF に変換できます。

Editriq で OCR する →

無料 / 登録不要 / ブラウザ内で完結