pdfをテキスト化するならGoogleドキュメントが簡単!画像も!

ITツール

pdfをテキスト化して、WEBサイトや文書に使いたい時ってありますよね。

この記事では、Googleドキュメントを利用して、pdfファイルをテキスト化する方法について解説しています。

 

 

筆者:古澤シンジ

経済産業省推進資格ITコーディネータ
IT経営コンサルタント
株式会社ケルヒ代表取締役

⇒筆者の情報

pdfのテキスト化はGoogleドキュメントが便利

pdfの内容を文字起こしして、テキスト化する方法はいくつかあります。

  • adobe acrobatを使う
  • アプリをインストールする
  • WEB上のオンラインツールを利用する

今回は、最も簡単で動作が軽い「Googleドキュメント」を利用したテキスト化についてご紹介したいと思います。

 

 

1.Googleドライブから始める

Googleドライブに文書をアップロードし、Googleドキュメントで開く方法です。

今回使用するpdfファイルは次のものです。

Googleドライブでテキスト化するpdf

 

1.Googleドライブを開く

ブラウザでGoogleドライブを開きます。

 

2.Googleドライブに文書をアップロードする

テキスト化したい文書をGoogleドライブにアップロードします。

テキスト化するpdfをGoogleドライブにアップロード

 

3.Googleドキュメントで開く

アップロードした文書を右クリックして、

「アプリで開く」⇒「Googleドキュメント」

を選択します。

テキスト化するpdfをGoogleドライブから開く

 

すると、pdfがテキスト化され、文字が完全に編集可能なドキュメントとしてGoogleドライブにファイルが作成されます。

oogleドキュメントでテキスト化したpdf

 

2.Googleドキュメントから始める

結果は同じになりますが、ここではGoogleドキュメントからpdfテキスト化を行う方法です。

同じpdfを使用します。

 

1.Googleドキュメントを開く

ブラウザでGoogleドキュメントを開き、「新しいドキュメントを作成」から空白のドキュメントを作成します。

pdfをテキスト化するためoogleドキュメントを開く

 

2.テキスト化したいpdfを開く

「ファイル」⇒「開く」を選択し、テキスト化したいpdfファイルをアップロードします。

テキスト化したいpdfをGoogleドキュメントで開く

 

3.テキスト化されたドキュメント完成

アップロードすると、pdfが表示されます。

上部のボタンで「Googleドキュメントで開く」を選択します。

pdfの文字がテキスト化されて、編集可能なドキュメントとして、Googleドライブにファイルが作成されます。

pdfをGoogleドキュメントでテキスト化した状態

 

手書きのpdfを文字起こし

先ほどは、PCで作成されたテキスト文書から文字起こしを行いました。

今度は、手書き文字をスキャンしたpdfファイルをテキスト化してみました。

テキスト化の方法は同様です。

ここで使用する手書きのpdfファイルの内容は次のようなものです。

Googleドキュメントでテキスト化する手書きのpdf

 

汚い字ですが、Googleドキュメントが文字起こしを行い、テキスト化してくれました。

もちろん、作成されたドキュメントはGoogleドライブに保存されています。

手書きのpdfをGoogleドキュメントでテキスト化した状態

 

画像からテキスト化

pdfは文書化できましたが、画像はどうでしょうか?

下記のようなスライドを画像(jpg)に変換して文字起こしできるかどうか試してみました。

Googleドキュメントでテキスト化する画像

 

先ほどと同様にGoogleドライブにアップロードして、Googleドキュメントで開きます。

画像をGoogleドキュメントでテキスト化した状態

画像の場合は、画像と一緒に文字起こしされたテキストも一緒にドキュメントが作成されました。

いかがでしょうか。

ほぼ100%に近い状態でテキスト化できたようです。

解像度の高い画像であれば、より高精度の状態でテキスト化できるのかもしれませんね。

 

テキスト化の技術「OCR」

手書きの文字を起こしてテキスト化したり、画像やpdfの文字をテキスト化してくれる技術を

OCR(オーシーアール)

といいます。

日本語では「光学的文字認識」です。

その精度はどんどん良くなっており、ペーパーレスによる業務効率化には欠かせない技術です。

また、文字だけでなく、音声の文字起こしも機械によって可能になってきています。

 

まとめ

いかがだったでしょうか。

今回は、pdfの文字を起こしてテキスト化する「Googleドキュメント」の活用についてご紹介しました。

  • テキスト化は、GoogleドライブまたはGoogleドキュメントから始める
  • 手書きの文字もテキスト化できる
  • 画像からテキスト化した場合、画像とテキストが生成される

ITを利活用した業務改革を図るには、まずは日常の業務から「気づき」を収集し、社内で共有する事が重要です。

業務プロセスや業務フローの中で、効率化・標準化できる課題を見つけ、ITによる解決を試してみる

この繰り返しが業務改革へと繋がります。

今回のOCR技術もどんどん活用し、業務改革を推し進めていきましょう!

 

 

コメント

タイトルとURLをコピーしました