このページに表示されている外部サイトへのリンクには広告が含まれています。

pdfをテキスト化するならGoogleドキュメントが簡単!画像も!

営業活動

pdfをテキスト化して、WEBサイトや文書に使いたい時ってありますよね。

この記事では、Googleドキュメントを利用して、pdfファイルをテキスト化する方法について解説しています。

 

リモートワークのツールはたくさんあると思いますが、下記の記事では「GoogleWorkspace」だけで一元管理する方法について解説していますので合わせてご覧下さい。⇒GoogleWorkspaceで簡単に始めるテレワークを詳しく見る

 

経済産業省推進資格ITコーディネータ古澤シンジ

著者:古澤シンジ

経済産業省推進資格ITコーディネータ

古き良きアナログを大切に、デジタルとの融合を考えるマーケティングについて情報を発信。

⇒筆者の情報

pdfのテキスト化はGoogleドキュメントが便利

pdfの内容を文字起こしして、テキスト化する方法はいくつかあります。

  • adobe acrobatを使う
  • アプリをインストールする
  • WEB上のオンラインツールを利用する

今回は、最も簡単で動作が軽い「Googleドキュメント」を利用したテキスト化についてご紹介したいと思います。

 

 

1.Googleドライブから始める

Googleドライブに文書をアップロードし、Googleドキュメントで開く方法です。

今回使用するpdfファイルは次のものです。

Googleドライブでテキスト化するpdf

 

1.Googleドライブを開く

ブラウザでGoogleドライブを開きます。

 

2.Googleドライブに文書をアップロードする

テキスト化したい文書をGoogleドライブにアップロードします。

テキスト化するpdfをGoogleドライブにアップロード

 

3.Googleドキュメントで開く

アップロードした文書を右クリックして、

「アプリで開く」⇒「Googleドキュメント」

を選択します。

テキスト化するpdfをGoogleドライブから開く

 

すると、pdfがテキスト化され、文字が完全に編集可能なドキュメントとしてGoogleドライブにファイルが作成されます。

oogleドキュメントでテキスト化したpdf

 

2.Googleドキュメントから始める

結果は同じになりますが、ここではGoogleドキュメントからpdfテキスト化を行う方法です。

同じpdfを使用します。

 

1.Googleドキュメントを開く

ブラウザでGoogleドキュメントを開き、「新しいドキュメントを作成」から空白のドキュメントを作成します。

pdfをテキスト化するためoogleドキュメントを開く

 

2.テキスト化したいpdfを開く

「ファイル」⇒「開く」を選択し、テキスト化したいpdfファイルをアップロードします。

テキスト化したいpdfをGoogleドキュメントで開く

 

3.テキスト化されたドキュメント完成

アップロードすると、pdfが表示されます。

上部のボタンで「Googleドキュメントで開く」を選択します。

pdfの文字がテキスト化されて、編集可能なドキュメントとして、Googleドライブにファイルが作成されます。

pdfをGoogleドキュメントでテキスト化した状態

 

手書きのpdfを文字起こし

先ほどは、PCで作成されたテキスト文書から文字起こしを行いました。

今度は、手書き文字をスキャンしたpdfファイルをテキスト化してみました。

テキスト化の方法は同様です。

ここで使用する手書きのpdfファイルの内容は次のようなものです。

Googleドキュメントでテキスト化する手書きのpdf

 

汚い字ですが、Googleドキュメントが文字起こしを行い、テキスト化してくれました。

もちろん、作成されたドキュメントはGoogleドライブに保存されています。

手書きのpdfをGoogleドキュメントでテキスト化した状態

 

画像からテキスト化

pdfは文書化できましたが、画像はどうでしょうか?

下記のようなスライドを画像(jpg)に変換して文字起こしできるかどうか試してみました。

Googleドキュメントでテキスト化する画像

 

先ほどと同様にGoogleドライブにアップロードして、Googleドキュメントで開きます。

画像をGoogleドキュメントでテキスト化した状態

画像の場合は、画像と一緒に文字起こしされたテキストも一緒にドキュメントが作成されました。

いかがでしょうか。

ほぼ100%に近い状態でテキスト化できたようです。

解像度の高い画像であれば、より高精度の状態でテキスト化できるのかもしれませんね。

 

テキスト化の技術「OCR」

手書きの文字を起こしてテキスト化したり、画像やpdfの文字をテキスト化してくれる技術をOCR(Optical Character Reader)と言います。

日本語では「光学的文字認識」です。

その精度はどんどん良くなっており、ペーパーレスによる業務効率化には欠かせない技術です。

また、文字だけでなく、音声の文字起こしも可能になってきています。

 

まとめ

いかがだったでしょうか。

今回は、pdfの文字を起こしてテキスト化する「Googleドキュメント」の活用についてご紹介しました。

  • テキスト化は、GoogleドライブまたはGoogleドキュメントから始める
  • 手書きの文字もテキスト化できる
  • 画像からテキスト化した場合、画像とテキストが生成される

ITを利活用した業務改革を図るには、まずは日常の業務から「気づき」を収集し、社内で共有する事が重要です。

業務プロセスや業務フローの中で、効率化・標準化できる課題を見つけ、ITによる解決を試してみる

この繰り返しが業務改革へと繋がります。

今回のOCR技術もどんどん活用し、業務改革を推し進めていきましょう!

 

Googleアプリの利用には「GoogleWorkspace」が便利です。下記の記事で詳しく解説していますので合わせてご覧下さい。⇒GoogleWorkspaceの使い方について詳しく見る

 

コメント

タイトルとURLをコピーしました