数日前のブログでOCR比較と題して、画像の文字変換について記しました。本日はその延長上で、面白そうな新聞ネタがあって、これをうまく文字変換できるか興味津々とテストしてみました。前回紹介したgoogle社のアプリを使ってトライしたのですが、結果は思わしくありませんでした。下の画像が実際の結果を示したもので、新聞記事の流れに沿っては変換されず、飛び飛びの順になってしまいました。日本の独特のレイアウト構成を読み取れず、また文字の誤変換も目立ちました。
さて、今回のOCR対象ですが、読売新聞の「時代の証言者」と言うコーナーにさだまさしが昨日から登場し、これを題材にしました。おそらく、20話ほどの連載になろうかと思います。右の画像は昨日、本日の2日分の記事をpdfの画像にしたものです。ご興味ありましたら、クリックしてご覧ください。何分、この手の画像をpdf化するのに慣れておらず、2ページで2〜3MBのファイルサイズになってしまいました。あしからずご承知おきください。ファイルの軽量化を今後の課題として、この連載記事を毎日更新していきたいと思います。乞うご期待(?!)
追記)新聞記事の転載は禁じられているようです。リンクを削除しました。(11/4)