第47回 OCR再発見|学会誌・学術印刷全般・学会業務受託など、文化学術の発展に貢献する中西印刷

第47回 OCR再発見

 OCRというものがある。ワープロでうちだされた原稿や手書きの原稿を読み取り、キーボードから打ち込んだようなテキスト文書としてしまうという装置だ。いわば、自動原稿入力装置、完全採字ロボット。これは、究極の印刷業者の夢である。おそらく19世紀のマーゲンターラーもランストンも(ともに活版自鋳植機の発明者)最終的に夢見たのはこれではなかったか。


 実はOCRはかなり昔から売られていた。印刷業界でも10年ほど前、さかんに喧伝されたものだ。夢の機械のような売り方をされて、実際にそれを使ったという仕事の話も聞いた。ただまあ、評判は芳しくなかった。


 なにがって、読み間違えるのだ。一応もっともらしい文章の列を吐き出すのだが、似た字に次々読み間違えてくれる。OCRは、形を読みとって字を判断するものだから、どうしても、似た字は間違えやすい。人間ならば、この文脈からしてここにこんな字が来るわけがないという判断が働くが、機械はそうはいかない。読みとった形どおり判別してしまう。「話」と「詰」とか、「土」と「士」とか、こわいのは「1(数字のいち)」と「l(英字のエル」。


 この似た字に読み間違えてくれるというのが困る。ワープロのミスタッチでも、活字の文選でも、間違うときは思いっ切り変な字にとり違えてくれる。だから、間違いがあっても校正で発見しやすい。しかし、「l」と「1」を読み間違えられたら、発見するのはかなりむつかしい。人間の目は、前後の文脈から「1」を「l」と読みかえてしまうからだ。10年前はこうした欠点がよくわからないまま導入して、失敗してしまった印刷屋がすくなくなかった。読み取りの速度も遅かったし、結局校正もいるというのでは意味がない。入力オペレーターが打った方が速い。


 そのうち、フロッピー入稿の技法が発達して、OCRの存在意義は薄れた。元々、OCRでも手書きは読めなかった。ワープロで打ちだされた物ならある程度読むが、ワープロで打ち出されたのなら必ず元になったフロッピーがあるから、それを変換すればいい。結局、フロッピー入稿の技術を高めるべきで、OCRはあまりかえりみられなくなった。 そして10年がすぎた。


 この間に、スキャナというものが会社の中にあふれるようになった。先日、17800円で安売りのフラットベッドスキャナを買ってきたら(この価格自体も驚異的だが、もうハード類の安売りの話は書き飽きているのでやめる)、OCRソフトがおまけについてきた。17800円のおまけだから、全然期待もしていなかったが、ちょっと悪戯心をおこして、「印刷雑誌」を読ませてみた。読んだ。ほとんど間違いなく。ためしに3ページ読んだ所、タイトルや写真キャブションなどをのぞけば、間違いはわずかに8字、読み取り率は99.7%だった。こ・れ・は・十・分・実・用・に・な・る。


 色々と実験してみた。ゴシックは間違いが多い、半数字を全部全角で読んでしまう、レーザープリンタ出力は読みとるがドットプリンタ出力はやたらに間違えるなどの欠点があった。もっとも、これは17800円のスキャナのさらにおまけのソフトだからで、本当にOCR向けに作った高いソフトならこうした欠点はかなり解消されていそうだ。


 いずれにしても、OCR見直しました。再発見だな。上昇を続けてきたフロッピー入稿率もそろそろ頭打ちだし、OCR真剣に検討してもよさそうだ。


(先月WINDOWS98がまともに動かないと書いたが、今はちゃんと動いています。WINDOWS98の名誉のためにつけくわえておきます。でも苦労したことは事実だから。。。)



ページの先頭へ