こんにちは。とうとうGWも完全に終わってしまいました。今日からはちゃんと頭を切り替えなければ…。
今日は、内容細目ファイルについてのお話です。
入力には以前ご紹介したスキャナを利用しています。以前は全て手入力でしたが、スキャナで撮った画像から自動的に解析したものを利用して入力しています。
もちろん、以前よりずっと楽になりました。
ただやっぱり、スキャナ解析は万能ではありません。スキャナの撮り方、本の紙質、色や目次のレイアウトによっても認識率は随分変わります。
例えばここら辺は誤認識の常連ですが、お分かりですか?
間題
烏類
分折
答えはそれぞれ、問 鳥 析です。
実際に 聖と俗 男と女の物語という本では下の左側のように自動解析されたものを、元と見比べて修正しながら右側のように入力していきます。(これは解析が悪い例です。)
自動解析結果 実際の本
盗入分別 盗人分別
夢療のみそかごと 夢寐のみそかごと
指貫の揺り 指貫の括り
貴租盗犯 貴種盗犯
宛・良文ムロ戦 宛・良文合戦
などなど、なるほどと思う変換も、なんでこれにと思う変換も様々です。