« 新書を探したい | メイン | ツブヤキスト~新設件名お知らせ2010年4月分~ »

スキャナ入力でも一苦労

こんにちは。とうとうGWも完全に終わってしまいました。今日からはちゃんと頭を切り替えなければ…。
今日は、内容細目ファイルについてのお話です。

入力には以前ご紹介したスキャナを利用しています。以前は全て手入力でしたが、スキャナで撮った画像から自動的に解析したものを利用して入力しています。
もちろん、以前よりずっと楽になりました。
 
ただやっぱり、スキャナ解析は万能ではありません。スキャナの撮り方、本の紙質、色や目次のレイアウトによっても認識率は随分変わります。

例えばここら辺は誤認識の常連ですが、お分かりですか?
 間題
 烏類
 分折 
                  


答えはそれぞれ、問 鳥 析です。

 
実際に 聖と俗 男と女の物語という本では下の左側のように自動解析されたものを、元と見比べて修正しながら右側のように入力していきます。(これは解析が悪い例です。)

自動解析結果           実際の本

盗入分別             盗人分別
夢療のみそかごと        夢寐のみそかごと
指貫の揺り            指貫の括り
貴租盗犯             貴種盗犯
宛・良文ムロ戦          宛・良文合戦

などなど、なるほどと思う変換も、なんでこれにと思う変換も様々です。

トラックバック

このエントリーのトラックバックURL:
http://datablog.trc.co.jp/cgi-bin/mt/mt-tb.cgi/983

コメントを投稿

(投稿されたコメントは、TRCデータ部の営業時間内にアップいたします。投稿から掲載までお待ちいただく場合がありますがご了承ください。なお、メールアドレスはTRCデータ部から直接ご連絡する場合にのみ使用いたします。第三者への公開・提供はいたしません。)

博物館、図書館、文書館、公民館(MLAK)東日本大震災被災救援情報
博物館、図書館、文書館、公民館(MLAK)東日本大震災被災救援情報

2016年9月

        1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30  

アーカイブ

全てのエントリーの一覧

リンク