« ご存知ですか? TV情報検索 ~TOOLiで探そう~ | メイン | 寒い日には »

ADEACを知っていますか?~データ作成編~

データ部学術情報ソリューション(AS)の横松です。

前回の記事ではADEACのデータをデータ部学術情報ソリューション(AS)が作成していることを紹介いたしました。
今回は実際にどのような手順でADEACに載せるデータを作成しているのか、その流れの一部をご紹介します。

まず資料の種類によって作るデータが変わります。
県史や市史など文章がメインになる資料(いわゆる図書資料)では、本文のデータを作る必要があります。
絵図・地図など文章のない資料はこの作業が必要ありません。
本一冊分の文章をすべて作り直すのでとても手間がかかりますが
本文があればキーワード検索や他の資料との横断検索もできます。
せっかくインターネットで公開するのですから、こういうことができた方が便利ですよね。

というわけで本文のデータを作る流れを追ってみましょう。
本の中には文章・表・画像・目次...といろいろな情報が入っていますが
ADEACではそれぞれ分けてデータを作り、最後に元の本と同じになるよう組み直します。
データを作る手始めに元のその本の全ページをスキャン。
スキャンした画像から専用のソフトを使って機械的に文字を読み取って文字データを起こします。
ocr.png
機械的に起こした文章は間違いが多いのでまずは一文字ずつ間違った文字を直していきます。
ある程度きれいな文章になった段階で、次はすべて紙に印刷して元の本と比べて校正をします。
この段階でもまだまだ修正箇所がたくさん出てきます。
そうして何度も校正を行った後に、インターネットで公開するための処理を行えば本文の完成です。
kousei.png

本文中に表がある場合も同じように機械的に表を読み取り、これも文章と同じく紙に印刷して校正します。
表の場合は校正が終わったデータを、さらにHTML構文の表に作り直します。
大きい表だとひとつの表にこの作業だけで数日かかることもあります。
hyou.png

他にも本文中の挿図や年表、目次なども同じようにスキャンした画像からそれぞれデータを作っていきます。
最後に作ったデータをすべてリンク付けてすべて完成!
一冊の本を一度全部分解して一から構築し直しているような作業です。
県史・市史などは一冊につき短くても3カ月ほどかかります。

こうして本のデータをすべて作ることで、元の本を読んでいるのとできるだけ同じに閲覧できて、さらにその本の中あるいはADEACに載っている他の資料との検索もできます。
何かを調べるのにはとても便利ですし、本を読んだだけでは気づかない新たな発見もあるかもしれません。

さて、「絵図・地図など文章がない資料は本文データを作らない」と説明しましたがこのような資料をADEACではどのように見せているのでしょうか。
それがADEACの一番の見どころのビューアです。
次回はビューアについて迫りたいと思います。
次回の更新予定は11月10日(月)です。

トラックバック

このエントリーのトラックバックURL:
http://datablog.trc.co.jp/cgi-bin/mt/mt-tb.cgi/2180

コメントを投稿

(投稿されたコメントは、TRCデータ部の営業時間内にアップいたします。投稿から掲載までお待ちいただく場合がありますがご了承ください。なお、メールアドレスはTRCデータ部から直接ご連絡する場合にのみ使用いたします。第三者への公開・提供はいたしません。)

博物館、図書館、文書館、公民館(MLAK)東日本大震災被災救援情報
博物館、図書館、文書館、公民館(MLAK)東日本大震災被災救援情報

2016年9月

        1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30  

アーカイブ

全てのエントリーの一覧

リンク