« 異体字の深淵-和漢古書目録作成における漢字入力(2) | メイン | 動物でも植物でもない生物? »

二重に需められて-和漢古書目録作成における漢字入力(3)

こんにちは。AS 伊藤です。主に和漢古書を担当しています。

前回、異体字と正規化について見てみました。異体字の入力にあたっては、検索の便宜を考え、一般的に正規化されていないであろう可能性があるJIS外字はなるべく使わないほうがよいでしょう。
すなわち、冊子目録であれば外字を作成して「現物にある通り」に表記させることも問題ないでしょうが、オンラインデータベースへの入力においては、ユニコードで入力できる文字でも、それが漢字統合の対象外であれば、JIS内の本字のほうを入力しておくべきだろうと思います。

たとえば「校正」の「校」は、木偏が手偏になっている「挍」という異体字も実際にはよく使われていますが、NACSIS-CATはじめ一般的には「校」に正規化されていないので、手元の端末で入力できるからといって、この文字を転記して入力するのは控えたほうがよいと思われます。「挍正~」と入力してしまっていると、「校正*」とタイトル検索してもヒットしない、というはなはだよろしくない状態になります。
こうしたものとして和漢古書でよく目にする異体字としては、ほかに「敵」に対する「歒」、「算」に対する「筭」、「答」に対する「荅」、「第」に対する「苐」などがあります。もしタイトル等でこれらをそのまま転記して入力したいというのであれば、検索に支障をきたさないよう、常用字体のかたちを別に入力しておかなければならないだろうと思います。

JISに収録されている文字でも、包摂基準などに照らしてもなぜ収録されているかよくわからないような「正字でない」漢字は、正規化されているかどうか不確かなことも多く、常用字体や正字体で入力しておいたほうが無難だろうと思います。たとえば、右肩に点を付した「土」の異体字はJISにないのに、「曳」の異体字の「曵」はJIS第二水準にあったりしますが、「曵」のほうが正字というわけでもないので、まあふつうに「曳」で入力しておいてよいだろうと思います。
とくに複雑な情況なのが「刋」という文字で、「刊(kan)」の異体字(俗字)であるとともに、「セン(qian)」というまったく別の字でもあります。ちなみに、『大漢和辞典』では「セン」のほうの具体的な用例はあげられておらず、異体字関係については「刊」の譌字(かじ)すなわち誤字であるとして片付けられています。
ユニコード環境においては、同じユニコード番号が与えられた同形異字という関係になりますが、JISにおいては、字典類を見ても「セン」のヨミしか与えられておらず、あくまで「セン」として収録されているようです(実際、異体字ということであれば、「方向・曲直などの点画の性質による違い」は包摂される、というJISの包摂基準に照らせば「刊」に包摂されて問題ないはずですから)。
そして、NACSIS-CATの「漢字統合インデクス」では「刊」「刋」「栞」は統合されているのに対し、『全國漢籍データベース』では「刊」「栞」は正規化されていますが、「刋」は正規化されていなかったりします。ということで、現物に「刋」とあっても、「刊」の異体字として使用されているのであれば、もともと譌字だということでもありますし、あえて「刋」を使用せずに「刊」で入力しておいたほうがよいだろうと思われます。
ちなみに、JISに収録されている「夲」という字も、もともとは「トウ(tao)」という別の字ですが、ほとんどの場合「本(ben)」の異体字として使われていますので、これも同様に「本」で入力しておいてよいだろうと思います。

なお、検索・内部処理にあたっての正規化ではなく、別字として入力しても包摂の適用によってシステムで自動的に統合されるような場合もあります。たとえば、NACSIS-CATでは、JISの包摂規準に準拠して、別のユニコード文字番号を持つ「綠」と「緑」とは、「緑」に統合されて表示・内部処理されます。
前回あげた中のJIS外字で言えば、NACSIS-CATでは、「增」は「増」に自動的に置き換えられ、「蔣」は「蒋」に正規化されていますので「蔣」のまま入力してよいですが、「䟽」は「疏」に正規化されていませんので「疏」で入力しておくべき、ということになります。

以上、前々回から見てきたように、和漢古書の手書き・手彫りの漢字の入力にあたって、オンラインデータベースへの入力においては、「転記の原則」を単純には適用できません。まず対象の文字を、カタチのみならず意味をも踏まえてどの文字と認定するかに始まり、その文字が現在のコンピュータ環境において扱える文字か、そして検索にあたって支障をきたさないか、というところまで確認・判断して入力していかなければなりません。どの文字が文字セットにあるか、どの文字が正規化されているかは、ともに基準に曖昧なところがあり、多分に偶然によるとさえ言えるような気も正直するのですが、とにもかくにもこの二重の曖昧さをしっかり認識して作業していくことが需(もと)められるのです。

コメントを投稿

(投稿されたコメントは、TRCデータ部の営業時間内にアップいたします。投稿から掲載までお待ちいただく場合がありますがご了承ください。なお、メールアドレスはTRCデータ部から直接ご連絡する場合にのみ使用いたします。第三者への公開・提供はいたしません。)

2024年7月

  1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31      

アーカイブ

全てのエントリーの一覧

リンク