こんにちは。AS 伊藤です。主に和漢古書を担当しています。
前回異体字について触れましたが、漢字の本字と異体字の関係には、いろいろなパターンと捉えかたがあります。「讀」に対する「読」、「傳」(「傅」ではありません)に対する「伝」、「寶」に対する「寳」「宝」など、正字に対する略字というものが多いですが、「富」に対する「冨」、「場」に対する「塲」、「解」に対する「觧」などは、略字というより通俗字・別体字と言うべきものです。旧字と新字(常用字)、中国・台湾における繁体字と簡体字の関係も、これらと重なり合う場合もあれば微妙にずれる場合もあります。
また歴史的経過のなかで、ほんらい別々の意味だったものが、今日では同じ字の異体字としてのみ捉えられている場合(「脩」と「修」など)もありますし、逆にもともと同じ字の異体字だったものが、今日では別々の文字として使われている場合(「弔」と「吊」など)もあります。
さらに「同形異字」というケースもあり、「芸」は「藝」の新字体であるとともに「ウン」というまったく別の字でもありますし、「叶」は「葉」の簡体字であるとともに「キョウ・かのう」というまったく別の字でもあります。前回見た「巳・已・己」「旦・且」などは、手書き・手彫りの世界においてはこの「同形異字」の範囲が広いのだ、と捉えてもよいかもしれません。
JISも第二水準までいけば収録字数も多く、それなりの数の旧字・異体字も扱えるようになっています。常用字体と微小な相違のある「舍(舎)」「衞(衛)」「卷(巻)」などの正字は、JIS第二水準までに含まれていますので、現物にそのようにあれば新字体に置き換えずに入力すべきでしょう。
もっとも、JISの収録基準はいささか曖昧で、「鄧」「郝」「琦」といった漢籍ではよく見る文字が収録されていないのはちょっと困りものですし、なぜあっちの異体字は収録されていてこっちの異体字は入っていないのかな、と思うようなことも時々あります。
たとえば、「曽」と「曾」は両方ともJIS内字ですが、「増」に対し「增」はJISには収録されていません。「将」と「將」も両方ともJIS内字ですが、「蒋」はJIS内字で「蔣」はJIS外字です。あるいは、「疎」「疏」は両方ともJIS内字ですが、「踈」はJIS内字で「䟽」はJIS外字です。
また、「事」の異体字の「亊」はJIS内字ですが、「叓」のほうはJIS外字です。「狭」と「狹」、「峡」と「峽」は両方ともJIS内字ですが、「夾」はJIS内字で「夹」はJIS外字、「侠」はJIS内字で「俠」はJIS外字、という具合になっています。
JISで扱えない文字も、最近ではユニコード環境で大半が入力できるようになりました。しかし、手元のコンピュータ環境で入力できるからと言って、深く考えずに「転記の原則」にしたがって入力していくのも問題です。
まず一つには、それが環境依存文字である可能性があることです。よくあげられる例として、「崎」の右上が「大」ではなく「立」になっている文字や「はしご高」などは、機種や環境によっては入力・表示できません。一般的なコンピュータ環境で文字化けしてしまったりコード表示されてしまったりする可能性がある漢字の場合は、対応する本字(「崎」「高」)やJIS内の異体字(「嵜」)のほうを入力しておいたほうが安全でしょう。
もう一つは、検索にあたってその文字が本字と同一視されているか、すなわち漢字の正規化処理がなされているかという問題です。以前この部ログでも取り上げられていましたが、「体」と「體」、「龍」と「竜」とで同じ検索結果になるように処理しているか、という話です。前回触れた変体仮名が実装されるとしても、当然このあたりの正規化処理が必須になるわけですね。
この正規化の方式はシステムやデータベースによって異なり、新字-旧字はたいていどのシステムでも正規化していますが、異体字の扱いなどではけっこう違いがあります。たとえば、ほんらいまったく別字であるところの「斎(齋)」と「斉(齊)」とはtool-iでは正規化していませんが、NACSIS-CAT(CiNii)では正規化しています。
また、上述のように、現在ではまったく別々のものとして扱われている文字が歴史的には同じ字の異体字として扱われていたということもあったりしますので、今日では異体字とはされなくても正規化している場合もあります。NACSIS-CATの「漢字統合インデクス」で「着・著・箸」を統合している例などは、まさにこの理由によると思われます(しかし、あまり正規化をやりすぎると検索ノイズが増えてしまうという問題はつねについてまわります)。
次回、正規化の問題を意識した上で、では具体的な入力をどのようにしていくべきか、ひきつづき見ていきたいと思います。