月末にお届けしている「MARCや検索のはなし」。今回は文字のお話です。
「サイトウ」さんを著者名で検索する際、どの文字で検索しますか?
斉藤
齊藤
斎藤
齋藤
...
漢字は本当にバリエーションが豊富です。
では、上記4つの「サイトウ」の「サイ」の字にはどのような違いがあるのでしょうか。
「斉」と「齊」は新字・旧字の関係です。
「斎」と「齋」は新字・旧字の関係です。
「斉」と「斎」は異体字関係にあります。
Aという文字とBという文字を同じ検索結果にするようにシステム上で設定することを正規化といいます。
よくある正規化の例として「ひらがなとカタカナ」「清音と濁音」「新字と旧字」などがあります。
正規化テーブルはそれぞれのシステムの設定により異なります。
TOOLi上では「斉」と「齊」は正規化しているけれど、「斉」と「斎」は正規化していません。
「斎藤一人」さんを検索する際、うっかり「斉藤一人」と検索してしまうと、ヒットしないことになります。
「サイトウ」をTOOLiで検索する際には、漢字を覚えていない場合はカナで検索することをお勧めします。
お使いの検索システムが何を正規化していて何を正規化していないのか、ぜひ試してみて下さい。