« 母をたずねて | メイン | たまには志木勤務♪ »

分かち書きの話

MARC MANIAX目録の5回目は、私たちもしばしば悩む「分かち書き」を、かいつまんでご紹介します。

★分かち書き

「スモモ/モ/モモ/モ/モモ/ノ/ウチ」のように、用語・要語ごとに区切る表記法を分かち書きと言います。一般に各語の区切りは空白が多いようですが、TRCでは「/」(スラッシュ)を入力しています。

分かち書きにする理由は、第一に見易いこと。また、分かち検索ができるシステムならば(国立国会図書館NDL-OPACでは「一般資料の検索(拡張)」の「詳細設定」で「ワード検索」を指定すれば検索可能。TOOLiでは分かち検索のセレクトボックスを用意しています)、漢字・カナの部分一致ではうまく検索できない単語を、きれいに拾うことができます。例えば「ブタ(豚・ぶたを含む)」。分かち検索で「ブタ」と入力すれば、「ブタイ」「アソブ/タノシム」など様々なノイズの中から「ブタ(豚・ぶたを含む)」だけを拾うことができます。


そこで、分かちのルールなのですが…ブログのエントリー上にまとめるのは、またまたちょっと無理でした。まず「この言葉の品詞は?」というところから迷ってしまったりと、日本語は本当に難しい…。TRCでは分かちの基本ルールを20ページ程度にまとめ、更に用例を決めて管理に努めていますが、それでも全ての言葉をルールに則って分離していくのは難しいものです。

基本的な考え方には、「名詞は他の品詞から分離する」「動詞・形容詞は語尾や後続する助動詞・助詞を含めて一語とする」などがあります。TRCの分かち書き基準はオンライン上のものがありませんので、国立国会図書館の基準にこっそりリンク。こちらとは異なるところもありますが、検索語として重要な言葉を分離する、といった基本的な考え方は見て取れるのではないでしょうか。実際にチャレンジしようという場合には、分かちで検索する言葉は限られますので、名詞・固有名詞などを確実に分離することを念頭に、あまり迷いすぎずに作業するのがよいのではと思います。


ひとつだけ例を見てみましょう。「人名に付く接頭語・接尾語は原則として分離する」というルールがあります。「ゴッホ展」は「ゴッホ/テン」、「石川遼クン」は「イシカワ/リョウ/クン」。姓と名は分離します。
「ノーベル賞」「ヨブ記」のように人名から派生し別の意味を持つようになった言葉や、「ヨン様」のようにひとまとまりで愛称になっている言葉は分離しません。

人名ついでにちょっと脱線、豆知識です。「源義経」「安倍晴明」「千利休」の読み方は?実は日本目録規則が定める読み方は、「ミナモトノ/ヨシツネ」~ではなく、「ミナモト/ヨシツネ」「アベ/セイメイ」「セン/リキュウ」なのでした。「おおよそ中世までの人名で慣用される、姓と名の間の「ノ」の読みは、原則として採用しない」というルールがあるのです。彼らの本は「ノ」を抜いた形で探したほうが確実です。


以上、3回にわたって、読み方の話題を取り上げました。来週からは、また「目録をつくる」という流れに戻って、著者や出版社の採り方などをまとめていく予定です。


ひとりごと
洋書の学術書の棚などを眺めていると、「うっ、こんな読みにくい背表紙から探したくない!“漢字”と“かな”の国の人でよかった!」などと思ってしまう私ですが、アルファベットならば「読み」の悩みは存在しないのですよね。日本語ならではの悩みとも向き合いながらここまできたMARC、今後はどうなっていくのでしょうか。

トラックバック

このエントリーのトラックバックURL:
http://datablog.trc.co.jp/cgi-bin/mt/mt-tb.cgi/281

コメントを投稿

(投稿されたコメントは、TRCデータ部の営業時間内にアップいたします。投稿から掲載までお待ちいただく場合がありますがご了承ください。なお、メールアドレスはTRCデータ部から直接ご連絡する場合にのみ使用いたします。第三者への公開・提供はいたしません。)

博物館、図書館、文書館、公民館(MLAK)東日本大震災被災救援情報
博物館、図書館、文書館、公民館(MLAK)東日本大震災被災救援情報

2016年9月

        1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30  

アーカイブ

全てのエントリーの一覧

リンク