« すてきな老眼鏡 | メイン | デジタル百花繚乱~新設件名のお知らせ2022年11月分~ »

分かち書きの話~MARC MANIAX 目録2022⑤~

MARC MANIAX 目録の5回目は、私たちもしばしば悩む「分かち書き」について、かいつまんでご紹介します。

★分かち書き
「スモモ/モ/モモ/モ/モモ/ノ/ウチ」のように、用語・要語ごとに区切る表記法を分かち書きと言います。一般に各語の区切りは空白が多いようですが、TRCでは「/」(スラッシュ)を入力しています。

分かち書きにする理由は、第一に見やすいこと。また、分かち検索ができるシステムならば(TOOLiでは分かち検索のセレクトボックスを用意しています)、漢字・カナの部分一致ではうまく検索できない単語を、きれいに拾うことができます。例えば「ブタ(豚・ぶた)」。分かち検索で「ブタ」と入力すれば、「ブタイ」「アソブ/タノシム」など様々なノイズの中から「ブタ(豚・ぶた)」だけを拾うことができます。

TRCの分かち書き基準は、TOOLiのお知らせページ「TRC MARCマニュアル」内にまとめています。
基本的な考え方としては「名詞は他の品詞から分離する」「動詞・形容詞は語尾や後続する助動詞・助詞を含めて一語とする」などがあります。
データ部ではこの基準に従いつつ、更に用例を決めて管理に努めていますが、それでも全ての言葉をルールに則って分離していくのは難しいものです。
実際にチャレンジしようという場合には、分かちで検索する言葉は限られますので、名詞・固有名詞などを確実に分離することを念頭に、あまり迷いすぎずに作業するのがよいのではと思います。

いくつか例を見てみましょう。「人名に付く接頭語・接尾語は原則として分離する」というルールがあります。「ゴッホ展」は「ゴッホ/テン」、「松山英樹さん」は「マツヤマ/ヒデキ/サン」。姓と名は分離します。
ですが、「ノーベル賞」「ヨブ記」のように人名から派生して別の意味を持つようになった言葉や、「浜ちゃん」のようにひとまとまりで愛称になっている言葉は分離しません。

他には、「動植物名や地名は1語とする」というルールもあります。「りゅうぐうのつかい」は「リュウグウ/ノ/ツカイ」ではなく「リュウグウノツカイ」、「サウスカロライナ州」は「サウス/カロライナシュウ」ではなく「サウスカロライナシュウ」となります。
多少は参考になりましたでしょうか。

さて、以上5回にわたってTRC MARCの目録についての基本的な知識をまとめてきました。
とはいえ、ここまではまだまだ序の口。責任表示やTRC MARCならではの項目など、取り上げたいことはたくさんあります。
それらについては少し間をおいて、改めてご紹介したいと思いますので、お楽しみに!

コメントを投稿

(投稿されたコメントは、TRCデータ部の営業時間内にアップいたします。投稿から掲載までお待ちいただく場合がありますがご了承ください。なお、メールアドレスはTRCデータ部から直接ご連絡する場合にのみ使用いたします。第三者への公開・提供はいたしません。)

2024年3月

          1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31            

アーカイブ

全てのエントリーの一覧

リンク