こんにちは。ぶー子です。(冬服になりました)
「データ部ログダイジェスト」3回目の今回もカナヨミの説明です。「分かち」とは、ふだんあんまり耳にしないコトバだけど...?
★分かち書き
「スモモ/モ/モモ/モ/モモ/ノ/ウチ」のように、用語・要語ごとに区切る表記法を分かち書きと言います。一般に各語の区切りは空白が多いようですが、TRCでは「/」(スラッシュ)を入力しています。
分かち書きにする理由は、第一に見易いこと。また、分かち検索ができるシステムならば(TOOLiでは分かち検索のセレクトボックスを用意しています)、漢字・カナの部分一致ではうまく検索できない単語を、きれいに拾うことができます。例えば「ブタ(豚・ぶたを含む)」。分かち検索で「ブタ」と入力すれば、「ブタイ」「アソブ/タノシム」など様々なノイズの中から「ブタ(豚・ぶたを含む)」だけを拾うことができます。
そこで、分かちのルールなのですが...ブログのエントリー上にまとめるのは、ちょっと無理でした。まず「この言葉の品詞は?」というところから迷ってしまったりと、日本語は本当に難しい...。TRCでは分かちの基本ルールを20ページ程度にまとめ、更に用例を決めて管理に努めていますが、それでも全ての言葉をルールに則って分離していくのは難しいものです。
基本的な考え方には、「名詞は他の品詞から分離する」「動詞・形容詞は語尾や後続する助動詞・助詞を含めて一語とする」などがあります。TRCの分かち書き基準はオンライン上のものがありませんが、国立国会図書館のサイトには「分かち書き基準」というものが載っています。TRCとは異なるところもありますが、検索語として重要な言葉を分離する、といった基本的な考え方は見て取れるのではないでしょうか。実際にチャレンジしようという場合には、分かちで検索する言葉は限られますので、名詞・固有名詞などを確実に分離することを念頭に、あまり迷いすぎずに作業するのがよいのではと思います。
ひとつだけ例を見てみましょう。「人名に付く接頭語・接尾語は原則として分離する」というルールがあります。「ゴッホ展」は「ゴッホ/テン」、「半沢直樹さん」は「ハンザワ/ナオキ/サン」。姓と名は分離します。
「ノーベル賞」「ヨブ記」のように人名から派生し別の意味を持つようになった言葉や、「さかなクン」のようにひとまとまりで愛称になっている言葉は分離しません。
------------------------------------------------------------------------------
なるほど~。分かちってこういう仕組みになってるんですね!
この仕組みを使うと、検索のとき絞り込んでおこなうこともできるんです。その例のご紹介はまた明日に♪