概念IDの絞り込み

EdrMAMeの解析結果には形態素がリンクされている概念識別子も併せて出力され文解析に利用可能な情報となっています。 しかし、EdrMAMeでは候補の列挙までに機能を留めており、文脈にあわせた概念情報の絞り込み(意味選択処理)は行われておりません。

そこで本ページでは、概念情報の絞り込みを行う実験を試みたので、その方法等を提示します。

概念情報

EDR辞書体系では、概念という単位で意味を取り扱っており、各概念ごとに固有の16進数の文字列を割り振り扱っています。これを概念識別子と呼んでおり、本ページでは簡素な表現として「概念ID」と呼ぶこととします。 概念は上下関係を持っており、例えば「登山家」という概念は「人間」という概念に内包されるため、「人間」の下位に属する概念になっています。また、一つの概念に対して複数の単語が紐づく場合があります。

EdrMAMeでは、EDR日本語単語辞書の記述内で示される概念IDを出力しますが、先にしてしているように概念候補の絞り込みを行わないため、単語が取り得る概念IDを列挙する形で出力します。以下に解析結果の例を載せます。

EDRMaMeの出力例

1984年に判決が出た米国のベータマックス事件

形態素表記 未知語マーク 品詞 左側連接属性 右側連接属性 概念ID(候補)
1984 数詞 JLN6 JRN8 0
後置助数詞 JSFA JRNE 3c2be7,0eb697
助詞 JL48C JR48C 2621d5
判決 普通名詞 JLN1 JRN1 3cecd3
助詞 JL05C JR05C 2621d5
動詞 JLV1 JRV1 1e85b5,1e85bb,1e85c4,2029ea,2029ec,2029ed,0e5e2a,0ec46c,3cfd93,3cff7e,0e5a01,0f5914,0f5947,0ff963,1e85cd,1ec97b,3ce5ae,3ce5bc,0effae
助動詞 JLWA JEE2 2621c6,36c39f
米国 固有名詞 JLN2 JRN2 0eb810
助詞 JL51N JR51N 2621d5
ベータ 普通名詞 JLN1 JRN1 3bc4c4,702845
マックス 固有名詞 JLN2 JRN2 701405
事件 普通名詞 JLN1 JRN1 3ce7f9,444564

上記の解析結果では「出(る)」という表記の辞書の中で品詞が動詞で定義されている概念を出力しています。以下がその詳細です。

  • 1e85b5 : (ある場所の)内から外へ行く
  • 1e85bb : 品物がよく売れる
  • 1e85c4 : (新聞や出版物が)発行される
  • 2029ea : 発売される
  • 2029ec : 発生する
  • 2029ed : 提出される
  • 0e5e2a : (活躍舞台へ)自分から乗り出す
  • 0ec46c : (ある結果に)定まる
  • 3cfd93 : 姿や形が立ち現れる
  • 3cff7e : 規定の課程を履修する
  • 0e5a01 : (人が)活動する
  • 0f5914 : 出席する
  • 0f5947 : ある場所に出る
  • 0ff963 : 仕事に出ること
  • 1e85cd : 与えられる
  • 1ec97b : 着手する
  • 3ce5ae : ある事態が新たに生じる
  • 3ce5bc : ある場所を離れて目的地へ出発する
  • 0effae : 姿を現わすこと

ここで「出(る)」の概念として適切なのは、「結果・結論が出る」という意味の「0ec46c : (ある結果に)定まる」という概念IDですが、EdrMAMeではその絞り込みまでは行っていません。

そこで、概念IDの絞り込みを行う簡単な実験を試しました。

概念IDの絞り込み

概念IDの絞り込みの方法には様々な方法が考えられますが、 再現も容易なシンプルな方法として共起関係を元にた「対象単語の前後の単語から概念を絞り込むルール」を自動的に作成し、 ルールベースで概念を候補の中から絞り込むということを行いました。 ルール作成には主にEDR辞書に付随する日本語動詞共起パターン副辞書を利用しました。

日本語動詞共起パターン副辞書

日本語動詞共起パターン副辞書は、日本語の主要動詞について、動詞の格に関連する各種の情報を 記述したものです。

動詞の用法に対して動詞の意味を表す概念情報と、核関係に値する目的語など単語に出現する概念の情報が記述されています。以下が副辞書に含まれる情報の一部です。

[語1] が 決まる
{ object [30f78e;30f792;30f7e4 思考内容;思考による産物;事象] } が { act [0ec46c “(ある結果に)定まる”] }

この例では[概念ID:0ec46c]の「決まる」という単語の用法を記述しています。ガ格に[30f78e,30f792,30f7e4]のいずれかの概念に属する(またはその下位の概念に属する)単語が入る場合、「決まる」の概念IDが[0ec46c]に決定する、と解釈することができます。

この例ではガ格のみですが、用法によっては、ヲ格、ニ格を含むものがあります。

ルール例

日本語動詞共起パターン副辞書から特定の概念IDの共起を手掛かりにした、概念ID絞り込みルールを考えることができます。

上記の「決まる」の用法パターン拡張したルールを下記に載せます。


###,{思考内容;思考による産物;事象} {が} 決ま|出|確定((ある結果に)定まる),,,,

形態素表記 品詞 左側連接属性 右側連接属性 条件概念ID 決定される概念ID
* jn1 * * 30f78e,30f792,30f7e4
* * *
決ま|出|確定 jve|jn1;jve * * 0ec46c

ルールのパターンと一致する形態素の列を利用して絞り込みを行います。ここで*は種類を問わないワイルドカードであり、ワイルドカード以外で指定されている要素(形態素表記、品詞、概念ID)は満たされなければルールを適用できないものとします。

「|」は|で連結されたいずれかの要素であれば、条件を満たすということを示しています。

このルールは

  • 概念ID[30f78e,30f792,30f7e4]のどれか又はそれらの下位概念 に属する「名詞」
  • 助詞、「が」
  • 動詞またはサ変動詞の「決ま(る)」、「出(る)」、「確定(する)」のいずれか

が連続して出現した際に「決ま(る)」、「出(る)」、「確定(する)」の概念IDを0ec46cに決定するルールとなっています。

このルールを最初に提示した解析結果に適用することで、「出(る)」の概念IDを絞り込むことが可能になります。こうしたルールを辞書から自動的に作成することで概念IDの絞り込みが可能となります。

まとめ

今回は追加の解析を行わないことを前提としたため、単純な形態素の列をルール条件とした絞り込み方法を考えました。概念を絞り込めるケースは少ないものの、簡単に作成でき、ルールを厳しく設定することで精度を高められることが可能です。

一方で元の辞書パターンは格パターンなので、構文解析などを前提とすることでより正確かつ柔軟なルールの作成が可能です。 また、ルール以外の機械学習ベースの方法も考えられますが、ここでは省かせていただきます。