EdrMAMeについて
情報通信研究機構(NICT)様から提供されているEDR日本単語辞書による形態素解析を用いて、形態素表記と品詞、そして、形態素がリンクされている概念ノードを示す概念識別子を出力します。
弊社で形態素解析に利用した際に、提供されて辞書に対して以下のような内容の処理を行っています。
追加した語 : 1万2千語
- 評価中に未知語として扱われた用語で、辞書として登録しておくべきと判断した語です。
- 固有名詞などを登録する際に、該当概念が存在しない場合は分類先になる上位概念を示しています。
例:新江ノ島水族館:品詞は固有名詞にして 概念情報は以下のようにしています。
0f8665:>新江ノ島水族館という施設
0f8665の下位に置くべき概念を意味している
0f8665は、「水族館[スイゾクカン] “水中にすむ生物の生態を観察し,研究する為の施設”」
解析時に不要とした単一語 : 約400語
- 形態素解析には向かない用語と判断した語を使用しないようにしています。
EDR辞書は概念に対して単語辞書を作成していたので、概念(意味)に対して、熟語を1語のように記述している場合があります。
このよう1形態素として扱わないほうが良いと考えたものなどを使用しないようにしています。
例:「公然の秘密」、「机上の空論」、「血と汗の結晶」、「汗の結晶」、「第2」、「双子の赤字」など
- また、EDR日本語単語辞書には複合語が含まれており、そのレコードには語構成を示しています。
本システムにはそれら語を使用しておりません。
ただ、このような情報は、今後、曖昧性解消の目的などに参照することも考えられます。
参考:
EDR日本語単語辞書の仕様はこちらで参照できます
EDR日本語単語辞書のサンプルはこちら からダウンロードできます