社内開発のテーマとしてEDR辞書(日本語)の分析・評価を続けております。
EdrMAMe(EDR日本語単語辞書による形態素解析機構を使ったEDR概念辞書へのインデクサー)を開発し、形態素解析機構としては不要な語の選別や不足語の追加を行っています。
その機構を用いてEDR概念辞書へのリンク情報になる概念識別子(概念ID)を求めることができるので、意味の曖昧性の研究などにご利用いただければと考えております。
現状では、意味選択の機構ではなく、得られた概念識別子の絞り込みなどは今後の評価・実験などで行うことと考えています。
EdrMAMe:形態素解析 + EDR概念辞書へのインデクサー
実際の解析結果などを確認できるデモを用意してますが、現在調整中です。
追加した語 | 1万2千語 |
解析時に不要とした単一語 | 約400語 |
- EDR日本語単語辞書に含まれる複合語レコードは使用しておりません。
ただ、概念識別子の絞り込みなどの曖昧性解消のために参照することも考えています。
機能として、入力される日本語文を形態素に区切り、その各形態素がリンクする概念識別子を求めることができます。
先に示しているように、ほとんどの形態素に対して概念識別子の絞り込みは行っていないので、その絞り込みなどは曖昧性の解消などの評価・研究のテーマになると考えます。社内でも実験をしてみたので、参考になるかと思います。その結果は「概念IDの絞り込み(こちら)」でご確認いただけます。
- 尚、日本語文の形態素の並びを一意に決めてしまうので、形態素解析結果が誤っている場合は、希望する概念IDを求めることはできなくなります。
EdrMAMeの詳細はこちらを参照ください。
また社内開発テーマで行っているEdrMAMeを対象にした分析・実験の詳細はこちらを参照ください。