Hyper-Восток

ずるずると進学した大学院生が自然言語処理について。

Multi-Prototype Vector-Space Models of Word Meaning

http://aclweb.org/anthology/N/N10/N10-1013.pdf

単語ベクトルの欠点である多義性に対応するために、表層系、基本形ごとに単語ベクトルを作るのではなく、単語の意味ごとにベクトルを作る。

具体的には、ターゲット語と共起した文脈語のベクトルをクラスタリングし、クラスタの重心を、その単語の一つの意味のベクトルとする。

二語の類似度計算は重心ごとの平均をとったり、もっとも類似度が高い重心間のものを採用したり。

クラスタリングのパラメータにクラスタ数があるが、 1クラスタの場合からKクラスタの場合まで、すべてのクラスタリングの各重心を考慮してもよく(なるほど)、 そうするとなかなかいい結果が出るようだ。

ちょっと重そうだけど。