WORD REPRESENTATIONS VIA GAUSSIAN EMBEDDING
概要
単語の表現をベクトル(点)ではなく、ガウス分布として獲得する手法を提案した論文。
従来手法との比較
従来の点で表現する手法は、ターゲットとするコンセプトのuncertaintyが表現できない。 ベクトル同士は内積もしくは余弦類似度で比較されるが、非対称性を持つ比較手法が定義しづらい。 平均と分散をデータから学習するガウス埋め込みを行うことで、uncertaintyが表現できる。 また、KLダイバージェンスを用いることで自然に非対称性を捉えたり、 楕円のinclusionなどを空間に持たせたりすることができる。
メソッド
手法の肝はガウス埋め込みを学習する際の距離関数の定義と、損失関数の定義。 SGNSだと語と文脈の距離は内積をシグモイド関数に入れたものを使ってるが、 この手法では対称的なsimilarity measureとKLダイバージェンスの二通りがある。 学習方法自体はSGNSに似ている。
単純な共起から分布包含性を見ることの問題(哺乳類は意味が広いが出現する文脈が少ない)、などの問題をクリアできる?
評価
検証・評価は定量的評価と定性的評価。 ガウス埋め込みは50次元空間で獲得し、ベースラインはSGNSで獲得した50次元のベクトル。 一つのpositive exampleに対しnegative sampleをひとつ用意(少ない?)。
Specificity and Uncertainty
各ジャンルの語に対する最も近傍にある語100語を定性的に評価。 共分散行列の行列式の降順に並べると、小さいバリアンスを持つ語はちゃんと具体的な語になっている。 →specificityとuncertaintyの関係がちゃんと捉えられている。
Entailment
Entailmentのデータセットひとつで評価。 CosやKLダイバージェンスなどの教師なし指標のオプティマルな敷居値でのAP、F1を比較。 基本的に学習したガウス埋め込みで、KLダイバージェンスを用いた方が性能がよい。
Directly learning Asymmetric Relationships
人工的なツリーを、適当な初期値の二次元ガウス埋め込みで学習。 KLダイバージェンスの距離関数を使ってやると、うまいことツリーが空間に埋め込まれている。
Word Similarity Benchmarks
7つの類似度データセットで検証。 基本的にガウス埋め込みを使ったほうが性能がよい。
感想
パラメータが多くなってしまうのが重そう。 しかし、共分散行列で各次元の交互作用的なものが捉えられるのは結構おいしいのだが、 一語に対して平均ベクトルの次元数に加えて、その二乗個のパラメータが必要になってしまう。 対角行列を使えば二倍で済むが、その分リッチさは失われる。
著者ではないがgithubで実装が公開されている。 github.com