Loading...

参考链接

目录

  • 1.The course
  • 2.Human language and word meaning
  • 3.Word2vec introduction
  • 4.Word2vec objective function gradients
  • 5.Optimization basics
  • 6.Looking at word vectors


Human language and word meaning

NLP中,计算机使用有用的意义的资源可以像是WordNet这种上位次层次结构,但是这种资源存在着一些问题

  • 这种层次结构,缺乏细微的差异,例如:”proficient“和”good“
  • 对于词缺乏新的含义,无法持续更新
  • 需要大量人力
  • 无法计算词之间的相似度

one-hot向量表示

缺点:没有similarity的概念

context表示

词向量

word vectors/word embeddings/word representations:


Word2vec introduction

思想:有大量文本语料,固定词汇表的每个单词由一个向量表示,文本中的每个位置t均有一个中心词c和上下文单词o,使用c和o的词向量的相似性来计算给c的o的概率 (反之亦然),不断调整词向量最大化这个概率

目标函数

对于每个位置t=1,…,T,在大小为m的固定窗口内预测上下文单词,给定中心词wt,,其概率函数为:

损失函数为

求解$P(w_{t+j} | w_t; \theta)$

使用两个vector来表示每个词w,表示词w当前的中心词向量$u_w$和$w$作为上下文词向量$v_w$,计算词向量中心词向量,上下文词向量的概率P(o|c)

作为中心词的w和作为上下文词w的点积,如果点积结果越大就越相似,所以最后使用softmax函数