参考链接
- 【中英字幕/2021】Stanford CS224N 《深度学习自然语言处理》 by Christopher Manning】
- CS224n: Natural Language Processing with Deep Learning(Stanford / Winter 2021)
目录
- 1.The course
- 2.Human language and word meaning
- 3.Word2vec introduction
- 4.Word2vec objective function gradients
- 5.Optimization basics
- 6.Looking at word vectors
Human language and word meaning
NLP中,计算机使用有用的意义的资源可以像是WordNet这种上位次层次结构,但是这种资源存在着一些问题
- 这种层次结构,缺乏细微的差异,例如:”proficient“和”good“
- 对于词缺乏新的含义,无法持续更新
- 需要大量人力
- 无法计算词之间的相似度
one-hot向量表示
缺点:没有similarity的概念
context表示
词向量
word vectors/word embeddings/word representations:
Word2vec introduction
思想:有大量文本语料,固定词汇表的每个单词由一个向量表示,文本中的每个位置t均有一个中心词c和上下文单词o,使用c和o的词向量的相似性来计算给c的o的概率 (反之亦然),不断调整词向量最大化这个概率
目标函数
对于每个位置t=1,…,T,在大小为m的固定窗口内预测上下文单词,给定中心词wt,,其概率函数为:
损失函数为:
求解$P(w_{t+j} | w_t; \theta)$
使用两个vector
来表示每个词w
,表示词w
当前的中心词向量$u_w$和$w$作为上下文词向量$v_w$,计算词向量中心词向量,上下文词向量的概率P(o|c)
作为中心词的w和作为上下文词w的点积,如果点积结果越大就越相似,所以最后使用softmax函数