Vector Semantics II

Mind Map

vs20 图标

Visualing Embeddings

将向量可视化是帮助我们理解、应用和提高这些词义的重要目标。但是我们如何可视化一个(例如)100维的向量?

  • 列出最相似的词
    最简单的可视化方法是将单词w映射到一个空间中,最简单的方法是列出与单词w最相似的单词,并根据它们的余弦值对单词中的所有单词进行排序。
    比如使用GloVe模型列出frog的7个最相似的词:frogs,toad,litoria,leptodactylidae,rana,lizard,andeleutherodactylus(Pennington 2014)。
  • 层级表示
    使用聚类算法进行分层的展示向量空间中最相似的词。(Rohde 2006)
    vs21 图标
  • 投射到二维空间
    最常用的可视化方法是将100维词向量投射到2维空间。下图用的投射方法叫做t-SNE(Maaten and Hinton 2008)。
    vs22 图标

Semantic Properties of embeddings

向量语义模型有很多参数。
♦ context window的大小
通常是1-10,取决于向量表示的目标任务是什么。短的context window更多的是计算词之间的相似性。长的context window更多的是计算词之间的相关性。
(Schutze and Pedersen 1993)提出由两种相似性或相关性:

  • first-order co-occurrence(syntagmatic association)
    通常两个词是紧挨着的。比如wrote是book或poem的一阶关联。
  • second-order co-occurrence(paradigmatic association)
    两个词由相似的邻近词。比如wrote是said或remarked的二阶关联。
    ♦analogy
    Mikolov等(2013b)和Levy和Goldberg (2014b)的研究表明,向量之间的偏移量可以捕捉到单词之间的一些类比关系。
    例如’ king ‘ -‘ man ‘ +’ woman ‘=(‘ queen ‘)。
    vs23 图标
    此外有意思的是从以往的语料库中提取出的历史词向量(historical embeddings)可以捕获单词随着社会的变化词义的改变。比如下图B中1850年‘broadcast’是‘播种’的意思,可以看到1900s开始‘broadcast’有广播的意思,侧面说明了随着工业革命的进展,词义的变化。
    vs24 图标

Bias and Embeddings

♦ 除了从文本中学习单词含义的能力,向量也复制了文本中潜在的隐含偏斜或偏见(biases or stereotypes),包括性别偏见或种族偏见。比如’man’:’doctor’::’woman’:’nurse’:
vs24 图标
这会导致使用语义向量表示的算法在搜索关于’doctor‘的文档时会错误地降低带有女性名字的文档权重。

♦ 此外,向量也会编码人类推理中的隐含关联。下面举几个例子,有兴趣的可以了解一下。

  • 隐含关联测试(Greenwald 1998)通过各种各样的类别组合来度量人类关于概念(concepts)如’flowers‘或’insects‘,与属性(attributes)如’pleasant‘或’unpleasant‘的关联。(简单来说,如果人类把“花”和“快乐”联系在一起,把“昆虫”和“不快乐”联系在一起。当他们被要求按下一个代表“花”(雏菊、鸢尾、丁香)和“愉快的词”(爱、笑、快乐)的红色按钮,按下一个代表“昆虫”(跳蚤、蜘蛛、蚊子)和“不愉快的话”(辱骂、仇恨)的绿色按钮比在不协调的情况下————按下一个红色按钮表示“花朵”和“令人不快的词语”,按下一个绿色按钮表示“昆虫”和“令人愉快的词语”反应更快一些。)
  • 用这样的方法,(Greenwaldetal 1998,Noseketal 2002a,Noseketal 2002b)发现非洲美国人的名字比起欧洲裔美国人的名字更容易和不愉快的词联系在一起,并且男性名字更多和理科联系在一起,而女性名字更常和文科联系在一起。。Caliskan等人(2017)使用Glove向量模型进行复现。所以任何利用情绪词的向量感知算法都可能导致对非裔美国人的偏见。
  • 历史词向量也被用来衡量过去的偏见。Garg等人(2018)利用从历史文献中提取出的词向量来衡量20世纪不同种族或性别的职业词向量与职业名称词向量之间的关系(例如,女性名字与男性名字与“图书馆员”或“木匠”等职业词汇的余弦相似性)。他们发现余弦值与这些职业中女性或种族群体的经验历史百分比相关。历史词向量也重复了对种族偏见的旧调查;1933年的实验参与者倾向于将“勤劳”或“迷信”等形容词与“中国民族”等联系起来。他们还记录了历史上的性别偏见,比如与能力相关的形容词(“smart”、“”、“thinking”、“resourceful”)的词向量中男性余弦值高于女性的余弦值,并表明这种偏见自1960年以来一直在缓慢下降。

♦ 最近的研究有尝试去解决这种biases。例如,通过开发一种向量空间的转换,消除性别偏见但保留性别的定义(Bolukbasi 2016, Zhao 2017)。

Evaluating Vector Models

♦ extrincisc evaluation
外部评估就是将向量模型运用到任何NLP任务当中去,看看是否提高了某些效果。
♦ intrinsic evaluation

  • 最常见的内部评估是测试在计算相似度上的表现————将算法的词相似性得分和人工评分相比较。下面举例几个评分数据集。

    • WordSim-353 (Finkelstein et al., 2002)
      将353个名词对进行从0到10的评分;例如(飞机,汽车)的平均得分为5.77。
    • SimLex-999 (Hill et al., 2015)
      计算(cup,mug)的相似度而不是(cup,coffee)的关联度,包括具体的和抽象的形容词、名词和动词对。
    • TOEFL dataset (Landauer and Dumais 1, 1997)
      有80个问题集来从四个选项中选出目标词的同义词。
    • Stanford Contextual Word Similarity (Huang et al.,2012)
      该数据集给出了人类对2003对句子上下文中的单词的判断,包括名词、动词和形容词。并支持使用上下文单词来评估单词相似性算法。
  • 还有类比(analogy)的方法解决诸如’‘a’:‘b’::‘c’:‘d’的问题,给出a,b,c找到d。
    比如Athens is to Greece as Oslo is to _。应该返回Norway。或
    给出mouse,mice 和dollar。应该返回dolloars。
    (Mikolov 2013)建立了这样的词对数据集。

word2vec

尽管co-occurrence充分利用了词间的数据,但存在的问题是:
♦ 因为大多数词不会共同出现所以矩阵是极其稀疏的
♦ 通常情况下矩阵的维数很高($\approx10^6\times10^6$)且改变(新词的加入和语料库大小的改变)
♦ 计算成本是二次方的(比如执行SVD)
♦ 需要在X上使用一些技巧来解释词频的严重不平衡。
目前已存在一些方法来解决上述问题:
♦ 忽略掉一些停止词像“the”,“has”等等
♦ 使用斜度窗口(比如基于词在文档中的距离对出现次数进行加权)
♦ 使用皮尔森相关系数或设置负计数而不是使用原始计数

下面介绍的word2vec是基于预测的方法