基于双判别器对抗模型的半监督跨语言词向量表示方法
点击次数:
发表刊物:计算机研究与发展
摘要:跨语言词向量表示方法旨在利用资源丰富语言的词向量来提高资源缺乏语言的词向量表示,广泛应用于多种跨语言任务.已有方法通过学习两个词向量空间的映射关系来进行单词对齐,其中基于生成对抗网络的方法由于能在不使用对齐字典的条件下获得良好性能而受到广泛关注,但该方法在远语言对上的效果仍难以令人满意.产生这一结果的原因主要是由于缺乏种子字典的引导.在远距离语言对上映射关系的学习过程中仅依赖于向量空间的全局距离度量,导致其求解的词对存在多种可能,从而难以获得准确的、细粒度单词对齐.为此,本文提出了一种基于双判别器对抗的半监督跨语言词向量表示方法,在已有的对抗模型基础上,增加一个双向映射共享的、细粒度判别器,形成一个具有双判别器的对抗模型。此外,将负样本字典与预对齐字典一起作为监督信号,引入细粒度判别器进行半监督对抗学习,通过最小化初始映射的词对与监督的预对齐字典、负样本字典间的距离来判断初始生成词对的正确性,消减生成多种词对的可能,从而提高词对的对齐精度。在两个跨语言数据集上的实验效果表明,我们提出的方法能够有效提升跨语言词向量表示模型的性能.
是否译文:否