hwyzw 发表于 2025-2-12 12:42:15

跨语言嵌入模型:将多语言词汇投影到共享空间的应用与评估

    翻译:Xiong Xiao

    [新的简介]不同语言的数据量不同。在某些具有较少数据的语言中,嵌入式模型的培训将很困难,而跨语言嵌入模型使研究人员可以将不同语言的词汇投射到共享的嵌入空间中,从而使我们能够训练大型语言数据量。制作的模型(例如英语)应用于具有较少数据的语言。今天建议您的本文已经整理了跨语言嵌入模型。我们向您介绍了本文的摘要和评估部分。请在最后查看论文的地址以阅读原始文本。

    跨语言嵌入模型使我们能够将不同语言的词汇投射到共享的嵌入空间中。这使我们能够将接受大量数据(例如英语)语言培训的模型应用于具有较少数据的语言。本文分类了跨语言嵌入模型,并根据所采用的方法和并行数据的属性讨论它们。最后,我们指出了挑战,并总结了如何评估跨语言嵌入模型。

    跨语言嵌入模型可以更好地获得通用嵌入空间中多种语言中单词之间的关系

    近年来,由于单词嵌入的成功促进,许多可以准确学习词汇表现的模型已经出现。但是,这些模型通常仅限于以他们训练的语言中获得单词表示形式。英语中存在的资源,培训数据和基准的可用性导致对英语的重视不成比例,并且忽略了全世界其他语言的忽视。在我们的全球化社会中,边界越来越模糊,互联网为每个人提供了均等的访问信息的机会,因此我们不仅要求消除与我们的性别或种族相关的偏见,而且还要求我们对语言的偏见。

    为了解决这个问题并平衡该地区,我们希望利用我们现有的英语知识来为我们的模型提供处理其他语言的能力。完美的机器翻译(MT)可以做到这一点。但是,只要我们可以将样品投射到一个共同的子空间,我们就不需要实际翻译样本,如图1所示。

    https://img2.baidu.com/it/u=487375003,1688986658&fm=253&fmt=JPEG&app=138&f=PNG?w=839&h=500

    图1:两种语言之间共享的嵌入空间

    最终,我们的目标是学习所有语言中词汇之间共享的嵌入空间。配备了这样的矢量空间,我们可以使用任何语言的数据训练模型。通过将一种语言的可用样本投影到该空间中,我们的模型可以同时使用所有其他语言进行预测。

    这项研究回顾了一类模型和算法,这些模型和算法更接近于在通用嵌入空间中以多种语言中单词之间的关系。

    研究人员评估了多个任务中的跨语性表示模型

    在研究了学习跨语言词汇表示的模型之后,我们最终要确定哪一个是解决我们关注的任务的最佳方法。我们已经评估了各种任务中的跨语言表示模型,包括跨语言文档分类(CLDC),机器翻译,词汇相似性以及命名实体识别,言论的一部分注释,超级感官注释以及超声认证的一部分分析和字典诱导中的依赖性语法跨语言变体。在等等的CLDC评估系统下,学会了40维跨语言词汇嵌入,以一种语言对文档进行分类,并在文档分类中以另一种语言进行评估。由于CLDC是最广泛使用的,因此我们将遵循的评估表如下:

    表2 CLDC上跨语言嵌入模型的比较

    https://img1.baidu.com/it/u=4248102888,4154636619&fm=253&fmt=JPEG&app=138&f=JPEG?w=614&h=500

    但是,表2中的结果并不代表跨语言嵌入模型的一般性能,并且在不同任务中使用不同方法和不同类别的数据的模型的性能也不同。等。评估了在不同任务中需要各种形式的监督的跨语言嵌入模型。他们发现,在词汇相似性数据集中,句子对准和文档对齐模型的执行均等。在跨语言分类和字典归纳任务中,监督越详细,效果越好。最后,就句法分析而言,一词对齐模型可以更准确地理解语法,因此总体上的表现更好。

    等人的发现。进一步证明数据的选择至关重要。 Levy等。进行了一项更深入的研究,并将跨语言词汇代表模型的性能与词典诱导和单词一致性任务中的传统对齐模型进行了比较。他们认为,所选算法是否使用特定功能集比选择算法更重要。在他们的实验中,使用句子识别,例如生成句子独立表示(例如)比仅使用源和目标词更好。

    最后,为了促进跨语言词汇嵌入的评估,Ammar等人。构建了一个网站,用于上传学习的语言表示和在各种任务中自动评估。

    允许我们研究跨语言表示的模型已被证明在各种任务中有效,例如机器翻译(解码和评估),自动双语词典生成,跨语言信息检索,平行语料库提取和跨语言文字窃监测。 。期待将来看到更多的进步。

    纸张地址:
页: [1]
查看完整版本: 跨语言嵌入模型:将多语言词汇投影到共享空间的应用与评估