【coling 2020】Attentively Embracing Noise for Robust Latent Representation in BERT

news/2024/7/5 13:00:30 标签: 自然语言处理, 人工智能, nlp

原文链接:https://aclanthology.org/2020.coling-main.311.pdf


intro

本文针对ASR转化成文本之后的文本分类任务进行鲁棒性研究。作者基于EBERT进行优化,EBERT比传统bert的优点在于后者只使用输入的第一个【CLS】token生成输入的表征,其余的均丢弃,可是当文本带噪时单一的【CLS】token作为表征容易受到剧烈影响。Ebert则把丢弃的token作为额外信息的来源,与第一个【CLS】token共同生成输入表征,更具鲁棒性。
作者对EBERT的优化点使用一个新的注意记忆层和多层注意层进一步编码那些本该丢弃的token,在注意包含层生成一个表征e,最终和【CLS】token的表征共同投影生成一个鲁棒性表征,优化文本分类。


method

作者模型图如下:
image

  1. inpuut的tokens编码成embedding后,过一个transformer layer编码成tokens T。
  2. tokens T分为两部分,一部分是【CLS】token,直接输入投影层
  3. 另一部分则是本该遗弃的剩余 tokens Ti∀i∈{1,…,N},这些剩余的tokens经过多头自注意力机制,生成表示d
  4. 表示d进入注意力包含层(Attentive Embracement Layer),通过将剩余的tokens们与【CLS】tokens进行一一比较,考虑他们与【cls】token相比较的重要性,最终生成一个个概率作为这些tokens被选择的概率,dn变为d‘n(如下图(b))
    image
  5. 最终这些d‘n加和生成e,将【CLS】token与剩余token的表示e进行投影对齐,生成最终鲁棒性表示T‘c。
    image
  6. T‘c代表句子的表征,下面的公式代表该表征被分类到类C的概率:
    image

dataset

使用意图分类的ChatbotNLU评估语料库。由从一个德国电报聊天机器人中获得的句子组成,用于回答有关公共交通连接的问题。该数据集有两个意图,即【出发时间】和【查找站点的连接】。100个训练样本和106个测试样本。尽管英语是测试的主要语言,但这个数据集包含了一些德语站点和街道名称。原始数据集包含干净的数据,作者为了加入噪声,对该数据应用一个文本到语音(TTS),然后应用一个语音到文本(STT)模块。这个过程如图所示:
image
通过分别换成两个不同STT模块,生成两个不同的数据集witai和sphinx,并通过WER评估两个数据集的噪声水平。

set up
三种训练测试设置:
(1) 训练和测试干净的数据
(2) 训练干净数据和测试噪声数据
(3) 训练和测试噪声数据


experiment

主试验:

image

消融实验:(未仔细看)

换了四种EBERT对于剩余tokens的处理结构:

image
实验结果:
image

个人总结:感觉创新点很少,就是修改EBERT,把原本的等概率P=1/N抽取剩余的tokens,换成了通过attention输出抽取权重,但是在训练测试的设置2下,有不错的提升。


http://www.niftyadmin.cn/n/1372261.html

相关文章

Are We NER Yet? Measuring the Impact of ASR Errors on Named Entity Recognition in Spontaneous Con

贡献 在本文中,我们研究了与识别命名实体的下游任务相关的 ASR-NLP 差距的真实大小。 使用基准和内部数据集(他们自己做的数据集)的组合,我们展示了最先进的语言模型如何无法发现自发人类对话记录中命名实体主要类别的实体跨度&a…

虚假数字造成恶性循环 谁更需要“73%”就业率

虚假数字造成恶性循环 谁更需要“73%”就业率 -------------------------------------------------------------------------------- http://www.sina.com.cn 2005/06/01 10:19 人民网-华南新闻   教育部高校学生司一负责人在日前启动的“2005关注中国大学生就业”系列活…

[COLING 2018] Modeling Semantics with Gated Graph Neural Networks for KBQA 阅读笔记

[COLING 2018] Modeling Semantics with Gated Graph Neural Networks for KBQA 阅读笔记 motivation: 大多数知识库问答方法都是基于语义分析的。在本文中,作者解决了由多个实体和关系组成的复杂语义解析的学习向量表示问题。以前的工作主要集中在为一个问题选择…

看《青红》及其其他

刚刚看了这个片子,感觉和《天浴》差不多,让人酸酸的。。。 我们都知道这是制度的问题,哪些被扭曲的心灵的挣扎看在眼里,痛在心里。。 可是,在这个我们自认为现代的今天,从未来看,何尝又不是生活…

好女人是一所学校- -

好女人是纯真的   曾经请教过一位语言学家,为什么儿童学习英语那么快?他告诉我,一个很主要的原因是儿童的心理比较单纯,他每做一件事都是一心一意的,只要他喜欢,他就会乐在其中。而成人则不然&#xff0c…

这辈子一定要混个博士,以下文字与博士无关

我们夜里躺在床上睁大眼睛,却无法在漆黑中排遣郁闷时,就会格外的想到曾经有个人陪在身边。很多往事会像潮水一样向我们扑来。 我们曾经暗恋过的人、曾经追求过但失败了的人、曾经相爱过的人,都一一地闪过脑海,于是,心里…

一位工行员工关于银行现状的文章(转载)

(转载) 发信人: lovofe (小固), 信区: TJExpress 标 题: 一位工行员工关于银行现状的文章(转载) 发信站: 同舟共济站 (Mon Aug 15 12:37:28 2005), 站内   近年来银行改革潮起潮涌,改革是银行发展的必然趋势,也是各家银行各级行长说的频率最高的词。但“…

权威最新世界大学排名

发信人: news (倒影中的月亮在和路灯谈判), 信区: TJExpress 标 题: 权威最新世界大学排名 -交大337-复旦349 发信站: 同舟共济站 (Mon Aug 15 20:57:53 2005), 站内 上海交通大学高等教育研究所 权威世界大学排名(2005最新版) http://ed.sjtu.edu.cn/ra…