本篇文章1691字,读完约4分钟

知道从凹非寺出发的事

量子报道|公众号qbitai

bert、gpt-2、xlnet等通用语言模型展现了强大的处理拷贝、问答等各种任务的能力。 这些模型可以通过微调各种语言任务来达到sota性能。

这些nlp模型都是“通才”,全面,但需要针对特定的任务进行微调,训练数据集也很庞大,是普通人无法承受的。

开发非通用nlp模型,比较特定的任务,会降低培训价格,提高性能吗?

这就是谷歌发布的“飞马”模式,它诞生于机器摘要,更新了行业的sota成绩,被收录到了icml中。

“天马”模式只有采用1000个样本进行训练,才能接近人类的总结水平,对监控数据的诉求大幅减少,有可能以较低的价格采用。

从填充到摘要的生成

pegasus的全名是利用提取的间隙语句进行摘要的预训练模型( pre-training withextractedgap-sentence SForabstractive Summarization )。 设计间隙句生成的自我监控预训练目标,提高摘要生成的微调性能。

在迄今为止的nlp研究中,自我监控培训的下游目标尚不明确,无论是拷贝生成还是摘要提取,模型都倾向于通用性。

来自谷歌的研究者认为,自我监控训练的目标越接近最终的下游任务,微调性能越好。

那个论文标题的间隙句( gap-sentences )是什么意思?

在“天马”模型的事前训练中,研究人员从某个文档中删除了一些句子,让模型执行恢复任务。 隔开这些空白被删除的句子是空白句。

这样具有挑战性的任务让模型学习发现常规事实的能力和从整个文档中提取新闻的方法。

谷歌发现选择“重要”语句进行屏蔽效果最好,使自我监控样本的输出和摘要更为相似。

作者选取了12个不同的数据集,展示了该模型框架适用于各种主题,包括信息、科学论文、专利文件、短篇小说、电子邮件、法律文件、招聘证书等。

相对于谷歌之前提出的t5,参数只不过是t5的5%。

谷歌根据rouge标准评价输出结果,通过找出与文档剩下的部分最相似的句子来自动识别这些句子。

rouge利用n元语法的重复来计算两个副本的相似度,得分从0到100。

1000个训练样本超过了人类

虽然pegasus在大数据集上显示出了优异的性能,但令人惊讶的是,“天马”模型不需要大量的样本进行微调,能够达到接近sota的性能。

下图显示了所选四个摘要数据集的粗得分和监测样本数之间的关系。 虚线表示具有完全监视但没有预训练的“transformer”编码器-解码器的性能。

与基线相比,即使只有1000个微调样本,在大部分任务中,“天马”的性能也稍好一些。 在一些现实情况下,样本数被认为还有几个数量级。

这个“样本效率”大大降低了监控数据收集的规模和价格,因此大大提高了拷贝摘要模型的实用性。

谷歌在机器赋予的rouge分数之外,还进行了鉴别摘要的“图灵测试”。

谷歌将模型生成的摘要和人类提取的摘要结合起来,向客户做出判断。 在三个不同的数据集上进行的实验表明,评分者有时喜欢机器生成的摘要。

当然,“天马”模式并非没有缺点,谷歌发现了bug。

作者从xsum数据集中,搜索了英国4艘护卫舰的名字,全篇均未提及4,《天马》准确地提取了护卫舰的数量新闻。

军舰的数量在2~5点之前没有问题,但数量增加到6点的时候,误以为“天马”有7艘。 这表明模型的“符号推理”数量有限。

最后,为了支持这项持续的研究,确保重复性,谷歌在github上发布了“天马”的代码、模型checkpoint和其他摘要数据集。

传输门

博客地址:

ai .谷歌博客//06 /地球站-地球站-模型站

论文地址:

arxiv/abs/1912.08777

代码地址:

github /谷歌-研究/地球

作者是网易信息网易号《各有态度》的签约作者

——原标题:“谷歌开源“穷人版”摘要生成nlp模型:培训价格低,1000个样本就能打败人类”

浏览原文信息进行推荐

游行队伍破坏英国保护丘吉尔像

非洲裔美国男性乔治·弗洛伊德因美国警察的粗暴执法死亡在全世界掀起了示威。 英国殖民者的雕像纪念碑,还有…。

标题:“谷歌开源摘要生成NLP模型:只要一千个样本就能打败人类”

地址:http://www.ok-sl.com/ozdt/8721.html