论文小结:GPT2

OKX欧易app

OKX欧易app

欧易交易所app是全球排名第一的虚拟货币交易所,注册领取6万元盲盒礼包!

APP下载   官网注册

前言:

当前小伙伴们对“gpt2论文”大体比较关心,各位老铁们都需要分析一些“gpt2论文”的相关知识。那么小编在网上汇集了一些关于“gpt2论文””的相关内容,希望大家能喜欢,兄弟们快快来学习一下吧!
1 背景及问题描述

目前主流的机器学习系统,非常脆弱,对数据分布、任务的微小变化非常敏感。如果输入的数据和训练集的数据分布不一致,可能导致系统精度的下降。可以认为目前的机器学习系统,通常都是专家,而不是通才。说得通俗点,AI系统对于某些未见过的数据(人类看来很简单的)上,表现的很 弱 智。比如:

推荐算法:电商: 本来已经买了个冰箱,算法又推荐买新的冰箱新闻: 反复推荐某一类型的新闻图像分类:对熊猫的图片加上噪声干扰,就识别为长臂猿某大厂算法曾经将黑人识别为猩猩

放到某个具体落地场景时,你的智能音响可能午夜异常唤醒、你的自动驾驶可能会导致车祸、人脸识别可能带来财产损失。虽然都是小概率,但是是黑天鹅事件。

如何得到更加健壮、泛化能力更强的机器学习系统?

2 已有的解决方案

一种可能的原因: 对单域数据集进行单任务训练的普遍性是造成当前系统缺乏普遍性的主要原因。多任务学习,有希望提供模型的在其他领域的泛化能力(通用表现)。目前,有人用17个任务同时训练模型,但这种方法不容易扩展,因为每个任务需要成百上千个标注样本(增加一个任务,就需要为每个任务创建、标注数据)

当前在语言任务上表现最好的系统结合了 预训练和有监督的微调 。这种方法具有悠久的历史,并且趋向于更加灵活的迁移形式:

基于大规模语料进行预训练,比如词向量考虑上下文的BERT在下游任务进行微调(FineTune)下游任务的小数据集,对模型 参数 进行调整下游任务和预训练任务不同,所以需要对模型 结构 进行调整,比如GPT1中增加线性层

这种方法是业界主流,但有没有可能不进行微调,毕竟微调又要改模型结构、又要重新训练参数?

3 提出的解决方案

利用大规模语料(40GB文本数据),用标准的单向语言模型任务预训练,然后不进行任何微调,直接将下游任务看成是文本生成任务。比如对于CoQA数据集,能达到55 F1的精度,超过了基准系统。

语言模型LM(标准的单向LM)在通用任务上的的潜力巨大,对于某些任务,即使不需要训练数据,单纯依靠预训练的LM也能达到一定的成绩。模型结构和GPT1基本一致,采用transformer decoder, 利用更多的语料(暴力的靠数据)、更深的模型。

最厉害的一点:不需要FineTune,当然也不需要下游任务的训练数据、也不需要模型结构的调整。也就是论文的标题:语言模型 = 无监督多任务学习。证明了语言模型可以在Few-shot(零样本)下执行下游任务的潜力:无需任何参数或模型结构的修改

值得一提的是: 文中用布隆过滤器(Bloom Filter,数据结构, 判断某一个元素是否存在于某集合。和HashSet不同,允许一定概率的FP,来获取空间成本的显著降低。)用来检测训练语料和下游任务语料的重合度。

4 Demo效果

基于CLUECorpusSmall(14G)语料(新闻、社区互动、评论、维基百科等), 预训练模型共12层,模型参数为:101M:

model = "uer/gpt2-base-chinese-cluecorpussmall"generator = pipeline('text-generation', model=model)#101 675 520 = 101 Msum(p.numel() for p in generator.model.parameters())

“白日依山尽,”的续写内容如下:

Note

白日依山尽,白日却红云连天,连绵不绝。(4)长得高,脸蛋好,眼睛好,这是最主要的一个条件。鼻子大,这是一个很典型的白日依山尽,而它的名字五官很自然也有这样一个词,有点像古语中的天鹅一'},白日依山尽,阴晴雨雪,秋天也是美丽的季节。你,若是喜欢摄影的话不妨试试这款手工皂吧!自然清净不被外表所打扰的手工皂,可以放心使用一整天,即使是上班,也要备着一块手工皂。制皮棉手工皂最适合秋季哦!更有',白日依山尽,青山在石头上,每次看到这幅画,都会心情特别好,这是我目前看到的最好的作品。于欢生于1941年,上世纪60年代在一次车祸中倒下。在他死前,世界上最大的国宝中国瓷都山上的那一颗明珠,有两千年的',白日依山尽,青松青笋月光明。山中不曾见过太阳,在阴暗中总有太阳,只是在黑夜一天天的将它摧毁,太阳光照射了几度,也就被人晒了,把太阳晒了,照样得雨晴雨。我们会记得曾经被晒伤的青春,看到青春里的绚烂。你想',白日依山尽,黄昏依水,山中清风。后有歌舞,听水落花流人。有诗酒,有词歌,有文章,但是没有诗意!(一、诗意的表现形式:表达文意、抒情,以及表达对诗情画意的欣赏。(二)情感的抒发形式:情感抒发:表现诗意'

点评:第一句写得都不错,不过后续很多句子都跑偏了,比如第一句子鼻子、天鹅都出来了;第二个例子直接转到手工皂,没什么大问题,但总是感觉别扭;最后一个例子,后续直接转到诗意,太生硬。

"在这个春节档开始之前,很多人不会想到,档期内口碑最好、收割观众最多眼泪的电影,是,"的续写内容如下:

Note

在这个春节档开始之前,很多人不会想到,档期内口碑最好、收割观众最多眼泪的电影,是这家人。但正如电影《我的青春恋爱物语果然有问题》中所述,这次影片《我的青春恋爱物语果然有问题》的内容很有可能会成为新一'在这个春节档开始之前,很多人不会想到,档期内口碑最好、收割观众最多眼泪的电影,*是何方神圣?*在一片烂片名声大噪的时代,片中出现的《从你的全世界路过》这对大热情侣一出场就是好戏,可谓一出剧情都是翻天覆地。在这个春节档开始之前,很多人不会想到,档期内口碑最好、收割观众最多眼泪的电影,是来自《冲出亚洲》的《盲山》(中文版),也是这部电影的首部国产改编剧本。其实,这部获奖影片获奖后就是一个月,这是个月,在这个春节档开始之前,很多人不会想到,档期内口碑最好、收割观众最多眼泪的电影,是《湄公河行动》。无论是当年热血的电影风格还是对国内的市场反应,《速度与激情》都是成功的。然而,在第四季的结尾,导演和编剧'在这个春节档开始之前,很多人不会想到,档期内口碑最好、收割观众最多眼泪的电影,是这部曾经被很多人拿来与刘德华比肩和比肩的电影。《战狼》的高投入与 《我不是潘金莲》的激情杀手 相比,这部电影更是大胆。在这次'

点评:这个输入句子背景给较多,生成的文本也是偏电影的。但是有些很奇怪,比如第一个例子电影名重复两次,第二个居然是疑问句续写。第四个例子,前面说的还是“湄公河行动”, 后文就变成了“速度与激情”,前后冲突。

结论:生成的文本,语法上基本没有什么大问题,但是语义上不同,有的甚至前后冲突。

本站所有软件信息均由用户上传发布,版权归原著所有。如有侵权/违规内容,敬请来信告知邮箱:764327034@qq.com,我们将及时撤销! 转载请注明出处:https://www.ssyg068.com/kuaixun/1197.html

打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2024年06月02日
下一篇 2024年06月02日

相关推荐

  • 迄今最大规模?OpenAI通用语言模型GPT-2论文解析

    OpenAI最近似乎搞了个大新闻,随手一搜,”最大模型”、”15亿参数”、”无需领域数据”等等跃然在目。当然现在是标题党的年代,为了吸引眼球,外行媒体的夸张手法也能理解。当然最大的争议还是他们在官网上解释为什么只提供小模型的理由:为了防止大模型用于生成欺诈和有歧视

    2024-07-03 13:35:01
    175 0

发表回复

8206

评论列表(0条)

    暂无评论

binance币安交易所
已有2000万用户加入币安交易所

立即下载