整理 | Just,夕颜
出品 | AI科技大本营(ID:rgznai100)
近日,Google 在最新一篇共有 53 页的论文《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》中,提出了一个最新的预训练模型 T5(全称 Text-To-Text Transfer Transformer),其参数量达到了 110 亿,要知道 Bert Large 模型的参数量不过才 3.4 亿,是后者的 32 倍多。
Google 还放出了源代码:
GitHub 链接:
https://github.com/google-research/text-to-text-transfer-transformer
论文:
https://arxiv.org/abs/1910.10683
尽管文章主题是探索迁移学习的局限性,但其做了大量的预训练模型试验对比。这篇论文太长,亮点可以笼统概括为以下两大部分。
最新预训练模型 T5
T5 库里主要是用于用文本到文本的 Transformer 来重现探索迁移学习极限实验的代码。此存储库中的大部分代码用于加载、预处理、混合和评估数据集。它还提供了一种方法来微调发布的预训练模型。
T5 提供了有用的模块来训练和微调 text-to-text 混合任务的模型,可以作为未来模型开发的库。
研究人员通过大规模语料库上训练了几种基于 Transformers 的模型,以评估其文本到文本方法的有效性。
T5 登顶 GLUE 和 SUPERGLUE
这个最大的模型 T5 包含多达 110 亿个参数,或进行预测时所需的模型内部配置变量。研究人员表示,他们对各种语言任务进行了微调,并在 GLUE 和阅读理解基准 SQuAD和CNN / Daily Mail上取得了最新分数为 89.7。他们还在 SuperGLUE 上进行了测试,该基准包含了一些比当前 NLP 系统更加困难的任务,得分为 89.8,表现可媲美人类。
关于 T5 的所有测试结果都在论文最后一页。“你说你有足够多的算力?那你把这个表格复现一下?”
“买 T5 送 750GB 的 C4 数据集”
T5 模型的成功除了庞大参数量的助力,还包括 Google 研究人员开源的一个新数据集 Colossal Clean Crawled Corpus,简称 C4。顺便说一句,Google 真会起名。
Google研究人员称,将 T5 这个有史以来最大的模型之一提交到通用语言理解评估(GLUE)基准并进行测试后,他们在涵盖问题解答、文本分类等任务上获得了 SOTA 结果。
据称,T4 数据集源于 Common Crawl 项目,该项目每个月会从网络上爬取大约 20 TB 的英文文本。为了过滤出乱码、样板菜单和错误消息,它们仅保留以终端标点符号(句点、感叹号、问号或结束引号)结尾的文本行,同时删除带有明显填充文本和重复项的页面。结果,他们宣称得到一个比大多数用于预训练数据集都大一个数量级的 T4 数据集,约为 750 GB。
然而,Google 团队坦陈,他们的模型在诸如翻译之类的语言任务中表现不尽人意,将原因归结为特定任务数据相对缺乏和训练规模不足。因此,他们提倡使用较小的模型实现更强性能的方法,让迁移学习发挥最大的效能。
该论文的合著者写道:“我们的研究得出一个令人惊讶但重要的结果,那就是较大的模型往往表现更好。用于运行这些模型的硬件价格越来越低,功能却越来越强大,这一事实表明,扩大规模可能仍然是实现更好性能的有效方法。但是,在某些应用程序和场景中,使用较小或较便宜的模型更有效这一现象总是存在的,例如在执行客户端推断或联合学习时。”
网友评价
有知乎网友评论称,这篇论文更多是“大力出奇迹”的结果,有钱可以为所欲为,但内容上没有新意,没有惊喜。最大的意义就是为 NLP 预训练领域目前基本所有方法做了一个系统性的综述和实验对比。
另有网友调侃,Google的这一篇论文估计半路截杀了好几十篇正在酝酿中的 paper。“Google——nlp的灯塔,普通nlper毁灭者。”
你觉得呢?
更多技术详情,还需要你自己啃一遍论文,不,也许需要好几遍。
参考链接:
https://venturebeat.com/2019/10/24/google-achieves-state-of-the-art-nlp-performance-with-an-enormous-language-model-and-data-set/
(*本文为 AI科技大本营整理文章,请微信联系 1092722531)
◆
◆
暂无评论内容