NLP这12个数据集,赶紧收藏备用!

平台的数据集版块,共有200个不同类别,不同应用的数据集。

本周在此基础上,又上新12种人体姿态识别相关的数据集,目前总共有212种数据集。

① 文本摘要

数据集名称:CurationCorpus数据集

数据集图片:

数据集内容:Curation Corpus数据集是一个新闻报道,专业撰写的摘要集合,并带有新闻本身的链接。便于用户从摘要获取到文本的所有关键信息点,而无需阅读整个文档。

数据集数量:Curation Corpus数据集,包含40000篇摘要数据

数据集功能:文本摘要生成

下载链接:点击查看

② 机器翻译

(1)XNLI数据集

数据集内容:XNLI是一种评估语料库,用于15种语言的语言迁移和跨语言句子分类。

许多NLP系统(例如,情绪分析,主题分类)都依赖于高资源语言的训练数据,但是在测试时不能直接用于其他语言的预测。在涉及跨语言数据的几乎所有应用中,都会遇到此问题。

机器翻译可用于将任意语言,翻译成高资源语言,以缓解此问题。但是,在每个方向上都有MT系统,成本很高,而且并不是跨语言分类的最佳解决方案。跨语言编码器是一种更便宜,更优雅的选择。

为了评估这种跨语言的句子理解方法,构建了XNLI,这是SNLI / MultiNLI语料库的15种语言的扩展 。

数据集数量:XNLI语料库是针对MultiNLI语料库的5000个测试和2500个开发对文字。两对文字均带有文字注释,并被翻译成14种语言:法语,西班牙语,德语,希腊语,保加利亚语,俄语,土耳其语,阿拉伯语,越南语,泰语,中文,北印度语,斯瓦希里语和乌尔都语。

这将产生112.5万个带注释的对。每个文字可以与15种语言中的相应文字进行关联,总计超过1.5M的组合集合。

数据集功能:机器翻译

下载链接:点击查看

(2)PAWS-X数据集

数据集内容:PAWS-X数据集包含23659组人工翻译的PAWS扩展句子对,和296406组机器翻译的训练对,这些对以六种语言进行翻译:法语,西班牙语,德语,中文,日语和韩语。

数据集数量:23659组PAWS扩展句子对、296406组机器翻译的训练对

数据集功能:机器翻译

下载链接:点击查看

(3)TED talks Translate数据集

数据集图片:

数据集内容:TED talks Translate数据集收集了2017年初,TED演讲的通用语料库,该语料库已被翻译成许多罕见的语言。上图显示了各类语言数据中,训练划分时的直方图。

数据集数量:TED talks Translate数据集包含109种语言的2400多个演讲文稿。

数据集功能:机器翻译

下载链接:点击查看

③ 智能助理

(1)TaskMaster-2数据集

数据集内容:与Taskmaster-1数据集不同,TaskMaster-2中既包括书面的“自我对话”,又包括口语的两人对话,Taskmaster-2完全由口语的两人对话组成。

此外,虽然Taskmaster-1几乎完全基于任务,但Taskmaster-2包含大量面向搜索和推荐的对话框,例如在饭店,航班,旅馆和电影院中就可以看到。

音乐浏览和体育对话几乎完全基于搜索和推荐,此版本中的所有对话框都是使用“绿野仙踪”(Wizard-of-Oz 平台)方法创建的。

数据集数量:Taskmaster-2数据集由以下七个域中的17,289个对话框组成。每个域的对话框都可以在该目录的“数据”文件夹中的七个json文件中找到,即Taskmaster / TM-2-2-20 / data /。

● 餐厅(3276)

● 订餐(1050)

● 电影(3047)

● 酒店(2355)

● 航班(2481)

● 音乐(1602)

● 运动(3478)

数据集功能:智能助手、会话推荐

下载链接:点击查看

④ 机器阅读理解

(1)DuReader数据集

数据集内容:

机器阅读理解(Machine Reading Comprehension,MRC)是一种利用算法,使计算机理解文章语义并回答相关问题的技术。由于文章和问题均采用人类语言的形式,因此机器阅读理解属于自然语言处理(NLP)的范畴,也是其中最新最热门的课题之一。

下图是一个机器阅读理解的样例,其中,模型需要用文章中的一段原文回答问题。

DuReader是用于机器阅读理解(MRC)和问答(QA)的大规模现实世界中文数据集。

数据集中的所有问题均来自真实的匿名用户查询,使用百度搜索引擎,从网络和百度知道中提取有答案的问题,且答案是人为产生的。

与现有数据集相比,DuReader的优势总结如下:

● 真正的问题

● 真实文章

● 真实答案

● 实际应用场景

● 丰富的注释

数据集数量:DuReader 2.0版包含30万多个问题,140万个证据文档和660K个人工生成的答案。它可以用于训练或评估MRC模型和系统。

数据集功能:机器阅读理解

下载链接:点击查看

(2)PD&CFT数据集

数据集内容:PD&CFT数据集是一个中文阅读理解数据集,其中包括《人民日报》和《儿童童话》(PD&CFT)相关资料。

数据集数量:PD&CFT数据集的统计信息如下所示。

数据集功能:机器阅读理解

下载链接:点击查看

(3)C3数据集

数据集内容:C3数据集是首个中文多项选择,机器阅读理解数据集。收集的主要是形式自由的多项选择题,来自汉语水平考试和民族汉语考试的阅读材料,包括试卷和练习。

数据集数量:C3数据集包含13369篇文章和19577个问题,其中的60%用是训练集,20%是开发集,20%是测试集。

数据集功能:机器阅读理解

下载链接:点击查看

(4)Delta Reading Comprehension Dataset(DRCD)数据集

数据集内容:Delta Reading Comprehension数据集,是通用领域繁体中文机器阅读理解数据集,适用于迁移学习之简体中文阅读理解使用。

数据集数量:

数据集功能:繁体机器阅读理解

下载链接:点击查看

⑤ VQA视觉问答

(1)KnowIT VQA数据集

数据集内容:VQA是一个将NLP与图像处理相结合的任务,通常以一张图片和一个关于这张图片自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。

简单来说,VQA就是给定的图片进行问答,因此VQA涉及到多方面的AI技术。

以下面图像为例:

● 细粒度识别(这位女士是白种人吗?)

● 物体识别(图中有几个香蕉?)

● 行为识别(这位女士在哭吗?)

● 对问题所包含文本的理解(NLP)

KnowIT VQA是一个视频数据集,将视觉,文本和时间连贯性推理,与基于知识的问题结合在一起。

数据集数量:KnowIT VQA数据集包含24282个有关“大爆炸理论”的人工生成的问题-答案对。

数据集功能:VQA视觉问答

下载链接:点击查看

⑥ 成语理解

(1)ChID数据集

数据集内容:ChID数据集是第一个成语完形填空数据集,主要对于候选词语的选择,和成语的表示Representation进行了研究。

数据集功能:成语理解

下载链接:点击查看

⑦ 文本分类

(1)THUCTC工具包

数据集内容:文本分类任务的目的,是想办法预测出文本对应的类别,是NLP的基础任务。

比如对新闻分类:政治、体育、军事、社会,微博评论分类:好评、中评、差评。

文本分类的过程,通常包括特征选取、特征降维、分类模型学习三个步骤。如何选取合适的文本特征并进行降维,是中文文本分类的挑战性问题。

THUCTC(THU Chinese Text Classification)是由清华大学自然语言处理实验室,推出的中文文本分类工具包,能够自动高效地实现用户自定义的文本分类语料的训练、评测、分类功能。

数据集功能:中文文本分类

下载链接:点击查看

    THE END
    喜欢就支持一下吧
    点赞15 分享
    评论 抢沙发
    头像
    欢迎您留下宝贵的见解!
    提交
    头像

    昵称

    取消
    昵称表情代码图片

      暂无评论内容