深度学习系列––NLP/CV常见数据集整理

导读

针对机器学习,深度学习和NLP领域整理记录一些学习资料和数据源等,本文整理部分NLP,CV,音频等常用数据集,记录以备使用,后续逐步完善,供读者使用。

一、 CV领域数据集

1.MNIST

链接:https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-digits/

MNIST 是最流行的深度学习数据集之一。这是一个手写数字数据集,包含一个有着 60000 样本的训练集和一个有着 10000 样本的测试集。

大小:约 50 MB 数量:70000 张图像,共分为 10 个类别

2.MS-COCO

链接:http://cocodataset.org/#home

COCO 是一个大型数据集,用于目标检测、分割和标题生成。它有以下几个特征:

目标分割

在语境中识别

超像素物品分割

33 万张图像(其中超过 20 万张是标注图像)

150 万个目标实例

80 个目标类别

91 个物品分类

每张图像有 5 个标题

25 万张带有关键点的人像

大小:约 25 GB(压缩后) 数量:33 万张图像、80 个目标类别、每张图像 5 个标题、25 万张带有关键点的人像

3.ImageNet

链接:http://www.image-net.org/

ImageNet 是根据 WordNet 层次来组织的图像数据集。WordNet 包含大约 10 万个短语,而 ImageNet 为每个短语提供平均约 1000 张描述图像。

大小:约 150 GB 数量:图像的总数约为 1,500,000;每一张图像都具备多个边界框和各自的类别标签。

4.Open Images 数据集

链接:https://github.com/openimages/dataset

Open Images 是一个包含近 900 万个图像 URL 的数据集。这些图像使用包含数千个类别的图像级标签边界框进行了标注。该数据集的训练集包含 9,011,219 张图像,验证集包含 41,260 张图像,测试集包含 125,436 张图像。

大小:500GB(压缩后) 数量:9,011,219 张图像,带有超过 5000 个标签

5.CIFAR-10

链接:http://www.cs.toronto.edu/~kriz/cifar.html

该数据集也用于图像分类。它由 10 个类别共计 60,000 张图像组成(每个类在上图中表示为一行)。该数据集共有 50,000 张训练集图像和 10,000 个测试集图像。数据集分为 6 个部分——5 个训练批和 1 个测试批。每批含有 10,000 张图像。

大小:170MB 数量:60,000 张图像,共 10 类

二、 NLP领域数据集

1.IMDB 电影评论数据集

链接:http://ai.stanford.edu/~amaas/data/sentiment/

该数据集对于电影爱好者而言非常赞。它用于二元情感分类,目前所含数据超过该领域其他数据集。除了训练集评论样本和测试集评论样本之外,还有一些未标注数据可供使用。此外,该数据集还包括原始文本和预处理词袋格式。

大小:80 MB 数量:训练集和测试集各包含 25,000 个高度两极化的电影评论

2.Twenty Newsgroups 数据集

链接:https://archive.ics.uci.edu/ml/datasets/Twenty+Newsgroups

顾名思义,该数据集涵盖新闻组相关信息,包含从 20 个不同新闻组获取的 20000 篇新闻组文档汇编(每个新闻组选取 1000 篇)。这些文章有着典型的特征,例如标题、导语。

大小:20MB 数量:来自 20 个新闻组的 20,000 篇报道

3.Sentiment140

链接:http://help.sentiment140.com/for-students/

Sentiment140 是一个用于情感分析的数据集。这个流行的数据集能让你完美地开启自然语言处理之旅。数据中的情绪已经被预先清空。最终的数据集具备以下六个特征:

推文的情绪极性

推文的 ID

推文的日期

查询

推特的用户名

推文的文本

大小:80MB(压缩后) 数量: 1,60,000 篇推文

4.WordNet

链接:https://wordnet.princeton.edu/

上文介绍 ImageNet 数据集时提到,WordNet 是一个大型英语 synset 数据库。Synset 也就是同义词组,每组描述的概念不同。WordNet 的结构让它成为 NLP 中非常有用的工具。

大小:10 MB 数量:117,000 个同义词集,它们通过少量的「概念关系」与其他同义词集相互关联

5.Wikipedia Corpus

链接:http://nlp.cs.nyu.edu/wikipedia-data/

该数据集是维基百科全文的集合,包含来自超过 400 万篇文章的将近 19 亿单词。你能逐单词、逐短语、逐段地对其进行检索,这使它成为强大的 NLP 数据集。

大小:20 MB 数量:4,400,000 篇文章,包含 19 亿单词

6.Blog Authorship Corpus

链接:http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

该数据集包含从数千名博主那里收集到的博客文章,这些数据从 http://blogger.com 中收集而来。每篇博客都以一个单独的文件形式提供。每篇博客至少出现 200 个常用的英语单词。

大小:300 MB 数量:681,288 篇博文,共计超过 1.4 亿单词。

7.欧洲语言机器翻译数据集

链接:http://statmt.org/wmt18/index.html

该数据集包含四种欧洲语言的训练数据,旨在改进当前的翻译方法。你可以使用以下任意语言对:

法语 – 英语

西班牙语 – 英语

德语 – 英语

捷克语 – 英语

大小: 约 15 GB 数量:约 30,000,000 个句子及对应的译文 SOTA:《Attention Is All You Need》

三、音频/语音数据集

1. Free Spoken Digit 数据集

链接:Jakobovski/free-spoken-digit-dataset

这是本文又一个受 MNIST 数据集启发而创建的数据集!该数据集旨在解决识别音频样本中口述数字的任务。这是一个公开数据集,所以希望随着人们继续提供数据,它会不断发展。目前,它具备以下特点:

三种人声

1500 段录音(每个人口述 0- 9 各 50 次)

英语发音

大小: 10 MB 数量: 1500 个音频样本 SOTA:《Raw Waveform-based Audio Classification Using Sample-level CNN Architectures》(https://arxiv.org/pdf/1712.00866)

2.Free Music Archive (FMA)

链接:mdeff/fma

FMA 是音乐分析数据集,由整首 HQ 音频、预计算的特征,以及音轨和用户级元数据组成。它是一个公开数据集,用于评估 MIR 中的多项任务。以下是该数据集包含的 csv 文件及其内容:

tracks.csv:记录每首歌每个音轨的元数据,例如 ID、歌名、演唱者、流派、标签和播放次数,共计 106,574 首歌。

genres.csv:记录所有 163 种流派的 ID 与名称及上层风格名(用于推断流派层次和上层流派)。

features.csv:记录用 librosa 提取的常见特征。

echonest.csv:由 Echonest(现在的 Spotify)为 13,129 首音轨的子集提供的音频功能。

大小:约 1000 GB 数量:约 100,000 个音轨 SOTA:《Learning to Recognize Musical Genre from Audio》(https://arxiv.org/pdf/1803.05337.pdf)

3.Ballroom

链接:Ballroom

该数据集包含舞厅的舞曲音频文件。它以真实音频格式提供了许多舞蹈风格的一些特征片段。以下是该数据集的一些特点:

实例总数:698

单段时长:约 30 秒

总时长:约 20940 秒

大小:14 GB(压缩后) 数量:约 700 个音频样本 SOTA:《A Multi-Model Approach To Beat Tracking Considering Heterogeneous Music Styles》

4.VoxCeleb

链接:VoxCeleb

VoxCeleb 是一个大型人声识别数据集。它包含来自 YouTube 视频的 1251 位名人的约 10 万段语音。数据基本上是性别平衡的(男性占 55%)。这些名人有不同的口音、职业和年龄。开发集和测试集之间没有重叠。对大明星所说的话进行分类并识别——这是一项有趣的工作。

大小:150 MB 数量:1251 位名人的 100,000 条语音 SOTA:《VoxCeleb: a large-scale speaker identification dataset》(https://www.robots.ox.ac.uk/~vgg/publications/2017/Nagrani17/nagrani17.pdf)

5.推特情感分析数据集

链接:Twitter Sentiment Analysis

涉及种族主义和性别歧视的偏激言论已成为 Twitter 的难题,因此将这类推文与其它推文分开已十分重要。在这个实际问题中,我们提供的 Twitter 数据包含普通言论和偏激言论。作为数据科学家,你的任务是确定哪些推文是偏激型推文,哪些不是。

大小: 3 MB 数量: 31,962 篇推文

6.城市声音分类数据集

链接:Urban Sound Classification

该数据集包含超过 8000 个来自 10 个类别的城市声音片段。这个实际问题旨在向你介绍常见分类场景中的音频处理。

大小:训练集 – 3 GB(压缩后)、测试集 – 2 GB(压缩后) 数量:来自 10 个类别的 8732 个标注城市声音片段(单个片段音频时长 <= 4s)

———————————————————————————-

20191209 update

NLP机器阅读理解数据集:

(1)CNN&Dailymail:

(2)SQuAD:

(3)MCTest:https://www.microsoft.com/en-us/research/?from=http%3A%2F%2Fresearch.microsoft.com%2Fmct

或者:

参考文献

[1] github.com/debuluoyi:

    THE END
    喜欢就支持一下吧
    点赞9 分享
    评论 抢沙发
    头像
    欢迎您留下宝贵的见解!
    提交
    头像

    昵称

    取消
    昵称表情代码图片

      暂无评论内容