深度学习系列––NLP/CV常见数据集整理-卡咪卡咪哈-一个博客

导读

针对机器学习，深度学习和NLP领域整理记录一些学习资料和数据源等，本文整理部分NLP,CV,音频等常用数据集，记录以备使用，后续逐步完善，供读者使用。

一、 CV领域数据集

1.MNIST

链接：https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-digits/

MNIST 是最流行的深度学习数据集之一。这是一个手写数字数据集，包含一个有着 60000 样本的训练集和一个有着 10000 样本的测试集。

大小：约 50 MB 数量：70000 张图像，共分为 10 个类别

2.MS-COCO

链接：http://cocodataset.org/#home

COCO 是一个大型数据集，用于目标检测、分割和标题生成。它有以下几个特征：

目标分割

在语境中识别

超像素物品分割

33 万张图像（其中超过 20 万张是标注图像）

150 万个目标实例

80 个目标类别

91 个物品分类

每张图像有 5 个标题

25 万张带有关键点的人像

大小：约 25 GB（压缩后）数量：33 万张图像、80 个目标类别、每张图像 5 个标题、25 万张带有关键点的人像

3.ImageNet

链接：http://www.image-net.org/

ImageNet 是根据 WordNet 层次来组织的图像数据集。WordNet 包含大约 10 万个短语，而 ImageNet 为每个短语提供平均约 1000 张描述图像。

大小：约 150 GB 数量：图像的总数约为 1,500,000；每一张图像都具备多个边界框和各自的类别标签。

4.Open Images 数据集

链接：https://github.com/openimages/dataset

Open Images 是一个包含近 900 万个图像 URL 的数据集。这些图像使用包含数千个类别的图像级标签边界框进行了标注。该数据集的训练集包含 9,011,219 张图像，验证集包含 41,260 张图像，测试集包含 125,436 张图像。

大小：500GB（压缩后）数量：9,011,219 张图像，带有超过 5000 个标签

5.CIFAR-10

链接：http://www.cs.toronto.edu/~kriz/cifar.html

该数据集也用于图像分类。它由 10 个类别共计 60,000 张图像组成（每个类在上图中表示为一行）。该数据集共有 50,000 张训练集图像和 10,000 个测试集图像。数据集分为 6 个部分——5 个训练批和 1 个测试批。每批含有 10,000 张图像。

大小：170MB 数量：60,000 张图像，共 10 类

二、 NLP领域数据集

1.IMDB 电影评论数据集

链接：http://ai.stanford.edu/~amaas/data/sentiment/

该数据集对于电影爱好者而言非常赞。它用于二元情感分类，目前所含数据超过该领域其他数据集。除了训练集评论样本和测试集评论样本之外，还有一些未标注数据可供使用。此外，该数据集还包括原始文本和预处理词袋格式。

大小：80 MB 数量：训练集和测试集各包含 25,000 个高度两极化的电影评论

2.Twenty Newsgroups 数据集

链接：https://archive.ics.uci.edu/ml/datasets/Twenty+Newsgroups

顾名思义，该数据集涵盖新闻组相关信息，包含从 20 个不同新闻组获取的 20000 篇新闻组文档汇编（每个新闻组选取 1000 篇）。这些文章有着典型的特征，例如标题、导语。

大小：20MB 数量：来自 20 个新闻组的 20,000 篇报道

3.Sentiment140

链接：http://help.sentiment140.com/for-students/

Sentiment140 是一个用于情感分析的数据集。这个流行的数据集能让你完美地开启自然语言处理之旅。数据中的情绪已经被预先清空。最终的数据集具备以下六个特征：

推文的情绪极性

推文的 ID

推文的日期

查询

推特的用户名

推文的文本

大小：80MB（压缩后）数量： 1,60,000 篇推文

4.WordNet

链接：https://wordnet.princeton.edu/

上文介绍 ImageNet 数据集时提到，WordNet 是一个大型英语 synset 数据库。Synset 也就是同义词组，每组描述的概念不同。WordNet 的结构让它成为 NLP 中非常有用的工具。

大小：10 MB 数量：117,000 个同义词集，它们通过少量的「概念关系」与其他同义词集相互关联

5.Wikipedia Corpus

链接：http://nlp.cs.nyu.edu/wikipedia-data/

该数据集是维基百科全文的集合，包含来自超过 400 万篇文章的将近 19 亿单词。你能逐单词、逐短语、逐段地对其进行检索，这使它成为强大的 NLP 数据集。

大小：20 MB 数量：4,400,000 篇文章，包含 19 亿单词

6.Blog Authorship Corpus

链接：http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

该数据集包含从数千名博主那里收集到的博客文章，这些数据从 http://blogger.com 中收集而来。每篇博客都以一个单独的文件形式提供。每篇博客至少出现 200 个常用的英语单词。

大小：300 MB 数量：681,288 篇博文，共计超过 1.4 亿单词。

7.欧洲语言机器翻译数据集

链接：http://statmt.org/wmt18/index.html

该数据集包含四种欧洲语言的训练数据，旨在改进当前的翻译方法。你可以使用以下任意语言对：

法语 – 英语

西班牙语 – 英语

德语 – 英语

捷克语 – 英语

大小：约 15 GB 数量：约 30,000,000 个句子及对应的译文 SOTA：《Attention Is All You Need》

三、音频/语音数据集

1. Free Spoken Digit 数据集

链接：Jakobovski/free-spoken-digit-dataset

这是本文又一个受 MNIST 数据集启发而创建的数据集！该数据集旨在解决识别音频样本中口述数字的任务。这是一个公开数据集，所以希望随着人们继续提供数据，它会不断发展。目前，它具备以下特点：

三种人声

1500 段录音（每个人口述 0- 9 各 50 次）

英语发音

大小： 10 MB 数量： 1500 个音频样本 SOTA：《Raw Waveform-based Audio Classification Using Sample-level CNN Architectures》（https://arxiv.org/pdf/1712.00866）

2.Free Music Archive (FMA)

链接：mdeff/fma

FMA 是音乐分析数据集，由整首 HQ 音频、预计算的特征，以及音轨和用户级元数据组成。它是一个公开数据集，用于评估 MIR 中的多项任务。以下是该数据集包含的 csv 文件及其内容：

tracks.csv：记录每首歌每个音轨的元数据，例如 ID、歌名、演唱者、流派、标签和播放次数，共计 106,574 首歌。

genres.csv：记录所有 163 种流派的 ID 与名称及上层风格名（用于推断流派层次和上层流派）。

features.csv：记录用 librosa 提取的常见特征。

echonest.csv：由 Echonest（现在的 Spotify）为 13,129 首音轨的子集提供的音频功能。

大小：约 1000 GB 数量：约 100,000 个音轨 SOTA：《Learning to Recognize Musical Genre from Audio》（https://arxiv.org/pdf/1803.05337.pdf）

3.Ballroom

链接：Ballroom

该数据集包含舞厅的舞曲音频文件。它以真实音频格式提供了许多舞蹈风格的一些特征片段。以下是该数据集的一些特点：

实例总数：698

单段时长：约 30 秒

总时长：约 20940 秒

大小：14 GB（压缩后）数量：约 700 个音频样本 SOTA：《A Multi-Model Approach To Beat Tracking Considering Heterogeneous Music Styles》

4.VoxCeleb

链接：VoxCeleb

VoxCeleb 是一个大型人声识别数据集。它包含来自 YouTube 视频的 1251 位名人的约 10 万段语音。数据基本上是性别平衡的（男性占 55％）。这些名人有不同的口音、职业和年龄。开发集和测试集之间没有重叠。对大明星所说的话进行分类并识别——这是一项有趣的工作。

大小：150 MB 数量：1251 位名人的 100,000 条语音 SOTA：《VoxCeleb: a large-scale speaker identification dataset》（https://www.robots.ox.ac.uk/~vgg/publications/2017/Nagrani17/nagrani17.pdf）

5.推特情感分析数据集

链接：Twitter Sentiment Analysis

涉及种族主义和性别歧视的偏激言论已成为 Twitter 的难题，因此将这类推文与其它推文分开已十分重要。在这个实际问题中，我们提供的 Twitter 数据包含普通言论和偏激言论。作为数据科学家，你的任务是确定哪些推文是偏激型推文，哪些不是。

大小： 3 MB 数量： 31,962 篇推文

6.城市声音分类数据集

链接：Urban Sound Classification

该数据集包含超过 8000 个来自 10 个类别的城市声音片段。这个实际问题旨在向你介绍常见分类场景中的音频处理。

大小：训练集 – 3 GB（压缩后）、测试集 – 2 GB（压缩后）数量：来自 10 个类别的 8732 个标注城市声音片段（单个片段音频时长 <= 4s）

———————————————————————————-

20191209 update

NLP机器阅读理解数据集：

（1）CNN&Dailymail:

DMQAcs.nyu.edu/~kcho/DMQA/

（2）SQuAD：

https://rajpurkar.github.io/SQuAD-explorer/rajpurkar.github.io/SQuAD-explorer/

（3）MCTest：https://www.microsoft.com/en-us/research/?from=http%3A%2F%2Fresearch.microsoft.com%2Fmct

或者：

https://github.com/debuluoyi/mctestgithub.com/debuluoyi/mctest

参考文献

[1] github.com/debuluoyi:

github.com/debuluoyigithub.com/debuluoyi

THE END

深度学习系列––NLP/CV常见数据集整理

导读

一、 CV领域数据集

二、 NLP领域数据集

三、音频/语音数据集

参考文献

1推荐算法炼丹笔记：Deep Bayesian的多目标推荐

2继续瞄准谷歌搜索业务，微软将把Bing设为ChatGPT的默认搜索引擎

3Flink window 用法介绍

4Flink理论实战

5ChatGPT创始人Altman：中国拥有世界上一些最优秀的AI系统导演迟迟没喊停，成就难以复制的荧屏经典，却也致女一号婚姻破裂

6识农受邀参与2019广州国际智慧农业技术及温室设备展，用AI为农业赋能！

深度学习系列––NLP/CV常见数据集整理

导读

一、 CV领域数据集

二、 NLP领域数据集

三、音频/语音数据集

参考文献

1推荐算法炼丹笔记：Deep Bayesian的多目标推荐

2继续瞄准谷歌搜索业务，微软将把Bing设为ChatGPT的默认搜索引擎

3Flink window 用法介绍

4Flink理论实战

5ChatGPT创始人Altman：中国拥有世界上一些最优秀的AI系统导演迟迟没喊停，成就难以复制的荧屏经典，却也致女一号婚姻破裂

6​识农受邀参与2019广州国际智慧农业技术及温室设备展，用AI为农业赋能！

6识农受邀参与2019广州国际智慧农业技术及温室设备展，用AI为农业赋能！