导读
针对机器学习,深度学习和NLP领域整理记录一些学习资料和数据源等,本文整理部分NLP,CV,音频等常用数据集,记录以备使用,后续逐步完善,供读者使用。
一、 CV领域数据集
1.MNIST
链接:https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-digits/
MNIST 是最流行的深度学习数据集之一。这是一个手写数字数据集,包含一个有着 60000 样本的训练集和一个有着 10000 样本的测试集。
大小:约 50 MB 数量:70000 张图像,共分为 10 个类别
2.MS-COCO
链接:http://cocodataset.org/#home
COCO 是一个大型数据集,用于目标检测、分割和标题生成。它有以下几个特征:
目标分割
在语境中识别
超像素物品分割
33 万张图像(其中超过 20 万张是标注图像)
150 万个目标实例
80 个目标类别
91 个物品分类
每张图像有 5 个标题
25 万张带有关键点的人像
大小:约 25 GB(压缩后) 数量:33 万张图像、80 个目标类别、每张图像 5 个标题、25 万张带有关键点的人像
3.ImageNet
ImageNet 是根据 WordNet 层次来组织的图像数据集。WordNet 包含大约 10 万个短语,而 ImageNet 为每个短语提供平均约 1000 张描述图像。
大小:约 150 GB 数量:图像的总数约为 1,500,000;每一张图像都具备多个边界框和各自的类别标签。
4.Open Images 数据集
链接:https://github.com/openimages/dataset
Open Images 是一个包含近 900 万个图像 URL 的数据集。这些图像使用包含数千个类别的图像级标签边界框进行了标注。该数据集的训练集包含 9,011,219 张图像,验证集包含 41,260 张图像,测试集包含 125,436 张图像。
大小:500GB(压缩后) 数量:9,011,219 张图像,带有超过 5000 个标签
5.CIFAR-10
链接:http://www.cs.toronto.edu/~kriz/cifar.html
该数据集也用于图像分类。它由 10 个类别共计 60,000 张图像组成(每个类在上图中表示为一行)。该数据集共有 50,000 张训练集图像和 10,000 个测试集图像。数据集分为 6 个部分——5 个训练批和 1 个测试批。每批含有 10,000 张图像。
大小:170MB 数量:60,000 张图像,共 10 类
二、 NLP领域数据集
1.IMDB 电影评论数据集
链接:http://ai.stanford.edu/~amaas/data/sentiment/
该数据集对于电影爱好者而言非常赞。它用于二元情感分类,目前所含数据超过该领域其他数据集。除了训练集评论样本和测试集评论样本之外,还有一些未标注数据可供使用。此外,该数据集还包括原始文本和预处理词袋格式。
大小:80 MB 数量:训练集和测试集各包含 25,000 个高度两极化的电影评论
2.Twenty Newsgroups 数据集
链接:https://archive.ics.uci.edu/ml/datasets/Twenty+Newsgroups
顾名思义,该数据集涵盖新闻组相关信息,包含从 20 个不同新闻组获取的 20000 篇新闻组文档汇编(每个新闻组选取 1000 篇)。这些文章有着典型的特征,例如标题、导语。
大小:20MB 数量:来自 20 个新闻组的 20,000 篇报道
3.Sentiment140
链接:http://help.sentiment140.com/for-students/
Sentiment140 是一个用于情感分析的数据集。这个流行的数据集能让你完美地开启自然语言处理之旅。数据中的情绪已经被预先清空。最终的数据集具备以下六个特征:
推文的情绪极性
推文的 ID
推文的日期
查询
推特的用户名
推文的文本
大小:80MB(压缩后) 数量: 1,60,000 篇推文
4.WordNet
链接:https://wordnet.princeton.edu/
上文介绍 ImageNet 数据集时提到,WordNet 是一个大型英语 synset 数据库。Synset 也就是同义词组,每组描述的概念不同。WordNet 的结构让它成为 NLP 中非常有用的工具。
大小:10 MB 数量:117,000 个同义词集,它们通过少量的「概念关系」与其他同义词集相互关联
5.Wikipedia Corpus
链接:http://nlp.cs.nyu.edu/wikipedia-data/
该数据集是维基百科全文的集合,包含来自超过 400 万篇文章的将近 19 亿单词。你能逐单词、逐短语、逐段地对其进行检索,这使它成为强大的 NLP 数据集。
大小:20 MB 数量:4,400,000 篇文章,包含 19 亿单词
6.Blog Authorship Corpus
链接:http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm
该数据集包含从数千名博主那里收集到的博客文章,这些数据从 http://blogger.com 中收集而来。每篇博客都以一个单独的文件形式提供。每篇博客至少出现 200 个常用的英语单词。
大小:300 MB 数量:681,288 篇博文,共计超过 1.4 亿单词。
7.欧洲语言机器翻译数据集
链接:http://statmt.org/wmt18/index.html
该数据集包含四种欧洲语言的训练数据,旨在改进当前的翻译方法。你可以使用以下任意语言对:
法语 – 英语
西班牙语 – 英语
德语 – 英语
捷克语 – 英语
大小: 约 15 GB 数量:约 30,000,000 个句子及对应的译文 SOTA:《Attention Is All You Need》
三、音频/语音数据集
1. Free Spoken Digit 数据集
链接:Jakobovski/free-spoken-digit-dataset
这是本文又一个受 MNIST 数据集启发而创建的数据集!该数据集旨在解决识别音频样本中口述数字的任务。这是一个公开数据集,所以希望随着人们继续提供数据,它会不断发展。目前,它具备以下特点:
三种人声
1500 段录音(每个人口述 0- 9 各 50 次)
英语发音
大小: 10 MB 数量: 1500 个音频样本 SOTA:《Raw Waveform-based Audio Classification Using Sample-level CNN Architectures》(https://arxiv.org/pdf/1712.00866)
2.Free Music Archive (FMA)
链接:mdeff/fma
FMA 是音乐分析数据集,由整首 HQ 音频、预计算的特征,以及音轨和用户级元数据组成。它是一个公开数据集,用于评估 MIR 中的多项任务。以下是该数据集包含的 csv 文件及其内容:
tracks.csv:记录每首歌每个音轨的元数据,例如 ID、歌名、演唱者、流派、标签和播放次数,共计 106,574 首歌。
genres.csv:记录所有 163 种流派的 ID 与名称及上层风格名(用于推断流派层次和上层流派)。
features.csv:记录用 librosa 提取的常见特征。
echonest.csv:由 Echonest(现在的 Spotify)为 13,129 首音轨的子集提供的音频功能。
大小:约 1000 GB 数量:约 100,000 个音轨 SOTA:《Learning to Recognize Musical Genre from Audio》(https://arxiv.org/pdf/1803.05337.pdf)
3.Ballroom
链接:Ballroom
该数据集包含舞厅的舞曲音频文件。它以真实音频格式提供了许多舞蹈风格的一些特征片段。以下是该数据集的一些特点:
实例总数:698
单段时长:约 30 秒
总时长:约 20940 秒
大小:14 GB(压缩后) 数量:约 700 个音频样本 SOTA:《A Multi-Model Approach To Beat Tracking Considering Heterogeneous Music Styles》
4.VoxCeleb
链接:VoxCeleb
VoxCeleb 是一个大型人声识别数据集。它包含来自 YouTube 视频的 1251 位名人的约 10 万段语音。数据基本上是性别平衡的(男性占 55%)。这些名人有不同的口音、职业和年龄。开发集和测试集之间没有重叠。对大明星所说的话进行分类并识别——这是一项有趣的工作。
大小:150 MB 数量:1251 位名人的 100,000 条语音 SOTA:《VoxCeleb: a large-scale speaker identification dataset》(https://www.robots.ox.ac.uk/~vgg/publications/2017/Nagrani17/nagrani17.pdf)
5.推特情感分析数据集
涉及种族主义和性别歧视的偏激言论已成为 Twitter 的难题,因此将这类推文与其它推文分开已十分重要。在这个实际问题中,我们提供的 Twitter 数据包含普通言论和偏激言论。作为数据科学家,你的任务是确定哪些推文是偏激型推文,哪些不是。
大小: 3 MB 数量: 31,962 篇推文
6.城市声音分类数据集
该数据集包含超过 8000 个来自 10 个类别的城市声音片段。这个实际问题旨在向你介绍常见分类场景中的音频处理。
大小:训练集 – 3 GB(压缩后)、测试集 – 2 GB(压缩后) 数量:来自 10 个类别的 8732 个标注城市声音片段(单个片段音频时长 <= 4s)
———————————————————————————-
20191209 update
NLP机器阅读理解数据集:
(1)CNN&Dailymail:
(2)SQuAD:
(3)MCTest:https://www.microsoft.com/en-us/research/?from=http%3A%2F%2Fresearch.microsoft.com%2Fmct
或者:
参考文献
[1] github.com/debuluoyi:
暂无评论内容