在NLP项目中使用Hugging Face的Datasets 库-卡咪卡咪哈-一个博客

数据科学是关于数据的。网络上有各种来源可以为您的数据分析或机器学习项目获取数据。最受欢迎的来源之一是 Kaggle，我相信我们每个人都必须在我们的数据旅程中使用它。

最近，我遇到了一个新的来源来为我的 NLP 项目获取数据，我很想谈谈它。这是 Hugging Face 的数据集库，一个快速高效的库，可以轻松共享和加载数据集和评估指标。因此，如果您从事自然语言理解 (NLP) 工作并希望为下一个项目提供数据，那么 Hugging Face 就是您的最佳选择。

本文的动机：Hugging Face 提供的数据集格式与我们的 Pandas dataframe不同，所以最初使用 Hugging Face 数据集可能看起来令人生畏。但是 Hugging Face 有很好的文档，虽然信息量很大。这篇文章绝不是详尽无遗的，如果你想对你的数据集做更多的事情，我强烈建议你查看他们的文档。

让我们先了解一下 Hugging Face 和数据集库，然后通过一个例子来了解如何使用这个库中的数据集。

Hugging Face 是自然语言处理 (NLP) 技术的开源提供商。您可以使用最先进的Hugging Face 模型（在 Transformers 库下）来构建和训练您自己的模型。您可以使用拥抱人脸数据集库来共享和加载数据集。您甚至可以将此库用于评估指标。

数据集库

根据 Hugging Face 网站，Datasets 库目前拥有 100 多个公共数据集。数据集不仅有英语，还有其他语言和方言。它支持大多数这些数据集的数据加载器，并且只需一行代码就可以实现，这使得加载数据成为一项轻松的任务。根据网站上提供的信息，除了可以轻松访问数据集之外，该库还有以下有趣的功能：

在大型数据集的发展使得数据集自然地将用户从 RAM 限制中解放出来，所有数据集都使用高效的零序列化成本后端 (Apache Arrow) 进行内存映射。智能缓存：永远不要将数据处理多次。轻量级和快速的透明和 pythonic API（多处理/缓存/内存映射）。与 NumPy、pandas、PyTorch、Tensorflow 2 和 JAX 的内置互操作性。

哇！这是相当多的好处。

在本文中，我将展示我们通常在数据科学或分析任务中执行的一些步骤，以了解我们的数据或将我们的数据转换为所需的格式。所以，让我们快速深入这个库并编写一些简单的 Python 代码。请注意，本文仅涵盖数据集而非指标。

数据集版本：1.7.0

使用pip安装

!pip install datasets

导入包

from datasets import list_datasets, load_dataset from pprint import pprint

从数据集库中，我们可以导入list_datasets来查看这个库中可用的数据集列表。打印模块提供了“漂亮打印”的功能。

截至2021年6月7日，数据集库有928个数据集。我们可以使用以下代码看到可用的数据集列表:

datasets = list_datasets() print(“Number of datasets in the Datasets library: “, len(datasets), “\n\n”) #list of datasets in pretty-print format pprint(datasets, compact=True)

如果在下载数据集之前就想知道它的属性，该怎么办呢?我们可以使用一行代码来实现这一点。☝️只需将索引设置为数据集的名称，就可以了!

#dataset attributes squad = list_datasets(with_details=True)[datasets.index(squad)] #calling the python dataclass pprint(squad.__dict__)

加载数据集

squad_dataset = load_dataset(squad)

这句代码下面发生了什么? datasets.load_dataset()执行了以下操作:

从hugs Face GitHub repo或AWS桶中下载并导入SQuAD python处理脚本(如果它还没有存储在库中)。运行SQuAD脚本下载数据集。处理和缓存的SQuAD在一个Arrow 表。基于用户要求的分割返回一个数据集。默认情况下，它返回整个数据集。

让我们理解一下我们得到的数据集。

print(squad_dataset)

数据集分为两部分:训练和验证。feature对象包含关于列的信息——列名和数据类型。我们还可以看到每次拆分的行数(num_rows)。很丰富!

我们也可以在加载数据集时指定分割。

squad_train = load_dataset(squad, split=train) squad_valid = load_dataset(squad, split=validation)

这会将训练集保存在squad_train中，验证集保存在squad_valid中。

但是，您会意识到加载一些数据集会抛出一个错误，在检查错误时，可能得到需要第二个参数配置的错误。

下面是一个例子:

amazon_us_reviews = load_dataset(amazon_us_reviews)

一些数据集包含几个配置，这些配置定义了需要被选择的数据集的子部分。

解决方案:

amazon_us_reviews = load_dataset(amazon_us_reviews, Watches_v1_00)

这将使用配置加载amazon_us_reviews数据集。

让我们来看看我们的数据集。

我们看到了数据集信息中的行数。我们甚至可以用标准的len函数得到它。

print(“Length of training set: “, len(squad_train))

训练集长度:87599

检查数据集

要查看数据集的示例:

print(“First example from the dataset: \n”) pprint(squad_train[0])

要获得带有几个示例的切片，代码与我们使用的pandas dataframe相同。

print(“Two examples from the dataset using slice operation: \n”) pprint(squad_train[14:16])

想在列中看到值?用列名索引数据集。下面是“question”栏目的一部分。

print(“A column slice from the dataset: \n”) pprint(squad_train[question][:5])

可以看到，行切片给出了一个字典，而列切片给出了一个列表。getitem方法根据查询的类型返回不同的格式。例如，数据集[0]之类的条目将返回一个元素字典，数据集[2:5]之类的切片将返回一个元素列表字典，而数据集[ question ]之类的列或列的slice将返回一个元素列表。这起初看起来很令人惊讶，但hug Face做到了这一点，因为它实际上更容易用于数据处理，而不是为每个视图返回相同的格式。

请看这个有趣的例子:

print(squad_train[‘question’][0]) print(squad_train[0][‘question’])

输出:

To whom did the Virgin Mary allegedly appear in 1858 in Lourdes France?

两者都返回相同的输出。让我们验证!

print(squad_train[question][0] == squad_train[0][question])

输出为True。好了!我们在使用pandas dataframe时经常犯的一个错误,但是在这里却不是！

注意:数据集由一个或几个Apache Arrow表支持，这些表是类型化的，允许快速检索和访问。您可以加载任意大小的数据集，而不必担心内存限制，因为数据集在RAM中不占用空间，并且在需要时直接从驱动器读取。

让我们进一步检查数据集。

print(“Features: “) pprint(squad_train.features) print(“Column names: “, squad_train.column_names)

print(“Number of rows: “, squad_train.num_rows) print(“Number of columns: “, squad_train.num_columns) print(“Shape: “, squad_train.shape)

输出:

行数:87599列数:5形状:(87599 5)

注意，您也可以使用len函数获得行数。

数据集操作

添加/删除一个新列

添加一个名为“new_column”的列，条目为“foo”。

new_column = [“foo”] * len(squad_train) squad_train = squad_train.add_column(“new_column”, new_column) print(squad_train)

现在让我们删除这一列。

squad_train = squad_train.remove_columns(“new_column”)

重命名一个列

squad_train = squad_train.rename_column(“title”, “heading”) print(squad_train)

修改/更新数据集

要修改或更新数据集，可以使用dataset.map。map()是一个强大的方法，灵感来自于tf.data.Dataset map方法。我们可以将这个函数应用于一个例子，甚至一批例子，甚至生成新的行或列。

通过示例修改示例:

updated_squad_train = squad_train.map(lambda example: {question: Question: + example[question]}) pprint(updated_squad_train[question][:5])

输出

让我们使用现有列添加新列并删除旧列。

updated_squad_train = squad_train.map(lambda example: {new_heading: “Context: ” + example[heading]}, remove_columns=[heading]) pprint(updated_squad_train.column_names) pprint(updated_squad_train[new_heading][:5])

输出

列 ” new_heading “已经使用列 ” heading “的内容进行了填充，列” heading “已经从数据集中移除

您可以使用映射对数据集执行多个操作。根据你的需求尝试新事物。

除此之外，您还可以批量处理数据。

我们总是希望我们的数据集是一个格式良好的表格，就像我们看到一个pandas dataframe一样。我们可以将数据集转换为相同的格式。

import random import pandas as pd from IPython.display import display, HTMLdef display_random_examples(dataset=squad_train, num_examples=5): assert num_examples < len(dataset) random_picks = [] for i in range(num_examples): random_pick = random.randint(0,len(dataset)-1) random_picks.append(random_pick) df = pd.DataFrame(dataset[random_picks]) display(HTML(df.to_html())) display_random_examples(squad_train, 3)

输出是一个格式很好的表格。

这就是本文的全部内容。从这里开始，您可以根据项目需求对数据进行预处理，并构建模型或创建良好的可视化效果。不可能在一篇文章中涵盖所有内容。然而，通过阅读本文，您可以了解如何使用数据集库中的可用方法。如果需要对数据集做更多操作，请查看文档。还有很多很多的方法，比如排序，洗牌，分片，选择，过滤，连接数据集等等。您还可以为PyTorch、Tensorflow、Numpy和Pandas格式化数据集。

如果你想看代码，请参考这个链接到我的Github ：:https://github.com/chetnakhanna16/huggingface_datasets/blob/main/HuggingFace_Datatsets_Library_TDS.ipynb

作者：Chetna Khanna

deephub翻译组

THE END