跳到主要内容

数据集卡片

什么是数据集卡片

数据集卡片是一种用于在仓库中记录每个数据集详细信息的文件。在 Gitee AI ,数据集的主页会展示该数据集卡片的内容。为了指导用户有效地、负责任地利用数据,建议数据集卡片应包含数据集潜在的偏见信息的相关内容。简而言之,数据集卡片能帮助用户了解数据集包含的内容,并在README.md提供关于如何恰当使用这些数据的背景信息。

此外,您可以在数据集卡片中添加关于数据集的元信息。这些元信息提供了诸如许可证、使用语言、数据集大小等重要信息。此外还包括标签以便用户更容易地找到数据集,以及关于数据文件配置的选项。这些标签被定义在文件README.md顶部的 YAML 元信息区域内。

数据集卡片元信息

数据集仓库会将 README.md 文件作为数据集卡片渲染显示。为了控制卡片的显示内容,您应该在 README 文件中创建一个 YAML 部分来定义一些元信息。首先,在顶部添加三个破折号 --- 开始,然后包括所有相关的元信息,并用另一组三个破折号 --- 结束,就像下面的例子一样:

---
license: mit
language:
- en
- zh
tags:
- 标签1
- 标签2
---

这样,您就可以通过这种方式在 README.md 文件中明确指定数据集卡片上应展示的元信息,从而让数据集的展示更加清晰和有用。

您添加到数据集卡片的元信息能够在 Gitee AI 上启用某些互动功能。例如:

允许用户在 https://ai.gitee.com/datasets 上过滤和发现数据集。 如果您根据表格中的许可证选择一个关键词,该许可证会在数据集页面上显示。 当您在数据集仓库中创建一个 README.md 文件时,使用数据集卡片编辑工具填写主要的元信息:

alt text

要查看元信息字段,请参见详细的数据集卡片规范

通过填写正确的元信息,用户可以更容易地根据特定的需求寻找和筛选数据集。例如,通过选择适当的许可证关键词,您可以确保数据集使用者明确了解他们可以如何合法地使用数据集。数据集卡片编辑工具提供了一个直观的方式来输入这些信息,确保数据集卡片的准确性和完整性。这些元信息不仅增强了数据集的可发现性,还有助于构建一个更加透明和可信的开源模型社区。

数据集卡片创建指引

阅读现有的数据集卡片(例如 百度coco-cn数据集)是熟悉常见规范的好方法。

相关论文

如果数据集卡片包含指向论文的链接,Hub将提取论文链接并将其包含在数据集标签中,格式为 论文 论文链接 ,如下:

alt text

可以通过单击访问论文页面。