跳到主要内容

常用的学习训练集

图像数据集

MNIST

手写数字识别数据集,包含60,000个训练图像和10,000个测试图像。

Fashion-MNIST

与MNIST格式相同,但包含10种不同类别的时尚产品。

CIFAR-10/100

包含60,000个32x32彩色图像,分为10个或100个类别。

ImageNet

大规模视觉识别挑战数据集,包含超过1400万个图像,分为1000个类别。

文本数据集

IMDb

电影评论数据集,用于情感分析。

PTB (Penn Treebank)

用于语言建模和其他NLP任务。

SQuAD (Stanford Question Answering Dataset)

用于机器阅读理解。

时间序列数据集

UCI Machine Learning Repository - Time Series Data

提供多种时间序列数据集,用于分类、聚类和其他任务。

推荐系统数据集

MovieLens

电影推荐数据集,包含多种大小的版本。

Netflix Prize

由Netflix提供的电影推荐数据集。

语音和音频数据集

TIMIT

用于自动语音识别。

LibriSpeech

大规模的英语朗读文本数据集。

计算机视觉任务的特定数据集

MS COCO

用于目标检测、分割和字幕。

Aerial Image Dataset

用于航空图像分割。

Cityscapes

用于城市场景的语义分割。

其他数据集资源

Kaggle Datasets

Kaggle平台提供了大量的数据集,涵盖了各种机器学习任务。

UCI Machine Learning Repository

提供了多种数据集,用于各种机器学习任务。

huggingface

Hugging face 起初是一家总部位于纽约的聊天机器人初创服务商,他们本来打算创业做聊天机器人,然后在 github 上开源了一个 Transformers 库,虽然聊天机器人业务没搞起来,但是他们的这个库在机器学习社区迅速大火起来。目前已经共享了超 100,000 个预训练模型,10,000 个数据集,变成了机器学习界的 github。

它也提供了大量的数据集可以参考:https://huggingface.co/datasets?sort=trending