Hugging face 起初是一家总部位于纽约的聊天机器人初创服务商，他们本来打算创业做聊天机器人，然后在 github 上开源了一个 Transformers 库，虽然聊天机器人业务没搞起来，但是他们的这个库在机器学习社区迅速大火起来。目前已经共享了超 100,000 个预训练模型，10,000 个数据集，变成了机器学习界的 github。

它也提供了大量的数据集可以参考：https://huggingface.co/datasets?sort=trending

常用的学习训练集

图像数据集

MNIST

Fashion-MNIST

CIFAR-10/100

ImageNet

文本数据集

IMDb

PTB (Penn Treebank)

SQuAD (Stanford Question Answering Dataset)

时间序列数据集

UCI Machine Learning Repository - Time Series Data

推荐系统数据集

MovieLens

Netflix Prize

语音和音频数据集

TIMIT

LibriSpeech

计算机视觉任务的特定数据集

MS COCO

Aerial Image Dataset

Cityscapes

其他数据集资源

Kaggle Datasets

UCI Machine Learning Repository

huggingface

图像数据集​

文本数据集​

时间序列数据集​

推荐系统数据集​

语音和音频数据集​

计算机视觉任务的特定数据集​

其他数据集资源​

huggingface​