MNIST手写数字识别数据集

老牌的MNIST 数据集,应该不少人刚入坑时都接触过,尤其做图像识别的。它的图像是 28x28 的灰度手写数字,数据量不算大,用来练手训练模型合适,响应也快,调试也方便。

训练集有 60000 张图,测试集是 10000 张,格式比较,是以LevelDB方式存的,也就是说图像和标签都塞进了键值对里。你要读它,就得用支持 LevelDB 的方式来,比如用 Python 的lmdb库,或者直接用 Caffe 那一套。

图像是标准灰度图,0~255 的像素值,没啥噪点,干净清爽,做预的时候一般就是归一化、扁平化,有时候也拿来做数据增强。如果你用PyTorch,直接用torchvision.datasets.MNIST就能加载,不用操心太多。

实际应用里,你可以跑个CNN模型,看准确率能不能破 98%。要是还搞不定,建议看看这个文章:用 PyTorch 识别 MNIST 手写数字,讲得挺清楚的。

对了,LevelDB的读取速度是真的快,不过要注意别开太多读写线程,容易卡住。还有就是别忘了做归一化,直接用原始像素值训练效果会差蛮多的。

如果你刚上手深度学习,或者想测一下模型在图像任务上的效果,MNIST 确实是个稳的选择。简单、清晰、跑得快,适合快速验证思路。

rar
mnist-leveldb.rar 预估大小:30个文件
folder
mnist-test-leveldb 文件夹
file
LOG 64KB
file
LOG.old 64KB
file
000007.sst 3.18MB
folder
LOCK 文件夹
folder
000369.log 文件夹
file
MANIFEST-000368 64KB
file
000008.sst 1.42MB
file
000005.sst 3.18MB
file
CURRENT 16B
folder
mnist-train-leveldb 文件夹
file
000011.sst 3.18MB
file
000029.sst 3.18MB
file
000032.sst 2.19MB
file
000015.sst 3.18MB
file
000013.sst 3.18MB
file
LOG 64KB
file
LOG.old 64KB
file
000007.sst 3.18MB
folder
000447.log 文件夹
file
000009.sst 3.18MB
file
000021.sst 3.18MB
folder
LOCK 文件夹
file
000031.sst 3.18MB
file
000023.sst 3.18MB
file
000027.sst 3.18MB
file
000019.sst 3.18MB
file
MANIFEST-000446 64KB
file
000017.sst 3.18MB
file
000005.sst 3.18MB
file
CURRENT 16B
file
000025.sst 3.18MB
rar 文件大小:10.87MB