优达学城-深度学习任务1:notMNIST

这是优达学城推出的深度学习课程任务1,主办方给了两个英文字母的数据集(A-J):notMNIST_largenotMINIST_small,通过预处理数据集,在此基础上训练一个简单的逻辑回归模型, 这个模型能够识别不同字体的英文字母的一个子集。通过训练全部200000张图片,模型的准确率达到0.8945。


任务介绍

前一段时间打算学习fast.ai推出的深度学习系列课程,课程主讲的两个老师说了很多大实话,他们做的教程也很好,课程论坛十分活跃,提出的问题都可以得到回应。但是后来发现课程有太多地方没有完善,于是就放弃了,转而投奔优达学城的深度学习课程。

任务1没有涉及太多高级技巧,可对于我这种第一次处理图像数据的菜鸟还是挺伤脑筋的,google给出的代码并不完全正确,有几处bug。

正如业内人士说的,在XX中,大多数时间都被用在清洗数据上,这个任务也不例外。任务1中预处理数据占据全部任务时间的90%,包括将图像数据转换成3D数组、归一化、验证数据平衡、处理重叠样本(通过比较哈希值实现快速找出重复样本)等数据预处理方法,而训练所用的模型是现成的(off-the-shelf),来自sklearn.linear_model的LogisticRegression,最后达到的准确率也还不错。


解决过程

觉得还不错?帮我赞助点域名费吧:)