学习机器学习不仅要了解机器,更要了解、调整我们的学习方式,做到真正的“快乐机器学习”。
张江,北京师范大学系统科学学院教授,博士生导师,集智俱乐部、集智学园创始人,腾讯研究院特聘顾问。
在人工智能日渐兴盛的今天,本书带你从理论到实践领略机器学习算法的魅力。全书通篇图文并茂,浅显易懂又不缺乏专业的指导,是初学者和经验丰富的从业者与作者一起畅游算法世界的一本好书。
刘志明,Tushare创始人
此书可以非常清晰地告诉读者机器学习领域有哪些核心的内容,到底从哪里开始学习,先学什么后学什么,一步步学习的较优路径是什么,如何在较短的时间内达到较优的学习效果。此书的特色是使用了大量的图表对一些关键、难理解的知识点进行阐释和说明,读者可以获得较为直观的认识。我相信此书的读者可以获得掌握机器学习知识和技术的快乐。
秦虎 ,华中科技大学 管理学院教授
前言
作者写作本书的目的就是用通俗的文字来讲解机器学习,最好通俗得如作者在女儿生日时给她写的信:
亲爱的欣玥:
从2020年开始,愿你:
? 学习不要死记硬背,避免过拟合;也不要蜻蜓点水,避免欠拟合。
? 心态像随机梯度下降一样,不要过分注重眼前的利益和一时的得失,进而看不清大局而被假象蒙骗。
? 抉择像随机森林一样,各取所长,集思广益,这样你才能做出最正确的决定。
? 操行像自适应提升一样,知错能改,这样你才能越来越优秀。
? 说话像奥卡姆剃刀原理一样,牢记“少就是多”,当一个好的聆听者。
? 脾气不要像梯度爆炸一样越来越大,也不要像梯度消失一样没有,要稳定地敢爱敢恨。
? 容忍像支持向量机一样,最大化你的容错间隔。有一些错误是在所难免的,要学会将硬间隔变成软间隔。
? 生活像偏差和方差达到最优点一样,不偏不倚,不骄不躁。
从2020年开始,爸爸会
? 最初辅导你有监督学习。
? 然后锻炼你半监督学习。
? 接着放任你无监督学习。
? 不断评估你要增强学习。
当学习到了某个临界点时,不管外界资源多么丰富,你的表现一定会趋于稳定,这时必须靠深度学习才能最大程度地突破自我,最终获得迁移学习的能力。
学习并精通一门学科无外乎要经过四个步骤:它是什么?它可行吗?怎么学它?如何学好它?学习机器学习也不例外,本书就以这四个步骤来解读机器学习。
? 第1章介绍“机器学习是什么”,即从定义开始,详细介绍机器学习涉及的知识、数据和性能度量。
? 第2章介绍“机器学习可行吗”,即机器具备学习样本以外的数据的能力。本章从概率的角度证明样本内误差和样本外误差的关系。
? 第3章介绍“机器学习怎么学”,即机器如何选出最优模型。本章介绍机器学习版本的样本内误差(训练误差)和样本外误差(测试误差),再通过验证误差来选择模型。
前3章属于机器学习的概述:第1章介绍机器学习的概念,为了让读者打好基础;第2章为证明机器学习是可行的,让读者做到心中有数;第3章运用机器学习性能指标而构建框架,看懂它们不需要精通任何机器学习的算法。作者在这3章的写作上花费的时间最多,光这3章的内容就绝对让读者有所收获。
第4~14章介绍“如何学好机器学习”,重点介绍机器学习的各类算法和调参技巧。在本书中,机器学习模型分为线性模型、非线性模型和集成模型。
? 第4~8章介绍线性模型,包括线性回归模型、对率回归模型、正则化回归模型、支持向量机模型。
? 第9~11章介绍非线性模型,包括朴素贝叶斯模型、决策树模型、人工神经网络模型、正向/反向传播模型。
? 第12~14章介绍集成模型,包括随机森林模型、提升树模型、极度梯度提升模型。
第15章介绍机器学习中一些非常实用的经验,包括学习策略、目标设定、误差分析、偏差和方差分析。
为了帮助读者阅读,下面的流程图展示了整本书的大框架。
本书的每一章都以通俗的引言开始,吸引读者;以精美的思维导图过渡,让讲解思路更清晰;以简要的总结结束,让读者巩固所学的知识。此外,每个知识点都是理论和实践相结合,既有严谨的数学推导,又有多样(Python和MATLAB)的代码展示,图文并茂,最好地服务各类读者。
作者非常欣赏谷歌大脑研究员Chris Olah的观点“I want to understand things clearly, and explain them well”,即力争把每个知识点弄懂、弄透,然后以通俗易懂的方式让其他人学会、学透。作者愿意做 “把困难的东西研究透而简单展示给大众”的人(Research Distiller),因为学术界中的论文虽然“高大上”,但是很多会让读者读完还是一头雾水。用Chris Olah的话来讲,这种以不清不楚的方式来解释高难课题的做法欠下了太多研究债务(Research Debt)。
这本书能够完成,受到很多机器学习优质课程的启发,比如斯坦福大学Andrew Ng教授的CS229 课程、加州理工学院Yaser S. Abu-Mostafa教授的Learning from Data课程、台湾大学林轩田教授的机器学习基石和技法、华盛顿大学Emily Fox和Carlos Guestrin教授的Machine Learning Specialization。他们的课程都是理论结合实际,通俗而不失严谨,学习这些课程可以让我解决工作中的很多需求,可见这些课程的含金量之高,在这里我想对他们表达最真挚的感谢(即便他们也不认识我 )!
此外,感谢父母无条件地支持我写书,感谢爷爷、大伯和姐夫经常阅读我的公众号文章,经常鼓励我,感谢夫人在我写书时帮着带娃,感谢女儿给我的无穷动力:想象着以后她拿着我写的书可以自豪地跟别的小朋友说“这是我爸爸写的书”。最后感谢所有“王的机器”公众号的读者,你们的支持和反馈一直激励着我不断进步,这本书是特别为你们而写的。
由于作者水平有限,书中难免会有错漏之处,欢迎诸位专家和广大读者斧正。