为了账号安全,请及时绑定邮箱和手机立即绑定

机器学习从抬脚到趴倒在门槛No.34

标签:
Java 大数据

好像一下子,进入了AI时代,后台的很多小伙伴其实都很迷茫,自己现在该如何去做好准备,去迎接即将到来的All in AI。


所以就有了今天这篇文章啦。今天呢,跟大家分享分享目前机器学习的历程吧,我到现在都没觉得我入门了机器学习,所以也没有什么所谓的经验啊,成功实践啊,没有。


首先甩三句始终相信的话。


不要为了机器学习而机器学习。


机器学习只有洞悉来自业务的需要,配合业务发展,才能发挥作用,单纯的机器学习没什么用。


python大法好,用2.7。


业界的前沿机器学习基本都是只支持python和C++,行业标准,就用python。


大数据下还是Spark更实用。


在大数据的环境下,其实落地最实用,场景最多的,还是Spark。





该怎么去下手?


脚抬起了3cm。目标:开眼界。


首先从比较宏观的角度,全面了解机器学习的全貌。看看机器学习能做些什么,能解决什么问题,是什么样的套路。


机器学习就是根据已有特征,训练模型,然后根据模型来预测未知的数据。


很多小伙伴一开始就会扎进去什么支持向量机、Logistic回归、LASSO啊、决策树啊这类算法里面,一下去就去非常深入去理解他们的原理,个人认为这种切入方式是有一点问题的,如果仅仅是为了学习一下这些算法,那还行。长远来说,还是要现有大局观。


《图解机器学习》

《集体智慧编程》

《机器学习》周志华


这三本书我都买了,循序渐进,第一本是通俗易懂的机器学习算法图解,作为趣味性入门来说非常好。


第二本是当前机器学习能做些什么事情,以及python怎么实现这些机器学习算法,代码狂人可以在这里面找到一些成就感,推荐先快速翻一遍,再回头,重新一章一章看,一行代码一行代码打,有时候不知道它啥意思也不要紧,打出来跑跑看。


第三本是比较系统地说机器学习的过程,以及每个算法比较严格的数学推导过程,非常严谨,数学要求较高,数学不太好的可以暂时不买,买了也看不懂。


嘛,也不用三本都买,看不完。小伙伴要是急呢,其实把第一本看了也就行了,眼界也算是开了,只是手头一点米可以下锅都没有而已····


脚抬了5cm了。目标:了解算法。


这个阶段,可以把所有的算法原理都开始看了,主要的书是上面的《机器学习》。如果英语够好的话呢,在coursera上学学Andrew NG的机器学习公开课。如果英语不好的话呢,可以试试邹博老师的《机器学习实战》,中文解释来说还是非常不错的入门教程。


当然,师傅领进门,修行在个人。


教程和书再好都没有用,还是需要你花时间,慢慢慢慢地,去一点点理解透每个算法背后的原理,以及各种各样的优化方法是怎么发生的。


举例线性回归可以这样进阶地去学习:


纯线性回归。什么是最小二乘法,损失函数怎么求。


核函数。什么叫多项线性回归,什么叫高斯核线性回归。


正则化。什么叫正则化,正则化的目的是什么?LASSO,岭回归,ElasticNet都是什么。L0、L1、L2正则各代表什么东西。


广义线性模型。广义线性模型把什么东西涵盖起来了,是怎么抽象怎么推导的?


大概就这样,一点一点去深入,不用一次性把所有的模型都学完。但是个人建议,线性回归,Logistic回归,决策树这三个必须必须完完整整先看完。毕竟很好理解又很好用,太难的臣妾真的做不到啊!!!逃避可耻但有用吖。


脚抬了6cm了。目标:利用成熟框架。


这个阶段呢,就没什么好的书介绍了,使用scikit-learn去解决前面解决过的问题吧~会发现超级简单,还特么比自己实现的快很多勒。


脚抬了6.5cm了。目标:开始接触神经网络。


把Tenfowflow官网的demo看懂,打一遍。一层一层拨开,看看RNN,CNN,GAN这些现在非常流行的神经网络结构的原理是怎么样的,深度学习目前来说离不开这三兄弟。如果还是看不懂呢,可以搜索一下莫凡Tenfowflow,蛮入门的,但也仅仅是入门而已。大概了解了解也可以了


如果你已经完成了上面的步骤,你已经可以跟我一样出来吹牛逼了,但是其实并没有什么卵用。


脚抬了7cm了。目标:开始实操。


进入Kangle,注册账号,开始泰坦尼克号吧。


脚抬了7.5cm了。目标:开始关注落地的事情。


上面说了那么多其实都没开始任何落地的东西,你的模型要怎么训练,怎么开始结合业务来实际应用起来,你对力量还是一无所知。后台回复"MVP",先行看看吧,大概就那么几种方式模型训练提供服务的,展开来讲文章会太长,会被打pp的。


脚抬了10cm了。目标:开始发现自己数学不够用了。


《概率论与数理统计》陈希孺


《线性代数应该这样学》


这个嘛,慢慢补吧,一时半会补不上来的T_T。


脚抬了11cm了。目标:关于特征工程。


好的特征是成功的一半。业界有这么一句半玩笑但是有点道理的话。特征选择和特征清洗,决定了你模型的上限,你的算法和优化只是不断逼近这个上线而已。


该系统学学特征工程的东西了,直接度娘特征选择会有一大堆的资料,我这里就不提供了,我写得也没人家写得好。


特!征!工!程!非!常!重!要!


趴倒在门槛上。目标:深入理解前沿的底层原理。


跟进一些过去的优秀论文,比如MapReduce原理的,比如李沫的Parameter原理的,比如GAN原理的,比如LPA原理的。非常非常多的论文,边实践边看呗,我也没看多少所以也没法分享啥。


所以我就趴倒在门槛上,依然还没入门,还在上面某些阶段努力ing。


当然需要去看得远远也不止上面这些书,也远远不止这些论文,希望早日把它们吸收了吧。生活又不止机器学习。生活确实不止远方和诗,悲催的是到了远方,却发现读不懂远方的诗。


    《女士品茶》

    《华杉讲透孙子兵法》

    《论语(白话全译)》

    《深入浅出统计学》

    《深入浅出数据分析

    《大数据智能》

    《深度学习》

    《优雅的理性》

✔️《创新着的窘境》

✔️《数学之美》



点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消