为了账号安全,请及时绑定邮箱和手机立即绑定

初识机器学习-理论篇

stonedog 全栈工程师
难度入门
时长 1小时48分
学习人数
综合评分9.57
289人评价 查看评价
9.5 内容实用
9.6 简洁易懂
9.6 逻辑清晰
  • 机器学习常见算法(1)ICDM
    1.分类---C4.5使用决策树算法,可以解决【分类】&【回归】问题;
    2.聚类---K-Means算法,属于无监督方法,解决电信用户分类问题;
    3.统计学习---SVM(支持向量机)可以解决分类(主)和回归问题,有很好的表现和深厚的数学理论支撑,曾经被认为是最好的分类算法。现在光芒被【深度学习】掩盖了。有一定的数学门槛,面试中经常被问。
    4.关联分析---Apriori应用于“尿片和纸尿裤”案例,最早解决了频繁项集问题。由于需要频繁访问数据库,已被淘汰。取代它的是华人开的【FP-Growth】算法。应用:电商的推荐系统,但目前有更好的替代方法。
    5.统计分析---EM算法是一个算法框架,用于解决一系列问题。
    6.连接挖掘---PageRank。Google使用的网页排序算法,很著名。
    7.集装与推进---AdaBoosts算法,应用于人脸识别,本质为改进的决策树算法,属于有监督的分类算法。
    8.分类---kNN。相对简单的分类算法,有监督。
    9.分类---Naive Bayes朴素贝叶斯算法,用于识别垃圾邮件。
    目前不常用的算法:Apriori和CART。


    https://img1.sycdn.imooc.com/6739b5a900010dff09560542.jpg

    查看全部
  • 机器学习解决问题的框架
    1)预测问题:
    1.1分类:离散型变量
    1.2回归:连续性变量
    2)聚类问题:
    3)确定目标:
    业务需求-数据-特征工程(数据预处理,70%,最重要)


    https://img1.sycdn.imooc.com/6739b2bb000122c810960704.jpg


    查看全部
  • 算法分类1:根据数据有无标签Y进行分类

    对样本数据进行一些训练,得到模型,通过模型判断X与Y的关系。

        有监督学习:训练数据中已经明确给出了该数据的Y,给数据打上了标签。如:已对邮件打上了“垃圾邮件”、“正常邮件”的标签。包括:分类算法、回归算法。

        无监督学习:训练数据并没有Y,数据没有任何标签。典型算法:聚类。

        半监督学习:也叫强化学习,数据越多,模型越好。

    算法分类2:根据解决问题进行分类

        分类与回归、聚类、标注

    算法分类3(重要,直指本质)

        生成模型:用来说明分类问题。返回的是属于各个类的概率。

        判别模型:用来说明分类问题。直接给一个函数,数据输入到函数中,直接返回类别。


    https://img1.sycdn.imooc.com/6739b1fe00015e9e12000684.jpg


    https://img1.sycdn.imooc.com/6739b21b0001edcf10960690.jpg


    https://img1.sycdn.imooc.com/6739b20b0001a0b910320646.jpg


    https://img1.sycdn.imooc.com/6739b1f80001e26b08960604.jpg

    查看全部
  • 2、解决业务问题不同
    数据分析,报告历史上发生的事情。
    机器学习:通过历史上发生的事情,来预测未来的事情。
    3、技术手段不同
    数据分析:分析方式是用户(数据分析师)驱动的,交互式分析。分析能力受限于数据分析师的能力,数据属性和维度很有限。
    机器学习:分析方式是数据驱动的,自动进行知识发现。分析能力不受限于人,数据属性和维度数量级很大。
    4、参与者不同
    数据分析,分析师能力决定结果,目标用户是公司管理决策层。
    机器学习,数据质量决定结果,目标用户是个体。

    https://img1.sycdn.imooc.com/6739ae460001814211500772.jpg

    https://img1.sycdn.imooc.com/6739ae120001de6d11860674.jpg

    查看全部
  • 机器学习与数据分析的区别

    1. 处理的数据类型和特点

      1. 交易数据 vS 行为数据

      2. 少量数据 vs 海量数据

      3. 采样分析 vs 全量分析

    数据分析:

    数据类型:主要处理交易数据,例如电商网站用户下单、银行存取款账单等。

    数据量:通常涉及的数据量较少。

    数据分析方法:倾向于采用采样分析,因为数据量不大,可以对样本进行深入分析。

    数据一致性:对数据一致性要求严格,尤其是在金融交易等场景中,数据的准确性至关重要。

    数据库使用:因此,数据分析通常使用关系型数据库,如SQL Server、MySQL、Oracle等,这些数据库能够保证事务的ACID属性(原子性、一致性、隔离性、持久性),确保数据的准确性和一致性。

    机器学习:

    数据类型:主要处理行为数据,例如用户的搜索历史、浏览历史、点击历史、评论等。

    数据量:涉及的数据量庞大,通常需要处理海量数据。

    数据分析方法:倾向于进行全量分析,以捕捉数据中的所有模式和趋势。

    数据一致性:对数据一致性的要求相对较低,更注重数据吞吐量和处理速度。

    数据库使用:因此,机器学习通常使用NoSQL数据库(如MongoDB)和分布式数据分析平台(如Hadoop、Spark),这些技术能够处理大规模数据集,并且具有高吞吐量和灵活性。

    2. 数据处理方法和工具

    数据分析:

    侧重于使用统计方法和查询语言(如SQL)来分析数据,以支持决策制定。

    工具和语言包括Excel、R、Python(Pandas库)等。

    机器学习:

    侧重于使用算法和模型来从数据中学习模式,并进行预测或分类。

    工具和框架包括TensorFlow、PyTorch、Scikit-learn等。



    https://img1.sycdn.imooc.com/67395edf0001fdce10660436.jpg

    https://img1.sycdn.imooc.com/67395f030001999609020568.jpg



    https://img1.sycdn.imooc.com/67395f0e0001a4cb10840674.jpg



    -----

    https://img1.sycdn.imooc.com/67395f560001657509160650.jpg





    用 Nosql 处理行为数据,跟钱相关的数据,是不会用 nosql 去处理的。https://img1.sycdn.imooc.com/67395fa3000170c209900594.jpg

    查看全部
  • 什么是机器学习?

    1.   利用计算机从历史数据中找出规律;并把这些规律用到对未来不定场景的决策

     机器学习的典型应用

    1.   关联规则:啤酒+纸尿片,购物篮分析

    2.   聚类:用户细分精准营销

    3.   朴素贝叶斯:垃圾邮件检测

    4.   决策树:风险识别

    5.   ctr预估:互联网广告:百度的前多少个词条(商业广告)(按照点击率排序)

    6.   协同过滤:推荐系统(电商购物车推荐,应用市场下载应用后的推荐等等)

    7.   自然语言处理:情感分析(对文本抓关键情感词),实体识别(提取文本主要数据,人名等)

    8.   深度学习:图像识别

    9.   更多应用:语音识别,人脸识别,手势控制,智慧机器人,实时翻译

    https://img1.sycdn.imooc.com/67395d5f0001fc4311960656.jpg



    https://img1.sycdn.imooc.com/67395da20001a49710920746.jpg


    https://img1.sycdn.imooc.com/67395dbb0001f86810260700.jpg


    https://img1.sycdn.imooc.com/67395dd300016e6813080666.jpg

    查看全部
  • 机器学习的典型应用:

    1. 购物篮分析——美国超市啤酒和纸尿裤——关联规则

    2. 用户细分精准营销—— 中国移动全球通、动感地带、神州行——聚类

    3. 垃圾邮件识别——朴素贝叶斯

    4. 信用卡欺诈——决策树


    https://img1.sycdn.imooc.com/67395bc000018ca511620664.jpg


    Îhttps://img1.sycdn.imooc.com/67395bcf0001c39212100640.jpg

    查看全部
  • 机器学习的典型应用


    用户细分精准营销


    • 聚类  用机器对用户群体分类,判断用户具体需要什么。

    https://img1.sycdn.imooc.com/67395a9c000195b311360666.jpg

    查看全部
    0 采集 收起 来源:典型应用-聚类

    2024-11-17

  • 购物篮分析
     
     关联算法,纸尿裤和啤酒


    https://img1.sycdn.imooc.com/67395a670001bb7317581006.jpg

    查看全部
  • 业务系统发展的历史


    1. 基于专家经验

    2. 基于统计——分纬度统计

    3. 机器学习——在线学习

    https://img1.sycdn.imooc.com/673959c10001e25409840520.jpg

    机器学习两种使用场景 离线学习和在线学习。

    1. 离线学习:批处理的方式,对以前的数据进行学习,从而运用到后面的指导中

    2. 在线学习:对实时产生的数据进行学习,再对实时得业务进行指导

    两种场景使用的算法都是一样的。

    查看全部
  • 机器学习发展的原动力

    1. 从历史数据中找出规律,把这些规律用到对未来自动作出决定。

    2. 用数据代替expert

    3. 经济驱动,数据变现

    4. https://img1.sycdn.imooc.com/6739551c0001281112500574.jpg

    查看全部
    • 《概率论》《数据统计》是机器学习的基石

    https://img1.sycdn.imooc.com/6739523600015c9211160694.jpg

    • 传统的统计学,受运算能力的限制,所以是用抽样的方式, 抽取一定量的样本然后进行概率统计,然后得到结论之后进行假设检验

    • 统计学受限于计算能力,依赖于采样的方法,再反作用于原来的数据。步骤:抽样-->描述统计-->结论-->假设检验。

    • 现在无需考虑数据量的问题,无需抽样技术,直接全样。可利用可视化技术来观察数据。要进行数据分析,需要先进行量化,用模型拟合规律,函数-->函数曲线-->拟合。高维度时很难用可视化的方法,只能用数学运算。

    https://img1.sycdn.imooc.com/673953b60001cd6712220626.jpg

    查看全部
    • 什么是机器学习?

      • 利用计算机从历史数据中找出规律,并把这些规律用到对未来不确定场景的决策 

    • 判断、决策
      主体的不同:计算机--机器学习、人--数据分析。
      • 数据分析是依靠人从历史数据中找到规,学习效果很大程度以来于人的经验与知识水平,

      • 机器学习就是想要抛弃对人的依赖,靠机器来挖掘规律。
        数据:机器学习只是解决问题的框架、算法,需要数据,数据量越大越准确。
        规律:通过机器学习不同的算法去找规律,不同的算法结果不同。

      • https://img1.sycdn.imooc.com/67395144000100ab10580702.jpg


    查看全部
  • 一、 demo - 图片按照色彩聚类

    查看全部
  • 一、机器学习解决问题的框架

    1. 训练模型

      1. 定义模型

      2. 定义损失函数

      3. 优化算法

    2. 模型评估

      1. 交叉验证

        1. 多个算法分别带入同一类数据,验证效果

      2. 效果评估

        1. 评估多个算法间的差异

    查看全部
  • 一、机器学习解决问题的框架

    1. 聚类问题

    2. 预测问题


    二、各个算法共同的思想

    1. 机器学习 —— 确定目标

      1. 业务需求

      2. 数据

      3. 特征工程(数据预处理)


    查看全部
  • 一、机器学习算法

    SVM:支持向量机

    关联分析: FP-Growth

    AdaBoot:  有监督学习,人脸识别


    二、常用算法

    1. FP-Growth

    2. 逻辑回归

      1. 搜索结果的排序等

    3. RF、GBDT

      1. 决策树的改进

    4. 推荐算法

      1. 各个推荐系统的算法

    5. LDA

      1. 自然语言处理算法

    6. Word2Vetor

      1. 文本挖掘

    7. HMM、CRF

      1. 文本挖掘

    8. 深度学习

      1. 图像识别等

    查看全部
  • 一、机器学习算法分类

    1. 有监督学习

      1. 分类算法

      2. 回归算法

    2. 无监督学习

      1. 聚类

    3. 半监督学习(强化学习)

    4. 其他

      1. 标注

      2. 生成模型(属于各个类的概率)

      3. 判别模型 (分类)

    查看全部
首页上一页1234567下一页尾页

举报

0/150
提交
取消
课程须知
1、有一定数据分析经验。 2、对机器学习有热情的同学。
老师告诉你能学到什么?
1.什么是机器学习 2.机器学习的典型行业案例 3.机器学习和传统数据分析的区别 4.机器学习的经典算法

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!