为了账号安全,请及时绑定邮箱和手机立即绑定

初识机器学习-理论篇

stonedog 全栈工程师
难度入门
时长 1小时48分
学习人数
综合评分9.57
289人评价 查看评价
9.5 内容实用
9.6 简洁易懂
9.6 逻辑清晰
  • 2024.12.02 02:37
    听完第一遍!机器学习课。
    查看全部

  • https://img1.sycdn.imooc.com/674c20dd0001af9e15650831.jpgRT.

    查看全部
  • 1. 决策树算法(C4.5, CART)

        无监督学习:实际上,决策树通常用于有监督学习,因为它依赖于标注数据进行训练。可以根据特征来划分数据,进行分类或回归。

        C4.5和CART:虽然这两者在过去很常见,但如今更先进的算法(如XGBoost)已取代它们。可以考虑添加对这些新算法的简要介绍。

    2. K-Means(无监督学习)

        聚类算法非常适合于无监督学习。K-Means通过最小化每个点到质心的距离来分组,适用于大多数情况下数据分布较为均匀的情况。

    3. SVM(支持向量机)

        支持向量机是一个非常强大的分类与回归算法,尤其适用于高维数据。尽管深度学习在某些任务中已超越它,SVM仍然是经典的高效分类算法之一。

    4. Apriori

        已淘汰的算法,确实因其计算复杂度和多次扫描数据库的需求而受到批评。FP-Growth是更高效的替代者,它通过树形结构减少了对数据库的访问次数。

    5. EM算法

        作为一种统计学习方法,EM算法的理解确实有一定的门槛,适用于混合模型或缺失数据处理等问题。

    6. PageRank

        虽然PageRank仍然广泛应用于搜索引擎中,但其具体实现细节已经有许多创新和优化,尤其是在大规模图数据的处理上。

    7. AdaBoost

        这是一种集成学习方法,可以与弱分类器(如决策树)结合,通过加权的方式提高整体分类准确率。它在图像识别中有广泛应用。

    8. kNN(k-近邻)

        与K-Means的不同之处在于,kNN是基于距离的分类方法。它简单易懂,但对于大数据集来说计算复杂度较高。

    9. Naive Bayes

        适用于分类任务,特别是在文本分类中,如垃圾邮件检测。其假设特征之间相互独立,这在实际数据中可能不完全成立,但通常仍能获得不错的效果。

    高级算法:

        FP-Growth

            在Apriori的基础上优化了计算效率,尤其适用于关联规则挖掘。

        逻辑回归

            非常重要且广泛使用,尤其是在二分类问题和概率预测中。

        随机森林(RF)和GBDT

            两者都是决策树的集成算法,广泛用于分类与回归问题。GBDT在处理非线性问题时表现尤为出色。

        推荐算法

            推荐系统广泛应用于电商、社交平台中,有很多优化方法,如协同过滤、内容推荐等。

        LDA(潜在狄利克雷分配)

            主要用于主题模型,在文本挖掘中有重要应用。

        Word2Vec

            用于将词语转化为向量表示,是文本数据处理中的一个重要技术。

        HMM与CRF

            隐马尔可夫模型与条件随机场都广泛应用于序列数据建模,如语音识别、自然语言处理。

        深度学习

            包括CNN、RNN等深度神经网络,是目前处理大规模复杂数据(如图像、语音、文本)最前沿的技术。

    查看全部
  • 机器学习算法分类(1): 通过模型判断Y和X的关系

        有监督学习:分类算法——Y类:垃圾邮件

                                                    X类:正常邮件

                              回归算法

        无监督学习: 聚类   (无Y类)

                                 

        半监督学习:强化学习

    机器学习算法分类(2):

        分类与回归

        聚类

        标注,给每一个对象打上标签,如句子的主谓宾切割 

    机器学习算法分类(3)【重要】

        生成模型:(陪审团)属于某类的可能性。

        判别模型:  (法官)直接给函数,定结果。

    查看全部
  • 什么是机器学习

    生活中的机器学习

    数据分析和机器学习

    常用算法

    框架

    demo

    查看全部
  • 重新开始学习一遍吧。


    674a2be400019c4c11200630.jpg
    查看全部
  • 机器学习与数据分析?


    674a2b880001a23511200630.jpg
    查看全部
  • 机器学习常见算法(1)ICDM
    1.分类---C4.5使用决策树算法,可以解决【分类】&【回归】问题;
    2.聚类---K-Means算法,属于无监督方法,解决电信用户分类问题;
    3.统计学习---SVM(支持向量机)可以解决分类(主)和回归问题,有很好的表现和深厚的数学理论支撑,曾经被认为是最好的分类算法。现在光芒被【深度学习】掩盖了。有一定的数学门槛,面试中经常被问。
    4.关联分析---Apriori应用于“尿片和纸尿裤”案例,最早解决了频繁项集问题。由于需要频繁访问数据库,已被淘汰。取代它的是华人开的【FP-Growth】算法。应用:电商的推荐系统,但目前有更好的替代方法。
    5.统计分析---EM算法是一个算法框架,用于解决一系列问题。
    6.连接挖掘---PageRank。Google使用的网页排序算法,很著名。
    7.集装与推进---AdaBoosts算法,应用于人脸识别,本质为改进的决策树算法,属于有监督的分类算法。
    8.分类---kNN。相对简单的分类算法,有监督。
    9.分类---Naive Bayes朴素贝叶斯算法,用于识别垃圾邮件。
    目前不常用的算法:Apriori和CART。


    https://img1.sycdn.imooc.com/6739b5a900010dff09560542.jpg

    查看全部
  • 机器学习解决问题的框架
    1)预测问题:
    1.1分类:离散型变量
    1.2回归:连续性变量
    2)聚类问题:
    3)确定目标:
    业务需求-数据-特征工程(数据预处理,70%,最重要)


    https://img1.sycdn.imooc.com/6739b2bb000122c810960704.jpg


    查看全部
  • 算法分类1:根据数据有无标签Y进行分类

    对样本数据进行一些训练,得到模型,通过模型判断X与Y的关系。

        有监督学习:训练数据中已经明确给出了该数据的Y,给数据打上了标签。如:已对邮件打上了“垃圾邮件”、“正常邮件”的标签。包括:分类算法、回归算法。

        无监督学习:训练数据并没有Y,数据没有任何标签。典型算法:聚类。

        半监督学习:也叫强化学习,数据越多,模型越好。

    算法分类2:根据解决问题进行分类

        分类与回归、聚类、标注

    算法分类3(重要,直指本质)

        生成模型:用来说明分类问题。返回的是属于各个类的概率。

        判别模型:用来说明分类问题。直接给一个函数,数据输入到函数中,直接返回类别。


    https://img1.sycdn.imooc.com/6739b1fe00015e9e12000684.jpg


    https://img1.sycdn.imooc.com/6739b21b0001edcf10960690.jpg


    https://img1.sycdn.imooc.com/6739b20b0001a0b910320646.jpg


    https://img1.sycdn.imooc.com/6739b1f80001e26b08960604.jpg

    查看全部
  • 2、解决业务问题不同
    数据分析,报告历史上发生的事情。
    机器学习:通过历史上发生的事情,来预测未来的事情。
    3、技术手段不同
    数据分析:分析方式是用户(数据分析师)驱动的,交互式分析。分析能力受限于数据分析师的能力,数据属性和维度很有限。
    机器学习:分析方式是数据驱动的,自动进行知识发现。分析能力不受限于人,数据属性和维度数量级很大。
    4、参与者不同
    数据分析,分析师能力决定结果,目标用户是公司管理决策层。
    机器学习,数据质量决定结果,目标用户是个体。

    https://img1.sycdn.imooc.com/6739ae460001814211500772.jpg

    https://img1.sycdn.imooc.com/6739ae120001de6d11860674.jpg

    查看全部
  • 机器学习与数据分析的区别

    1. 处理的数据类型和特点

      1. 交易数据 vS 行为数据

      2. 少量数据 vs 海量数据

      3. 采样分析 vs 全量分析

    数据分析:

    数据类型:主要处理交易数据,例如电商网站用户下单、银行存取款账单等。

    数据量:通常涉及的数据量较少。

    数据分析方法:倾向于采用采样分析,因为数据量不大,可以对样本进行深入分析。

    数据一致性:对数据一致性要求严格,尤其是在金融交易等场景中,数据的准确性至关重要。

    数据库使用:因此,数据分析通常使用关系型数据库,如SQL Server、MySQL、Oracle等,这些数据库能够保证事务的ACID属性(原子性、一致性、隔离性、持久性),确保数据的准确性和一致性。

    机器学习:

    数据类型:主要处理行为数据,例如用户的搜索历史、浏览历史、点击历史、评论等。

    数据量:涉及的数据量庞大,通常需要处理海量数据。

    数据分析方法:倾向于进行全量分析,以捕捉数据中的所有模式和趋势。

    数据一致性:对数据一致性的要求相对较低,更注重数据吞吐量和处理速度。

    数据库使用:因此,机器学习通常使用NoSQL数据库(如MongoDB)和分布式数据分析平台(如Hadoop、Spark),这些技术能够处理大规模数据集,并且具有高吞吐量和灵活性。

    2. 数据处理方法和工具

    数据分析:

    侧重于使用统计方法和查询语言(如SQL)来分析数据,以支持决策制定。

    工具和语言包括Excel、R、Python(Pandas库)等。

    机器学习:

    侧重于使用算法和模型来从数据中学习模式,并进行预测或分类。

    工具和框架包括TensorFlow、PyTorch、Scikit-learn等。



    https://img1.sycdn.imooc.com/67395edf0001fdce10660436.jpg

    https://img1.sycdn.imooc.com/67395f030001999609020568.jpg



    https://img1.sycdn.imooc.com/67395f0e0001a4cb10840674.jpg



    -----

    https://img1.sycdn.imooc.com/67395f560001657509160650.jpg





    用 Nosql 处理行为数据,跟钱相关的数据,是不会用 nosql 去处理的。https://img1.sycdn.imooc.com/67395fa3000170c209900594.jpg

    查看全部
  • 什么是机器学习?

    1.   利用计算机从历史数据中找出规律;并把这些规律用到对未来不定场景的决策

     机器学习的典型应用

    1.   关联规则:啤酒+纸尿片,购物篮分析

    2.   聚类:用户细分精准营销

    3.   朴素贝叶斯:垃圾邮件检测

    4.   决策树:风险识别

    5.   ctr预估:互联网广告:百度的前多少个词条(商业广告)(按照点击率排序)

    6.   协同过滤:推荐系统(电商购物车推荐,应用市场下载应用后的推荐等等)

    7.   自然语言处理:情感分析(对文本抓关键情感词),实体识别(提取文本主要数据,人名等)

    8.   深度学习:图像识别

    9.   更多应用:语音识别,人脸识别,手势控制,智慧机器人,实时翻译

    https://img1.sycdn.imooc.com/67395d5f0001fc4311960656.jpg



    https://img1.sycdn.imooc.com/67395da20001a49710920746.jpg


    https://img1.sycdn.imooc.com/67395dbb0001f86810260700.jpg


    https://img1.sycdn.imooc.com/67395dd300016e6813080666.jpg

    查看全部
  • 机器学习的典型应用:

    1. 购物篮分析——美国超市啤酒和纸尿裤——关联规则

    2. 用户细分精准营销—— 中国移动全球通、动感地带、神州行——聚类

    3. 垃圾邮件识别——朴素贝叶斯

    4. 信用卡欺诈——决策树


    https://img1.sycdn.imooc.com/67395bc000018ca511620664.jpg


    Îhttps://img1.sycdn.imooc.com/67395bcf0001c39212100640.jpg

    查看全部
  • 机器学习的典型应用


    用户细分精准营销


    • 聚类  用机器对用户群体分类,判断用户具体需要什么。

    https://img1.sycdn.imooc.com/67395a9c000195b311360666.jpg

    查看全部
    0 采集 收起 来源:典型应用-聚类

    2024-11-17

  • 购物篮分析
     
     关联算法,纸尿裤和啤酒


    https://img1.sycdn.imooc.com/67395a670001bb7317581006.jpg

    查看全部
  • 业务系统发展的历史


    1. 基于专家经验

    2. 基于统计——分纬度统计

    3. 机器学习——在线学习

    https://img1.sycdn.imooc.com/673959c10001e25409840520.jpg

    机器学习两种使用场景 离线学习和在线学习。

    1. 离线学习:批处理的方式,对以前的数据进行学习,从而运用到后面的指导中

    2. 在线学习:对实时产生的数据进行学习,再对实时得业务进行指导

    两种场景使用的算法都是一样的。

    查看全部
  • 机器学习发展的原动力

    1. 从历史数据中找出规律,把这些规律用到对未来自动作出决定。

    2. 用数据代替expert

    3. 经济驱动,数据变现

    4. https://img1.sycdn.imooc.com/6739551c0001281112500574.jpg

    查看全部
    • 《概率论》《数据统计》是机器学习的基石

    https://img1.sycdn.imooc.com/6739523600015c9211160694.jpg

    • 传统的统计学,受运算能力的限制,所以是用抽样的方式, 抽取一定量的样本然后进行概率统计,然后得到结论之后进行假设检验

    • 统计学受限于计算能力,依赖于采样的方法,再反作用于原来的数据。步骤:抽样-->描述统计-->结论-->假设检验。

    • 现在无需考虑数据量的问题,无需抽样技术,直接全样。可利用可视化技术来观察数据。要进行数据分析,需要先进行量化,用模型拟合规律,函数-->函数曲线-->拟合。高维度时很难用可视化的方法,只能用数学运算。

    https://img1.sycdn.imooc.com/673953b60001cd6712220626.jpg

    查看全部
    • 什么是机器学习?

      • 利用计算机从历史数据中找出规律,并把这些规律用到对未来不确定场景的决策 

    • 判断、决策
      主体的不同:计算机--机器学习、人--数据分析。
      • 数据分析是依靠人从历史数据中找到规,学习效果很大程度以来于人的经验与知识水平,

      • 机器学习就是想要抛弃对人的依赖,靠机器来挖掘规律。
        数据:机器学习只是解决问题的框架、算法,需要数据,数据量越大越准确。
        规律:通过机器学习不同的算法去找规律,不同的算法结果不同。

      • https://img1.sycdn.imooc.com/67395144000100ab10580702.jpg


    查看全部
  • 一、 demo - 图片按照色彩聚类

    查看全部
  • 一、机器学习解决问题的框架

    1. 训练模型

      1. 定义模型

      2. 定义损失函数

      3. 优化算法

    2. 模型评估

      1. 交叉验证

        1. 多个算法分别带入同一类数据,验证效果

      2. 效果评估

        1. 评估多个算法间的差异

    查看全部
  • 一、机器学习解决问题的框架

    1. 聚类问题

    2. 预测问题


    二、各个算法共同的思想

    1. 机器学习 —— 确定目标

      1. 业务需求

      2. 数据

      3. 特征工程(数据预处理)


    查看全部
  • 一、机器学习算法

    SVM:支持向量机

    关联分析: FP-Growth

    AdaBoot:  有监督学习,人脸识别


    二、常用算法

    1. FP-Growth

    2. 逻辑回归

      1. 搜索结果的排序等

    3. RF、GBDT

      1. 决策树的改进

    4. 推荐算法

      1. 各个推荐系统的算法

    5. LDA

      1. 自然语言处理算法

    6. Word2Vetor

      1. 文本挖掘

    7. HMM、CRF

      1. 文本挖掘

    8. 深度学习

      1. 图像识别等

    查看全部
  • 一、机器学习算法分类

    1. 有监督学习

      1. 分类算法

      2. 回归算法

    2. 无监督学习

      1. 聚类

    3. 半监督学习(强化学习)

    4. 其他

      1. 标注

      2. 生成模型(属于各个类的概率)

      3. 判别模型 (分类)

    查看全部
首页上一页1234567下一页尾页

举报

0/150
提交
取消
课程须知
1、有一定数据分析经验。 2、对机器学习有热情的同学。
老师告诉你能学到什么?
1.什么是机器学习 2.机器学习的典型行业案例 3.机器学习和传统数据分析的区别 4.机器学习的经典算法

微信扫码,参与3人拼团

意见反馈 帮助中心 APP下载
官方微信
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!