-
混淆矩阵,用于衡量分类算法的准确程度
True Positives(TP):预测准确、实际为正样本的数量(实际为1,预测为1)
True Negatives(TN):预测准确,实际为负样本的数量(实际为0,预测为0)
False Positive(FP):预测错误、实际为负样本的数量(实际为0,预测为1)
FalseNegatives(FN):预测错误、实际为正样本的数量(实际为1,预测为0)
查看全部 -
逻辑回归模型:计算数据归属于某一类别的概率P,根据概率数值判断其类别。主要应用于二分类问题
查看全部 -
逻辑回归模型:在二分类问题中使用更加广泛
使用准确率进行模型评估的局限性
混淆矩阵、模型衡量指标及其意义
查看全部 -
将整个数据集用于训练与测试,训练数据与测试数据相同导致的问题:
1)训练模型的最终目标是为了预测新数据对应的结果
2)最大化训练准确率通常会导致模型复杂化
3)过度复杂模型容易导致训练数据的过度拟合
查看全部 -
# 模型评估 比较不同K值 模型的好坏
# 全数据集训练与预测
# 训练数据集、测试数据集分离
# 如何选择模型合适的参数,预测新数据对应结果
查看全部 -
使用scikit-learn建模四步骤
调用需要使用的模型类
模型初始化,创建一个模型实例
模型训练
模型预测
查看全部 -
给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实例分类到这个类中。
查看全部 -
分类: 根据数据集目标的特征或者属性,划分到已有类别中
常用的分类算法:K近邻(KNN),逻辑回归、决策树、朴素贝叶斯
查看全部 -
数据预处理:
iris数据加载
数据展示
确认数据维度
使用scikit-learn进行数据处理的四个关键点
1区分开属性数据与结果数据
2属性数据与结果数据都是量化的
3运算过程中,属性数据与结果数据的类型都是Numpy数组
4属性数据与结果数据的维度是对应的
查看全部 -
界面设置
jt -t oceans16 -f fira -fs 17 -cellw 90% -ofs 14 -dfs 14 -T
查看全部 -
Jupyter notebook
是一个开源的Web应用程序,旨在方便开发者创建和共享代码文档,用户可以在里面写代码、运行代码、查看结果,并在其中可视化数据。
基于Web框架进行交互开发,非常方便。
查看全部 -
Scikit-learn的特点是继承了机器学习中各类成熟的算法,容易安装和使用,样例丰富、教程和文档也非常详细。
但sklearn不支持python之外的语言,不支持深度学习和强化学习。
查看全部 -
Scikit-learn工具包
Python中针对机器学习应用而发展起来的一款开源框架。可以实现数据预处理、分类、回归、降维、模型选择等常用的机器学习算法。
查看全部 -
Python的使用场景:Web、Mobile、Enterprise、Embedded
Python的优点:简单、开发效率高、高级语言、可移植性、可扩展性、可嵌入性。
缺点:速度慢、代码不能加密
查看全部 -
解释性:不需要变异成二进制代码,可以直接从源代码运行
面向对象:Python既支持面向过程的编程也支持面向对象
可移植性:开源本质,可以在不同平台进行开发
高层语言:无须考虑诸如如何管理程序使用的内存一类的底层细节
查看全部
举报