-
iris花经典数据集
预处理,随机切割分为训练集和测试集
clf fit加载训练集到分类器中
predict来预测测试集,计算准确率,验证分类器的性能
使用准确率metrics accuracy_score
或混淆矩阵metrics confusion_matrix
查看全部 -
机器学习
无监督 不打标签 聚类
监督 打标签 分类 回归
决策树,通过不同的条件,来判断一个问题如果处理
条件的选取有不同的算法,一种是观察信息熵的变化,来决定
概率*log概率
查看全部 -
scikit-learn数据挖掘,机器学习的库
查看全部 -
date_range时间序列 日期
periods个数,freq单位
文件操作 xlsx csv
read_csv
read_excel(文件名,表名)
to_csv保存
to_excel
查看全部 -
统计方法
mean var std
value_counts计算值出现的次数
group_by类似sql的分组聚合
pivot_table透视表,数据交叉分析中常用
查看全部 -
缺失值NaN的处理
可以丢弃dropna 整行或列去除
也可以填充固定值或插值 fillna
查看全部 -
head打印前几行
tail打印后几行
index打印主键
values打印数据
sort排序,直接指定按那个标签排序
describe可以大致分析数据的一些特征,平均值,标准差等
可以通过[]直接下标索引切片
多个series组成dataframe
查看全部 -
import pandas as pd
Series是pandas中基础的数据结构
date_range('20200202',periods=8)依次生成8天,天数作为主键,行标签
DataFrame(数据,index主键也就是行标签,colums也就是列标签)
类似excel
查看全部 -
pandas是一种专门分析处理数据的库
查看全部 -
学习scipy多看官网的文档以及示例
进一步加强学习
查看全部 -
scipy中的linalg包含一些线性计算
可以对矩阵进行分解
使用方法与numpy类似
QR分解
SVD分解等
查看全部 -
scipy interpolate下的interpld是一维函数的插值算法
用来拟合曲线等,三角函数
查看全部 -
scipy optimize 下面的优化器
minimize最小值
nelder-mead是一种计算最小值的方法
查看全部 -
scipy.intergrate中的quad是积分模块
dblquad是二元积分
查看全部 -
scipy包含各种科学计算
数据分析的工具
查看全部
举报