为了账号安全,请及时绑定邮箱和手机立即绑定

【学习打卡】第9天 清理数据重复值、缺失值、拆分

课程名称:人人都能学会数据分析

课程章节:更高效的数据处理与可视化绘图

课程内容:清理数据重复值、缺失值、拆分

课程收获

#全部显示行列数据: pd.set_option()

 显示所有列:pd.set_option('display.max_rows',None)


 显示所有行:pd.set_option('display.max_columns' , None)


 设置数据的显示长度,默认为50:pd.set_option('max_colwidth', 50)




#读取数据


 pd.read


提取需要的数据:usecols=【】


 eg: data=pd.read_csv('movie_data.csv,usecols=['average','genre','language','release-date','title','votes'])


# 查重 去重


 查重 :duplicate. 去重 drop_duplicate


eg : dupl_df=data.duplicate('title'), dupl_data=data.drop_duplicate('title)


验证去重是否成功,可用检查字符数的方法


print(len(dupl_df),' ', len(dupl_data))




#缺失值 np.nan


判断pd. isna(), 返回布尔值 true为缺失


填充缺失值 fillna(value=)


EX:  用均值填充:


dupl_data['average'].fillna(value=dupl_data['average'].mean())


#分列 str.split(',' , expand=True)


EX: dupl_data['release date'].str.split('(',expand=Ture))

https://img1.sycdn.imooc.com//62f3c0e400013e4819201080.jpg


下载视频          
点击查看更多内容
1人点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消