首页手记学习简单两步，大幅提高python数据处理速度

学习简单两步，大幅提高python数据处理速度

标签：

Python

在数据分析领域，最热门的莫过于Python和R语言。其中，数据分析库pandas是Python最经典的库之一。它使用一个二维的DataFrame来表示表格式的数据，相比较于Numpy，Pandas可以存储混合的数据结构，同时使用NaN来表示缺失的数据，而不用像Numpy一样要手工处理缺失的数据，并且Pandas使用轴标签来表示行和列。

一般来说，用pandas处理小于100兆的数据，性能不是问题。但当我们要处理大量数据时，如何优化DataFrame的操作就需要仔细斟酌了。

例子

我们想象一个例子，你要处理一个csv文件，你想要把数据清洗后输出到另一个dataframe中，做后续处理。一个简单的程序如下：

# -*- coding: utf-8 -*-import pandas as pdimport datetime as dt

indf = pd.read_csv('600369.csv', index_col = False, encoding = "gb2312")
output_index_num = 8000outdf = pd.DataFrame(columns = indf.columns)
times1 = dt.datetime.now()for outindex in range(0, output_index_num):    # have some fun here
    outdf = outdf.append(indf.loc[int(len(indf) * outindex / output_index_num)],ignore_index=True)
times2 = dt.datetime.now()
print('Time spent: '+ str(times2-times1))

十分简单，不是吗？我们仅仅是把输入的dataframe（indf）扩展到输出outdf中去了。我们看一下运行时间：

Time spent: 0:01:58.830000

2分钟处理8000个单元，还行？这个远远不够，想象一下我们有10万个这样的csv要处理怎么办？那需要278天！怎么提高效能呢？

第一步

Dataframe的append效能很低，如果我们知道未来表的条目，预先分配好空间，将来直接向里面填入内容会快不少，我们来修改一下程序：

# -*- coding: utf-8 -*-import pandas as pdimport datetime as dt

indf = pd.read_csv('600369.csv', index_col = False, encoding = "gb2312")#outdf = pd.DataFrame(columns = indf.columns)output_index_num = 8000outdf = pd.DataFrame(pd.np.empty((output_index_num, len(indf.columns))) * pd.np.nan, columns = indf.columns)
times1 = dt.datetime.now()for outindex in range(0, output_index_num):    # have some fun here
    outdf.loc[outindex] = indf.loc[int(len(indf) * outindex / output_index_num)]
times2 = dt.datetime.now()
print('Time spent: '+ str(times2-times1))

结果好了不少：

Time spent: 0:01:27.636000

少了半分钟，是不是就这样了呢？还远远不够。

第二步

Dataframe检索每一行有好几个操作:loc,iloc,ix,at。它们效能有什么差别吗？我们来试一下：

%timeit outdf.loc[0] = indf.loc[0]100 loops, best of 3: 11.7 ms per loop
%timeit outdf.iloc[0] = indf.iloc[0]100 loops, best of 3: 11.4 ms per loop
 %timeit outdf.ix[0] = indf.ix[0]100 loops, best of 3: 11.6 ms per loop
%timeit outdf.at[0,'time'] = indf.at[0,'time']10000 loops, best of 3: 25.3 µs per loop

loc，iloc,ix看起来速度都差不多，at可是快了将近1000倍啊，可惜的是at只能选择某个单元而不是整行。没关系，我们来改一下程序：

# -*- coding: utf-8 -*-import pandas as pdimport datetime as dt

indf = pd.read_csv('600369.csv', index_col = False, encoding = "gb2312")#outdf = pd.DataFrame(columns = indf.columns)output_index_num = 8000outdf = pd.DataFrame(pd.np.empty((output_index_num, len(indf.columns))) * pd.np.nan, columns = indf.columns)
times1 = dt.datetime.now()
outdf.loc[0] = indf.loc[0]for outindex in range(0, output_index_num):    # have some fun here    
    for column in  indf.columns:
        outdf.at[outindex,column] = indf.at[int(len(indf) * outindex / output_index_num),column]
times2 = dt.datetime.now()
print('Time spent: '+ str(times2-times1))

结果大为改善：

Time spent: 0:00:07.850000

只有7秒，比以前快了12倍！更比开始的时候快了15倍多。

结论

如果目标数据集行数确定，我们应该先分配出来，在一项项填入而不是append，要做填空题而不是做补充题；尽量选择用at/iat而是不是方便的loc/iloc或者ix。

最后给大家一个思考题，为什么我在最后的程序里面加了个

outdf.loc[0] = indf.loc[0]

不加会怎么样？

作者：龙皓晨
链接：https://www.jianshu.com/p/6f9806f57011

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

潇潇雨雨

手记
篇

粉丝

25

获赞与收藏

130

关注作者，订阅最新文章

阅读免费教程

Python 办公自动化教程

17个小节 25715 870

Python 算法入门教程

15个小节 27431 1072

Python 进阶应用教程

38个小节 65808 1032

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

学习简单两步，大幅提高python数据处理速度

例子

第一步

第二步

结论

阅读免费教程