现有数据如下(真实情况大概几十万行):比如有另个文件p.txt,里面有一列数,如下:“82400041467896108240004356417597……8240004146757344”我需要抽取数据中第四列为p.txt中的数,该有什么快速的方法吗(方法不限定于pandas)?其实就是个抽样过程,抽指定的样本,第四列为指定文件里的数。现在的想法是在p.txt里循环,然后用pandas读取原始数据,第四列==循环的数就提取出来,是否有更快捷的方法?
1 回答
![?](http://img1.sycdn.imooc.com/5458626a0001503602200220-100-100.jpg)
肥皂起泡泡
TA贡献1829条经验 获得超6个赞
可以考虑用pandas的apply,减去p.txt循环和后继矩阵拼接的步骤。
即读取p.txt里的数据转成一个list例如P,然后用pandas读取原始数据,执行:
df[df[<第四列名>].apply(lambda x: x in P)]
添加回答
举报
0/150
提交
取消