已解决430363个问题，去搜搜看，总会有你想问的

如何仅使用rdd而不是数据帧从spark中的csv中获取N（th）列

首页猿问如何仅使用rdd而不是数据帧从sp...

如何仅使用rdd而不是数据帧从spark中的csv中获取N（th）列

Python

哆啦的时光机 2021-11-02 16:05:04

我想仅使用 rdd 函数而不是 spark 中的数据框从 csv 文件中选择一列。我已经为它编写了代码。其他一些列有一个空值。rdd = spark.sparkContext.textFile(filename) rdd_parc = rdd.map(lambda x: x.split(","))rdd1 = rdd_parc.map(lambda x: x[6] != "")但是这个解决方案似乎不会选择第 6 列，而是选择地图的元素 6。样本数据：Lachine,H,0,,,,"SUMMERLEA, PARC",FR,2016,287826.19201900001,5033164.33193000030,-73.7169573579999,45.4382054Lachine,H,0,,,,"SUMMERLEA, PARC",FR,2016,287826.19201900001,5033164.33193000030,-73.7169573579999,45.4382054可以看到有些值为空。我希望我的答案是SUMMERLEA, PARCSUMMERLEA, PARC

查看完整描述

1 回答

1 回答
0 关注
143 浏览

关注

添加回答

0/150

提交

取消

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

热搜

最近搜索清空

如何仅使用rdd而不是数据帧从spark中的csv中获取N（th）列

如何仅使用rdd而不是数据帧从spark中的csv中获取N（th）列

1 回答

添加回答