已解决430363个问题，去搜搜看，总会有你想问的

提取出现在单元格 Pandas 中多行的特定字符串

首页猿问提取出现在单元格 Pandas...

提取出现在单元格 Pandas 中多行的特定字符串

Python

偶然的你 2021-09-01 19:30:36

我必须提取以“Year”开头并以“\n”结尾的字符串，但对于出现在 Pandas 数据框中的单元格中的每一行。另外，我想删除单元格末尾的 \n 。这是数据框：df Column1 not_important1\nnot_important2\nE012-855 Year-1972\nE012-856 Year-1983\nnot_important3\nE012-857 Year-1977\nnot_important4\nnot_important5\nE012-858 Year-2012\n not_important6\nnot_important7\nE013-200 Year-1982\nE013-201 Year-1984\nnot_important8\nE013-202 Year-1987\n not_important9\nnot_important10\nE014-652 Year-1988\nE014-653 Year-1980\nnot_important11\nE014-654 Year-1989\n这就是我想要得到的：df Column1 Year-1972\nYear-1983\nYear-1977\nYear-2012 Year-1982\nYear-1984\nYear-1987 Year-1988\nYear-1980\nYear-1989这该怎么做？

查看完整描述

1 回答

明月笑刀无情

TA贡献1828条经验获得超4个赞

您可以使用findall和这个正则表达式r'Year.*?\\n'来捕获子字符串。然后从找到的元素列表中创建一个字符串 with ''.join，然后删除最后一个\nwith [:-2]：

import re

df['Column1'] = df['Column1'].apply(lambda x: ''.join(re.findall('Year.*?\\n', x))[:-2])

或者，如果在年份的 4 位数字之后总是\n，您可以这样做：

df['Column1'] = df['Column1'].apply(lambda x: '\n'.join(re.findall('Year-\d\d\d\d', x)))

反对回复 2021-09-01

1 回答
0 关注
260 浏览

关注

添加回答

0/150

提交

取消

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

热搜

最近搜索清空

提取出现在单元格 Pandas 中多行的特定字符串

提取出现在单元格 Pandas 中多行的特定字符串

1 回答

添加回答