为了账号安全,请及时绑定邮箱和手机立即绑定

更简单的 Python 等效于 R 风格的 grep,包括多个要匹配的内容

更简单的 Python 等效于 R 风格的 grep,包括多个要匹配的内容

30秒到达战场 2021-11-09 15:39:33
这个问题是一个近乎重复的这一个,有一些调整。获取以下数据框,并获取其中包含“sch”或“oa”的列的位置。在 R 中足够简单:df <- data.frame(cheese = rnorm(10),                 goats = rnorm(10),                  boats = rnorm(10),                  schmoats = rnorm(10),                  schlomo = rnorm(10),                 cows = rnorm(10))grep("oa|sch", colnames(df))[1] 2 3 4 5write.csv(df, file = "df.csv")现在在 python 中,我可以使用一些详细的列表理解:import pandas as pddf = pd.read_csv("df.csv", index_col = 0)matches = [i for i in range(len(df.columns)) if "oa" in df.columns[i] or "sch" in df.columns[i]]matchesOut[10]: [1, 2, 3, 4]我想知道在 python 中是否有比上面的列表理解示例更好的方法。具体来说,如果我有几十个字符串要匹配怎么办。在 R 中,我可以做类似的事情regex <- paste(vector_of_strings, sep = "|")grep(regex, colnames(df))但是如何在 python 中使用列表理解来做到这一点并不明显。也许我可以使用字符串操作以编程方式创建将在列表内执行的字符串,以处理所有重复的or语句?
查看完整描述

2 回答

?
眼眸繁星

TA贡献1873条经验 获得超9个赞

使用 pandas 的DataFrame.filter运行相同的正则表达式:


df.filter(regex = "oa|sch").columns

# Index(['goats', 'boats', 'schmoats', 'schlomo'], dtype='object')


df.filter(regex = "oa|sch").columns.values

# ['goats' 'boats' 'schmoats' 'schlomo']

数据


import numpy as np

import pandas as pd


np.random.seed(21419)


df = pd.DataFrame({'cheese': np.random.randn(10),

                   'goats': np.random.randn(10), 

                   'boats': np.random.randn(10), 

                   'schmoats': np.random.randn(10), 

                   'schlomo': np.random.randn(10),

                   'cows': np.random.randn(10)})

并且要搜索多个字符串:


rgx = "|".join(list_of_strings)


df.filter(regex = rgx)

要返回索引,请考虑来自@Divakar 的矢量化 numpy 解决方案。请注意,与 R 不同,Python 是零索引的。


def column_index(df, query_cols):

    cols = df.columns.values

    sidx = np.argsort(cols)

    return sidx[np.searchsorted(cols,query_cols,sorter=sidx)]


column_index(df, df.filter(regex="oa|sch").columns)

# [1 2 3 4] 


查看完整回答
反对 回复 2021-11-09
?
慕田峪4524236

TA贡献1875条经验 获得超5个赞

也许您正在寻找re模块?


import re

pattern = re.compile("oa|sch")

[i for i in range(len(df.columns)) if pattern.search(df.columns[i])]

# [1, 2, 3, 4]

与 R 的矢量化相比,可能不是最好的,但列表理解应该没问题。


如果你想将字符串连接在一起,你可以做类似的事情


"|".join(("oa", "sch"))

# 'oa|sch'


查看完整回答
反对 回复 2021-11-09
  • 2 回答
  • 0 关注
  • 361 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信