我遇到了遍历由 200.000 行组成的 Pandas DataFrame 的问题。每行由不同长度的句子组成,我希望将其拆分为特殊字符,如 re.split 方法所示。我想做的是通过为它们分配一个唯一的 ID 来跟踪哪些句子被分成了多少个子句子。我现在拥有的是:lengths = []reviews = []for sentence in corpus: subsentence = re.split(r'[.|,|?|!]', str(sentence)) for i in review: lengths.append(len(review)) reviews.append(i)df = pd.DataFrame({'review':reviews,'length': lengths})结果数据框的图片我想要的是拆分成多个子句的句子共享一个唯一的 ID,这样我就可以再次将它们粘合在一起。
1 回答

缥缈止盈
TA贡献2041条经验 获得超4个赞
lengths = []
reviews = []
unique_ids = []
unique_id = 0
for sentence in corpus:
review = re.split(r'[.|,|?|!]', str(sentence)) #assuming here that subsentences == review
for i in review:
lengths.append(len(review))
reviews.append(i)
unique_ids.append(unique_id)
unique_id += 1
df = pd.DataFrame({'review':reviews,'length': lengths, 'unique_ids': unique_ids})
添加回答
举报
0/150
提交
取消