为了账号安全,请及时绑定邮箱和手机立即绑定

在 Pandas 中迭代地分配唯一 ID

在 Pandas 中迭代地分配唯一 ID

萧十郎 2022-10-25 10:14:31
我遇到了遍历由 200.000 行组成的 Pandas DataFrame 的问题。每行由不同长度的句子组成,我希望将其拆分为特殊字符,如 re.split 方法所示。我想做的是通过为它们分配一个唯一的 ID 来跟踪哪些句子被分成了多少个子句子。我现在拥有的是:lengths = []reviews = []for sentence in corpus:    subsentence = re.split(r'[.|,|?|!]', str(sentence))    for i in review:        lengths.append(len(review))        reviews.append(i)df = pd.DataFrame({'review':reviews,'length': lengths})结果数据框的图片我想要的是拆分成多个子句的句子共享一个唯一的 ID,这样我就可以再次将它们粘合在一起。
查看完整描述

1 回答

?
缥缈止盈

TA贡献2041条经验 获得超4个赞

lengths = []

reviews = []

unique_ids = []

unique_id = 0

for sentence in corpus:

    review = re.split(r'[.|,|?|!]', str(sentence)) #assuming here that subsentences == review

    for i in review:

        lengths.append(len(review))

        reviews.append(i)

        unique_ids.append(unique_id)

    unique_id += 1


df = pd.DataFrame({'review':reviews,'length': lengths, 'unique_ids': unique_ids})


查看完整回答
反对 回复 2022-10-25
  • 1 回答
  • 0 关注
  • 81 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号