为了账号安全,请及时绑定邮箱和手机立即绑定

使用 python 代码基于单词拆分文本

使用 python 代码基于单词拆分文本

HUWWW 2022-09-20 16:38:19
我有一个很长的文本,如下所示。我需要根据一些单词进行拆分(“In”,“On”,“这些”)以下是示例数据:另一方面,我们义愤填膺地谴责和不喜欢那些被当下快乐的魅力所迷惑和沮丧的人,他们被欲望蒙蔽了双眼,以至于他们无法预见必然随之而来的痛苦和麻烦;同样的责任属于那些因意志薄弱而未能履行职责的人,这与通过因辛劳和痛苦而退缩而说的相同。这些案例非常简单,易于区分。在一个空闲的小时,当我们的选择权不受约束,当没有什么能阻止我们做我们最喜欢的事情时,每一种快乐都是受到欢迎的,每一种痛苦都是要避免的。但是,在某些情况下,由于责任要求或商业义务,经常会发生必须否定快乐并接受烦恼的情况。因此,智者在这些事情上总是坚持这个选择原则:他拒绝快乐以获得其他更大的快乐,或者他忍受痛苦以避免更痛苦的痛苦。这个问题可以用代码解决吗,因为我在csv文件中有1000行。
查看完整描述

3 回答

?
婷婷同学_

TA贡献1844条经验 获得超8个赞

根据我的评论,我认为一个不错的选择是将正则表达式与模式一起使用:

 re.split(r'(?<!^)\b(?=(?:On|In|These)\b)', YourStringVariable)


查看完整回答
反对 回复 2022-09-20
?
扬帆大鱼

TA贡献1799条经验 获得超9个赞

是的,这可以在蟒蛇中完成。您可以将文本加载到变量中,并将内置的 Split 函数用于字符串。例如:


with open(filename, 'r') as file:

    lines = file.read()

    lines = lines.split('These')

    # lines is now a list of strings split whenever 'These' string was encountered


查看完整回答
反对 回复 2022-09-20
?
泛舟湖上清波郎朗

TA贡献1818条经验 获得超3个赞

要查找不属于较大单词的整个单词,我喜欢使用正则表达式:[^\w]word[^\w]


示例 python 代码,假设文本位于名为 的变量中:text


import re

exp = re.compile(r'[^\w]in[^\w]', flags=re.IGNORECASE)

all_occurrences = list(exp.finditer(text))


查看完整回答
反对 回复 2022-09-20
  • 3 回答
  • 0 关注
  • 93 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信