对于一个类,我需要提取元素之间的所有内容<seg>......</seg>我正在尝试通过 Python 来执行此操作,而不是浪费时间手动执行此操作(它超过 400 行)。我现在的代码方式是这样的(我在网上找到的一个代码并做了一些更改,以便它不打印行号):import re err_occur = [] pattern = re.compile(r"<seg>(.*)</seg>")try: with open ('corpus.txt', 'rt') as in_file: for linenum, line in enumerate(in_file): if pattern.search(line) != None: err_occur.append((linenum, line.rstrip('\n'))) for linenum, line in err_occur: print(line, sep='')except FileNotFoundError: print("Input file not found.")我遇到的唯一问题是它会在结果中打印<seg>和</seg>,这是我不希望发生的。我尝试创建组(您可以在我使用模式变量中的括号中看到),但我不知道如何操作代码以仅返回组 1(我尝试了许多不同的方法)。
添加回答
举报
0/150
提交
取消