1 回答
TA贡献1864条经验 获得超6个赞
我想你不需要这个。您可以使用标准库 csv
使其更简单。pandas
如果您使用的是Python 3.4 +,另一件可以改进的事情是用pathlib
替换。os
下面是一个几乎完整的示例:
import csv
from pathlib import Path
folder = Path('c:/My/Directory/Path')
csv_file = Path('c:/path/to/output.csv')
with csv_file.open('w', encoding='utf-8') as f:
writer = csv.writer(f, csv.QUOTE_ALL)
writer.writerow(['FileName', 'Text'])
for pdf_file in folder.glob('*.pdf'):
pdf_text = convert_pdf_to_txt(pdf_file).replace('\n', '|')
writer.writerow([pdf_file.name, pdf_text])
要记住的另一件事是确保将是一行,否则您的文件将会损坏。解决此问题的一种方法是选择任意字符来代替新行标记。例如,如果您选择管道字符,则可以在以下操作之前执行类似操作:pdf_textcsvwriter.writerow
pdf_text.replace('\n', '|')
它不是一个完整的例子,而是一个起点。我希望它有帮助。
添加回答
举报