我正在尝试从各种公共政府网站抓取选举结果并将其放入 .csv 或 .xlsx 文件中。然而,当我将文本数据导出到任一类型的电子表格时,我会看到如下输出:ÏÎ˲ÒÈ×ÍÀ ÏÀÐÒ²ß “ÓÊÐÀйÍÑÜÊÀ ÑÒÐÀÒÅÀÐÎÉÑÌÀÍÀ”在网站上,文字如下:“人民公仆”政党但我试图让它看起来像:“人民公仆”政党我尝试将 .csv 文件导入到使用 UTF-8 和各种其他“文件来源”编码的新 Excel 文档中,但输出看起来相同。我什至尝试使用 Google 表格上的 Google 翻译来翻译文本,但这也不起作用。关于如何翻译/音译最初采用不同脚本(文本样式)的抄录文本有什么想法吗?这是我的脚本:import requestsfrom requests import getfrom bs4 import BeautifulSoupimport pandas as pdfrom time import sleepfrom random import randintpartynames = []for page in range(11,222): page = requests.get("https://www.cvk.gov.ua/pls/vnd2019/wp304pt001f01=919pf7331=" + str(page) + ".html", verify=False) soup = BeautifulSoup(page.text, 'html.parser') ukraine_tr = soup.find_all('tr') sleep(randint(2,10)) for container in ukraine_tr: #### PARTY NAMES #### partyn = container.find('a',class_='a2') if partyn is not None: name = partyn.get_text() else: name = "N/A" partynames.append(name)ukraine = pd.DataFrame({'pty_n': partynames})ukraine.to_csv('ukraine.csv')
添加回答
举报
0/150
提交
取消