为了账号安全,请及时绑定邮箱和手机立即绑定

报纸图书馆、

报纸图书馆、

慕桂英3389331 2021-08-17 10:55:47
作为使用 python 主题的绝对新手,我在使用报纸库扩展时遇到了一些困难。我的目标是定期使用报纸扩展程序下载名为“tagesschau”的德国新闻网站的所有新文章和 CNN 的所有文章,以构建我可以在几年内进行分析的数据堆栈。如果我做对了,我可以使用以下命令下载所有文章并将其抓取到 python 库中。import newspaperfrom newspaper import news_pooltagesschau_paper = newspaper.build('http://tagesschau.de')cnn_paper = newspaper.build('http://cnn.com')papers = [tagesschau_paper, cnn_paper]news_pool.set(papers, threads_per_source=2) # (3*2) = 6 threads totalnews_pool.join()`如果这是下载所有文章的正确方法,那么我如何在 python 之外提取和保存这些文章?或者将这些文章保存在 python 中,以便我再次重新启动 python 时可以重用它们?
查看完整描述

2 回答

?
素胚勾勒不出你

TA贡献1827条经验 获得超9个赞

您可以使用 pickle 在 python 之外保存对象并稍后重新打开它们:


file_Name = "testfile"

# open the file for writing

fileObject = open(file_Name,'wb') 


# this writes the object news_pool to the

# file named 'testfile'

pickle.dump(news_pool,fileObject)   


# here we close the fileObject

fileObject.close()

# we open the file for reading

fileObject = open(file_Name,'r')  

# load the object from the file into var news_pool_reopen

news_pool_reopen = pickle.load(fileObject)  


查看完整回答
反对 回复 2021-08-17
  • 2 回答
  • 0 关注
  • 144 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信