首先肯定明磊大佬的说法。
即使去掉encoding:'uft-8'依然报错,参见:https://bytes.com/topic/python/answers/556312-lookuperror-unknown-encoding-utf-8-a。
f.write('<td>{0}</td>' .format(data['url']))
f.write('<td>{0}</td>' .format(data['title']))
f.write('<td>{0}</td>' .format(data['summary']))
即使去掉encoding:'uft-8'依然报错,参见:https://bytes.com/topic/python/answers/556312-lookuperror-unknown-encoding-utf-8-a。
f.write('<td>{0}</td>' .format(data['url']))
f.write('<td>{0}</td>' .format(data['title']))
f.write('<td>{0}</td>' .format(data['summary']))
2018-04-21
已采纳回答 / 飘过的小呆呆
当然可以 我之前是用.NET C#写过爬虫 你可以参考下这个网址http://www.cnblogs.com/bqh10086/p/6405121.html c++ 原理也是类似的 发送get请求页面数据 然后把页面读取成字节流,最后分析字节流保留有用的数据
2018-04-15
已采纳回答 / 慕容2517008
嗯。。。。因为python的那个百度百科的页面的html代码升级了一哈,原本的抓取URl的代码不能用了,你把parser里面的_get_new_urls这个函数的re.compile语句后面的正则表达式改一下,改成这样re.compile(r"/item/")就ok了
2018-04-15