Python3.5 最新可运行版本。主要改变:解析器正则匹配现在的百科超链接
https://github.com/wen-small/baike
https://github.com/wen-small/baike
2017-03-24
出现一条记录,第二条就failed的原因是
links = soup.find_all('a', href=re.compile(r'/view/\d+\.htm'))
百度百科修改了页面
咱们只需修改爬取规则 把view改成item 再把/\d+\.htm 去掉就能匹配新的url了
links = soup.find_all('a', href=re.compile(r'/view/\d+\.htm'))
百度百科修改了页面
咱们只需修改爬取规则 把view改成item 再把/\d+\.htm 去掉就能匹配新的url了
2017-03-23
import ullib2
resp = urllib2.urlopen('http://www.baidu.com').read() #得到源代码
resp = urllib2.urlopen('http://www.baidu.com').read() #得到源代码
2017-03-20
该方法可行!!!感谢“IT男的成长记录 ”
如果出现乱码的话,将fout.write('<td>%s<td>' % data['title'] ) 改为
fout.write("<td>")
fout.write(data['title'])
fout.write("</td>")
并且在文件打开语句改为:fout = open('output.html', 'w', encoding='utf-8')
这样就不会出现乱码了
如果出现乱码的话,将fout.write('<td>%s<td>' % data['title'] ) 改为
fout.write("<td>")
fout.write(data['title'])
fout.write("</td>")
并且在文件打开语句改为:fout = open('output.html', 'w', encoding='utf-8')
这样就不会出现乱码了
2017-03-19
报错:UserWarning: You provided Unicode markup but also provided a value for from_encoding. Your from_encoding will be ignored.
解决方法:
soup = BeautifulSoup(html_doc,"html.parser")这一句中删除【from_encoding="utf-8"】
原因:python3 缺省的编码是unicode, 再在from_encoding设置为utf8, 会被忽视掉,去掉【from_encoding="utf-8"】这一个好了
解决方法:
soup = BeautifulSoup(html_doc,"html.parser")这一句中删除【from_encoding="utf-8"】
原因:python3 缺省的编码是unicode, 再在from_encoding设置为utf8, 会被忽视掉,去掉【from_encoding="utf-8"】这一个好了
2017-03-16