爬出的东西不是html文件,而是下面的一堆
b'\x1f\x8b\x08\x00\x00\x00\x00\x00\x00\x03\x8dVKo\xe36\x10\xfe+*\x8d\xbd\x04\xd6\xcb\x89\x13G\xb2\rl\x1c\x17\xbb\xa7\x16\xc5\x16\xc8.\n\x18\x94H\xc9L$QKQ~\xaca\xa0=\xb7\xb7\x9ezj/\xed\xb9\xbd-\x8a\xb6\xbf&\x8bEO\xfd\x0b\x1dJ\x94-\xc7IQ\x08\x90\x
b'\x1f\x8b\x08\x00\x00\x00\x00\x00\x00\x03\x8dVKo\xe36\x10\xfe+*\x8d\xbd\x04\xd6\xcb\x89\x13G\xb2\rl\x1c\x17\xbb\xa7\x16\xc5\x16\xc8.\n\x18\x94H\xc9L$QKQ~\xaca\xa0=\xb7\xb7\x9ezj/\xed\xb9\xbd-\x8a\xb6\xbf&\x8bEO\xfd\x0b\x1dJ\x94-\xc7IQ\x08\x90\x
2017-05-26
最赞回答 / SiCheng_Sheen
我之前也遇到过这种情况,纠结了很久,最后才发现一个非常重要的问题,百度的词条信息发生了变化,你可以仔细看看,现在不再是以 .htm结尾了,之前在html_parser模块中的正则表达式已经失效了,原来是href=re.compile(r"/view/\d+\.htm"),现在应该改为href=re.compile(r'/item/\w+')。这也再次证明了在采集数据前,一定要对目标进行仔细认真的分析!
2017-05-25
最新回答 / 慕移动9181930
==就是Javascript里面的等于号nbsp;=就是赋值号nbsp;nbsp;中间加空格就相当于nbsp;两个赋值号了nbsp;吃了炫迈,停不下来
2017-05-25
最赞回答 / 慕粉100117686
我也遇见同样的问题了,直接import就行了,不需要from,参考一下下面从百度上找的回答,前两句是重点的区别吧!小白一枚!!!import Module # 引入模块from Module import Other # 引入模块中的类、函数或者变量from Module import * # 引入模块中的所有‘公开’成员PS:当有一个包名为pname时,其内部 *.py 文件的模块名就是 pname.* 也就是说模块名中包含了 Package包 这个概念。其区别就是:第一...
2017-05-23
print("第三种方法")
cj = http.cookiejar.CookieJar()
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
urllib.request.install_opener(opener)
resopnse3 = urllib.request.urlopen(url)
print(resopnse3.getcode())
print(len(resopnse3.read()))
print(cj)
cj = http.cookiejar.CookieJar()
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
urllib.request.install_opener(opener)
resopnse3 = urllib.request.urlopen(url)
print(resopnse3.getcode())
print(len(resopnse3.read()))
print(cj)
2017-05-21