原来我实践过程出现的问题,大家也有遇到啊(;′⌒`)
NameError: name 're' is not defined
缺少正则表达式的re模块,这地方需手动导入import re
NameError: name 're' is not defined
缺少正则表达式的re模块,这地方需手动导入import re
2016-08-12
只输出一个:
1.延时,等待一会
2.正则表达式:links = soup.find_all('a', href=re.compile(r"/view/\d+\.htm")),其中是htm不是html
有必要打印一下try: expect Expect e: print e 对代码有错的很有帮助
就看看别人的代码:http://git.oschina.net/20110516/pyspider/repository/archive/master?utf8=%E2%9C%93&ref=master&captcha=zlxg6k&commit=+%E4%B8%8B%E8%BD%BD
1.延时,等待一会
2.正则表达式:links = soup.find_all('a', href=re.compile(r"/view/\d+\.htm")),其中是htm不是html
有必要打印一下try: expect Expect e: print e 对代码有错的很有帮助
就看看别人的代码:http://git.oschina.net/20110516/pyspider/repository/archive/master?utf8=%E2%9C%93&ref=master&captcha=zlxg6k&commit=+%E4%B8%8B%E8%BD%BD
2016-08-10
进入 cmd,可以先运行 python,如果成功显示版本号就可以按照老师说得来,否则要先配置一下python的环境变量:在系统环境配置的 path 里面添加Python 的安装路径。
2016-08-08
那些个说老师讲的快的人我也是醉了,学爬虫肯定是需要http和DOM的一些基础知识的,不是老师讲的快,是你没有掌握这些基础知识
2016-08-06
已采纳回答 / 龙德梦
显然是二进制,应该是你在解析的时候没有 用utf-8。如果你用了的话,可以换其他浏览器试试,如果是乱码的话,只需要在浏览器中改一下文字编码,改为Unicode编码即可。同样在IE里面也可以这样做。
2016-08-05
网上找到的,希望对大家有用:
python3对urllib和urllib2进行了重构,拆分成了urllib.request, urllib.response, urllib.parse, urllib.error等几个子模块,这样的架构从逻辑和结构上说更加合理。
urljoin现在对应的函数是urllib.parse.urljoin
python3对urllib和urllib2进行了重构,拆分成了urllib.request, urllib.response, urllib.parse, urllib.error等几个子模块,这样的架构从逻辑和结构上说更加合理。
urljoin现在对应的函数是urllib.parse.urljoin
2016-08-05