已采纳回答 / 飘过的小呆呆
当然可以 我之前是用.NET C#写过爬虫 你可以参考下这个网址http://www.cnblogs.com/bqh10086/p/6405121.html c++ 原理也是类似的 发送get请求页面数据 然后把页面读取成字节流,最后分析字节流保留有用的数据
2018-04-15
已采纳回答 / 慕容2517008
嗯。。。。因为python的那个百度百科的页面的html代码升级了一哈,原本的抓取URl的代码不能用了,你把parser里面的_get_new_urls这个函数的re.compile语句后面的正则表达式改一下,改成这样re.compile(r"/item/")就ok了
2018-04-15
已采纳回答 / zjxjwxk
你安装了吗? cmd窗口中cd 到 Python\Scripts目录下,执行pip install beautifulsoup4 安装然后 from bs4 import BeautifulSoup 就行啦我用的也是Sublime
2018-03-19
已采纳回答 / 大码哥
pychrm每次新建工程会默认建一个Python环境,改下就行。pychrm右上角运行左边有个菜单选项,点进去选择edit开头那个,把Python interpreter那栏选择为你的Python程序,点击OK,之后你安装的模块就正常导入使用了
2018-03-12
已采纳回答 / 无人与我书半生
是指定Beautiful的解析器为“html.parser”还有BeautifulSoup(markup,"lxml")BeautifulSoup(markup, "lxml-xml") BeautifulSoup(markup,"xml")等等很多种
2018-01-10
已采纳回答 / 慕姐7359191
页面 html_downloader.py15行 print response.read() 更改为 return response.read()
2018-01-04