课程
                    
                        /后端开发
                        
                            /Python
                        
                        /Python开发简单爬虫

编译没有错误，运行只能爬取root url，接着就显示craw fialed是什么原因？感觉是parser那里出了问题，大家帮忙看看，就是爬取百科里的python

from bs4 import BeautifulSoup

import re

import urlparse

class HtmlParser(object):

def _get_new_urls(self, page_url, soup):

new_urls=set()

links=soup.find_all('a', href=re.compile(r"/item/"))

for link in links:

new_url=link['href']

new_full_url=urlparse.urljoin(page_url,new_url)

new_urls.add(new_full_url)

return new_urls

def _get_new_data(self, page_url, soup):

res_data={}

res_data['url']=page_url

#<dd class="lemmaWgt-lemmaTitle-title"> <h1>Python</h1>

title_node=soup.find('dd',class_="lemmaWgt-lemmaTitle-title").find("h1")

res_data['title']=title_node.get_text()

#<div class="lemma-summary" label-module="lemmaSummary">

summary_node=soup.find('div',class_="lemma-summary")

res_data['summary']=summary_node.get_text()

return res_data

def parse(self,page_url,html_cont):

if page_url is None or html_cont is None:

return

soup=BeautifulSoup(html_cont,'html.parser',from_encoding='utf-8')

new_urls=self._get_new_urls(page_url,soup)

new_data=self._get_new_data(page_url,soup)

return new_urls,new_data

1one一_3607163

2019-02-14

源自：Python开发简单爬虫

关注问题我要回答

823

操作

收起

1 回答

1one一_3607163 提问者
2019-02-14

问题已解决，建议有类似问题的同学，去掉try模块，看一下有没有报错，根据错误改一下，就好了

ps.我是getcode中间多加了个下划线，导致downloader不能正常运行lol

1 回复有任何疑惑可以回复我~

收起回答

0/150

提交

取消

Python开发简单爬虫

参与学习 227670 人
解答问题 1219 个

本教程带您解开python爬虫这门神奇技术的面纱

进入课程

编译没有错误，运行只能爬取root url，接着就显示craw fialed是什么原因？感觉是parser那里出了问题，大家帮忙看看，就是爬取百科里的python

我要回答关注问题

热搜

最近搜索清空

编译没有错误，运行只能爬取root url，接着就显示craw fialed是什么原因？感觉是parser那里出了问题，大家帮忙看看，就是爬取百科里的python

1 回答

编译没有错误，运行只能爬取root url，接着就显示craw fialed是什么原因？感觉是parser那里出了问题，大家帮忙看看，就是爬取百科里的python