为了账号安全,请及时绑定邮箱和手机立即绑定

为什么运行之后是这样的?

craw 1 : http://baike.baidu.com/view/21087.htm
craw failed

正在回答

7 回答

http://img1.sycdn.imooc.com//579cc10a0001d77b08530219.jpg希望对你有所帮助

0 回复 有任何疑惑可以回复我~

我的也是这样的,代码改了一遍,还是没用,求大神指点

0 回复 有任何疑惑可以回复我~
#1

慕花花

我的现在好了,改了几处代码。不过抓取结果是乱码,又像繁体字
2016-05-27 回复 有任何疑惑可以回复我~
#2

慕粉3136486

转换代码格式就可以了,在网页开头加入utf-8 的语句即可
2016-06-10 回复 有任何疑惑可以回复我~

代码敲错了


0 回复 有任何疑惑可以回复我~
#1

ohyes768

请问是哪里有错了?
2016-06-24 回复 有任何疑惑可以回复我~

import re

import urlparse

from bs4 import BeautifulSoup


class HtmlParser(object):



    def _get_new_urls(self,page_url,soup):


        new_urls=set()

        links=soup.find_all('a',href=re.compile(r"/view/\d+\.htm"))

        for link in links:

            new_url=link['href']

            new_full_url=urlparse.urljoin(page_url,new_url)

            new_urls.add(new_full_url)

        return new_urls


    def _get_new_data(self,page_url,soup):


        res_data={}


        #url

        res_data['url']=page_url


        

        #<dd class="lemmaWgt-lemmaTitle-title"><h1>Python</h1>

        title_node=soup.find('dd',class_="lemmaWgt-lemmaTitle-title")

        res_data['title']=title_node.get_text()


        #<div class="lemma-summary" >

        summary_node=soup.find('div',class_="lemma-summary")

        res_data['summary']=title_summary.get_text()


        return res_data


    def parse(self,page_url,html_cont):

        if page_url is None or Html_cont is None:

            return

        soup=BeautifulSoup(html_cont,'html.parser',from_encoding='utf-8')

        new_urls=self._get_new_urls(page_url,soup)

        new_data=self._get_new_data(page_url,soup)

        return new_urls,new_data

        

代码就是按照视频敲的,不知道哪错了

0 回复 有任何疑惑可以回复我~
#1

熊孩子3657953

title_node = soup.find("dd", attrs={"class":"lemmaWgt-lemmaTitle-title"}).find("h1")
2016-08-13 回复 有任何疑惑可以回复我~
#2

熊孩子3657953

summary_node = soup.find('div', attrs={"class":"lemma-summary"})
2016-08-13 回复 有任何疑惑可以回复我~

我也是这样的

0 回复 有任何疑惑可以回复我~

我之前也是这样的  不过现在解决了 应该是html_parser.py 有问题,找找代码是不是有错误,或者你把代码贴上来 ,我帮你找找  ,我也是早上刚找到的错误

0 回复 有任何疑惑可以回复我~

我也是这样的  请问你解决了吗?

0 回复 有任何疑惑可以回复我~

举报

0/150
提交
取消
Python开发简单爬虫
  • 参与学习       227668    人
  • 解答问题       1219    个

本教程带您解开python爬虫这门神奇技术的面纱

进入课程

为什么运行之后是这样的?

我要回答 关注问题
意见反馈 帮助中心 APP下载
官方微信