为了账号安全,请及时绑定邮箱和手机立即绑定

求帮助~~~捉急啊

我用的phtyon 3.5,自己改了一些地方,但结果出来是空白页,而且不循环,只抓到一个空白页运行结果如图:

http://img1.sycdn.imooc.com//572554940001ddf506050603.jpg

spider_main:

import url_manager,html_downloader,html_parser,html_outputer
class SpiderMain(object):
   def __init__(self):
       self.urls=url_manager.UrlManager()
       self.downloader=html_downloader.HtmlDownloader()
       self.parser=html_parser.HtmlParser()
       self.outputer=html_outputer.HtmlOutputer()
   def craw(self,root_url):
       count=1
       self.urls.add_new_url(root_url)
       while self.urls.has_new_url():
           try:
               new_url=self.urls.get_new_url()
               print ('craw %d:%s'%(count,new_url))
               html_cont=self.downloader.download(new_url)
               new_urls,new_data=self.parser.parse(new_url,html_cont)
               self.urls.add_new_urls(new_urls)
               self.outputer.collect_data(new_data)
               if count==1000:
                   break
               count=count+1
           except:
               print ('craw failed')
           self.outputer.output_html()
if __name__=="__main__":
   root_url="http://baike.baidu.com/view/21087.htm"
   obj_spider=SpiderMain()
   obj_spider.craw(root_url)



url_manager:

class UrlManager(object):

    def __init__(self):#需要维护两个列表-带爬取得url列表,爬取过的url列表

        self.new_urls=set()

        self.old_urls=set()

    

    def add_new_url(self,url):#向url管理器中添加一个新的url

        if url is None:

            return

        if url not in self.new_urls and url not in self.old_urls:

            self.new_urls.add(url)

    


    def add_new_urls(self,urls):#向url管理器中添加批量url

        if url is None or len(urls)==0:

            return

        for url in urls:#通过循环一个一个添加

            self.add_new_url(url)

            

    def has_new_url(self):#判断管理器中是否有新的待爬取的url

        return len(self.new_urls)!=0

    

    def get_new_url(self):#从url管理器中获取一个新的带爬取得url

        new_url=self.new_urls.pop()#pop方法会从列表中获取url并会移除

        self.old_urls.add(new_url)#将此url添加进old_url

        return new_url

    



html_downloader:

import urllib

class HtmlDownloader(object):

    def download(self,url):

        if url is None:

            return None

        response=urllib.urlopen(url)#请求url内容


        if response.getcode()!=200:

            return None

        return response.read()#返回下载好的内容



html_outputer:



class HtmlOutputer(object):

    

    def __init__(self):#初始化构造函数,维护收集的数据存入数组

        self.datas=[]

    

    def collect_data(self,data):

        if data is None:

            return

        self.datas.append(data)


    

    def output_html(self):

        fout=open('output.html','w')#输出html文件


        fout.write("<html>")

        fout.write("<body>")

        fout.write("<table>")


        #ascii

        for data in self.datas:

            fout.write("<tr>")

            

            fout.write("<td>%s</td>"%data['url'])

            fout.write("<td>%s</td>"%data['title'].encode('utf-8'))

            fout.write("<td>%s</td>"%data['summary'].encode('utf-8'))

            

            fout.write("</tr>")


        fout.write("</table>")

        fout.write("</body>")

        fout.write("</html>")


        fout.close()


html_parser:

from bs4 import BeautifulSoup

import re

import urllib.parse


class HtmlParser(object):


    def _get_new_urls(self,page_url,soup):

        new_urls=set()

        #/view/123.htm

        links=soup.find_all('a',href=re.compile(r"/view/\d+\.htm"))#获取链接

        for link in links:

            new_url=link['href']#不完整的链接

            new_full_url=urllib.parse.urljoin(page_url,new_url)#自动将两个不完整的链接拼成完整链接

            new_url.add(new_full_url)

        return new_urls


    def _get_new_data(self,page_url,soup):

        res_data={}

        #url

        res_data['url']=page_url

        #<dd class="lemmaWgt-lemmaTitle-title">  <h1>Python</h1>

        title_node=soup.find('dd').find("h1")

        res_data['title']=title_node.get_text()

        #<div class="lemma-summary" label-module="lemmaSummary">

        summary_node=soup.find('div')

        res_data['summary']=summary_node.get_text()#提取数据

        return res_data

        

    def parse(self,page_url,html_cont):

        if page_url is None or html_cont is None:

            return

        soup=BeautifulSoup(html_cont,'html.parser',from_encoding='utf-8')

        new_urls=self._get_new_urls(page_url,soup)

        new_data=self._get_new_data(page_url,soup)

        return new_urls,new_data



正在回答

3 回答

python3.x  使用  from urllib.parse import urljoin       

 我的gitee代码已经跑通可以参考下:https://gitee.com/wilbur_li/pythonspider.git

0 回复 有任何疑惑可以回复我~

python3.0用urllib.parsar

0 回复 有任何疑惑可以回复我~
将你的html_parser换成这个:
#coding:utf8
from bs4 import BeautifulSoup
import re
import urlparse

class HtmlParser(object):
    
    
    def _get_new_urls(self, page_url, soup):
        new_urls = set()
        #/view/123.htm
        #获取链接
        links = soup.find_all('a',href=re.compile(r"/view/\d+\.htm"))
        for link in links:
            new_url = link['href']#不完整的链接
            new_full_url = urlparse.urljoin(page_url,new_url)#自动将两个不完整的链接拼成完整链接
            new_urls.add(new_full_url)
        return new_urls
    
    
    def _get_new_data(self, page_url, soup):
        res_data = {}
        #url
        res_data['url'] = page_url
        #<dd class="lemmaWgt-lemmaTitle-title"> <h1>Python</h1>
        title_node = soup.find('dd',class_="lemmaWgt-lemmaTitle-title").find("h1")
        res_data['title'] = title_node.get_text()
        
        #<div class="lemma-summary" label-module="lemmaSummary">
        summary_node = soup.find('div',class_="lemma-summary")
        res_data['summary'] = summary_node.get_text()
        return res_data
    
    
    def parse(self,page_url,html_cont):
        if page_url is None or html_cont is None:
            return
        
        soup = BeautifulSoup(html_cont,'html.parser',from_encoding='utf-8')
        #print soup.title
        new_urls = self._get_new_urls(page_url,soup)
        new_data = self._get_new_data(page_url,soup)
        return new_urls,new_data

url_manager中的add_new_urls函数中的if里面的url丢s了

应该为

def add_new_urls(self,urls):#向url管理器中添加批量url

        if urls is None or len(urls)==0:

            return

        for url in urls:#通过循环一个一个添加

            self.add_new_url(url)


1 回复 有任何疑惑可以回复我~
#1

迪小仙 提问者

嗯,已经调好了,谢谢
2016-06-08 回复 有任何疑惑可以回复我~
#2

abc的大哥 回复 迪小仙 提问者

你是怎么调的啊,我也碰到这问题了,我的是python2.7的
2018-05-04 回复 有任何疑惑可以回复我~

举报

0/150
提交
取消
Python开发简单爬虫
  • 参与学习       227670    人
  • 解答问题       1219    个

本教程带您解开python爬虫这门神奇技术的面纱

进入课程

求帮助~~~捉急啊

我要回答 关注问题
意见反馈 帮助中心 APP下载
官方微信