Python开发简单爬虫_学习笔记

首页免费课 Python开发简单爬虫笔记

Python开发简单爬虫

最热最新

慕丝1508362 01:25

流程简单

查看全部

0 采集收起来源：Python简单爬虫架构的动态运行流程
2018-04-19

Dva_Come_to_web

我把老师的几个文件整理到一个.py里了,方便去爬其它网站

#!/usr/bin/python
#coding=utf-8
import urllib2,re,urlparse
from bs4 import BeautifulSoup

start_string = """var spider_vue = new Vue({
	el:'#spider',
	data:{
		items:[
			"""
end_string = """]}})"""
def craw(root_url):
    new_urls = set()
    old_urls = set()
    count=0;
    fout = open('js/spider-vue.js',"w+")
    fout.write(start_string)
    new_urls.add(root_url)
    while(new_urls is not None and len(new_urls)!=0 and count<5):
        count+=1
        url = new_urls.pop()
        old_urls.add(url)
        urls,new_data = parse(url)
        for url in urls:
            if url not in new_urls and url not in old_urls:
                new_urls.add(url)
        fout.write("""{
            title:'%s',
            url:'%s',
            summary:'%s'
        }""" % (new_data['title'].encode('utf-8'),new_data['url'].encode('utf-8'),'\\n'.join((new_data['summary'].encode('utf-8').split('\n'))[0:-1])))
        print '\n'.join((new_data['summary'].encode('utf-8').split('\n'))[0:-1])
        if count<5:
            fout.write(",\n")
    fout.write(end_string)     
#<dd class="lemmaWgt-lemmaTitle-title"><h1>Python</h1>
def parse(url):
    html = urllib2.urlopen(url)
    soup = BeautifulSoup(html,'html.parser')
    try:
        _as = soup.find_all('a',href = re.compile(r'(.*)/item/(.*)'))
    except BaseException,e:
        print e
    p_urls = []
    for a in _as:
        p_urls.append( urlparse.urljoin(root_url,a['href']) )
    data = {'url':url}
    data['title'] = soup.select("dd.lemmaWgt-lemmaTitle-title h1")[0].get_text()
    data['summary'] = soup.select("div.lemma-summary")[0].get_text()
    return p_urls,data

def main():
    craw(root_url)
    
root_url = "http://baike.baidu.com/item/Python"


main();

查看全部

2 采集收起来源：开始运行爬虫和爬取结果展示

2018-04-19

ChenMoon

fout = open('output.html','w',encoding='utf-8')

#养成良好习惯，打开文件时指定编码，不然会提示错误

查看全部

1 采集收起来源：HTML输出器

2018-04-19

yyq_bai

查看全部

0 采集收起来源：Python简单爬虫架构的动态运行流程
2018-04-19
慕桂英221558 01:22

3

查看全部

0 采集收起来源：HTML下载器html_downloader
2018-04-18
慕桂英221558 02:54

2

查看全部

0 采集收起来源：URL管理器
2018-04-18
慕桂英221558 00:25

url manager

查看全部

0 采集收起来源：URL管理器
2018-04-18
慕桂英221558 05:58

mubiao fenxi

查看全部

0 采集收起来源：Python爬虫实例-分析目标
2018-04-18
慕桂英221558 01:41

buzhou

查看全部

0 采集收起来源：Python爬虫实例-分析目标
2018-04-18
慕桂英221558 04:00

4

查看全部

0 采集收起来源：BeautifulSoup的语法
2018-04-18
慕桂英221558 03:15

class_为了避免python关键字冲突

查看全部

0 采集收起来源：BeautifulSoup的语法
2018-04-18
慕桂英221558 02:21

2

查看全部

0 采集收起来源：BeautifulSoup的语法
2018-04-18
慕桂英221558 01:39

1

查看全部

0 采集收起来源：BeautifulSoup的语法
2018-04-18
一只腹黑的兔子

查看全部

0 采集收起来源：BeautifulSoup的语法
2018-04-18
心酸成全 00:59

哈哈哈哈

查看全部

0 采集收起来源：课程总结
2018-04-18

首页上一页 64 65 66 67 68 69 70 下一页尾页

0/150

提交

取消

该课程已下架

课程须知: 本课程是Python语言开发的高级课程 1、Python编程语法； 2、HTML语言基础知识； 3、正则表达式基础知识；

老师告诉你能学到什么？: 1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块：URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码，修改本代码，你就能抓取任何互联网网页！

微信扫码，参与3人拼团

热搜

最近搜索清空

Python开发简单爬虫