为了账号安全,请及时绑定邮箱和手机立即绑定

执行这个爬虫的代码后 没有反应

http://img1.sycdn.imooc.com//58af01b40001fe5c03280116.jpg

var http = require('http')
var cheerio = require('cheerio')
var url = 'http://www.imooc.com/learn/348'

function filterChapters(html){
    var $ = cheerio.load(html)
    var chapters = $('.learnchapter')
    // [{
    //     chapterTitle : '',
    //     videos: [
    //         title:'',
    //         id:''
    //     ]
    // }]
    var courseData = []
    chapters.each(function(item){
        var chapter = $(this)
        var chapterTitle = chapter.find('strong').test();
        var videos = chapter.find('.video').children('li');
        var chapterData = {
            chapterTitle : chapterTitle,
            videos :[]
        }
        videos.each(function(item){
            var video = $(this).find('.studyvideo');
            var videoTitle = video.text();
            var id = video.attr('href').split('video/')[1]

            chapterData.videos.push({
                title:videoTitle,
                id:id
            })
        })
        courseData.push(chapterData)
    })
    return courseData
}
function printCourseInfo(courseData){
    courseData.forEach(function(item){
        var chapterTitle = item.chapterTitle
        console.log(chapterTitle + '\n')
        item.videos.forEach(function(video){
            console.log('  【' + video.id + '】' + video.title + '\n');
        })
    })
}

http.get(url,function(res){
    var html = ''

    res.on('data',function(data){
        html += data
    })
    res.on('end',function(){
        var courseData = filterChapters(html);
        printCourseInfo(courseData)
    })
}).on('error',function(){
    console.log('获取课程数据出错!')
})


正在回答

3 回答

因为慕课网源码里html的class变了 所以爬不到了 .learnchapter变成了chapter  .studyvideo变成了video

0 回复 有任何疑惑可以回复我~
#1

王平安 提问者

非常感谢!
2017-02-24 回复 有任何疑惑可以回复我~

非常感谢

0 回复 有任何疑惑可以回复我~

//这个是我的代码,可以成功爬到数据的,你可以对比一下看DOM结构发生的改变。

//2017-04-06


var http = require('http')

var cheerio = require('cheerio')

var url = 'http://www.imooc.com/learn/348'


function filterChapters(html){

var $ = cheerio.load(html)

var chapters = $('.chapter')

//期望的数据的结构

// [{

// chapterTitle:'',

// videos:[

// title:'',

// id:''

// ]

// }]

var courseData = []

chapters.each(function (item){

var chapter = $(this)

var chapterTitle = chapter.find('strong').text()

var videos = chapter.find('.video').children('li')

var chapterData = {

chapterTitle:chapterTitle,

videos:[]

}

videos.each(function(item){

var video = $(this)

var videoTitle = video.text()

var id = video.attr('data-media-id')

chapterData.videos.push({

title:videoTitle,

id:id

})

})

courseData.push(chapterData)

})

return courseData

}


function printCourseInfo(courseData){

courseData.forEach(function(item){

var chapterTitle = item.chapterTitle


console.log(chapterTitle + '\n')

item.videos.forEach(function(video){

console.log('  [' + video.id + '] ' + video.title+ '\n')

})

})

}


http.get(url,function(res) {

var html = ''


res.on('data', function(data){

html+=data

})

res.on('end', function(){

var courseData = filterChapters(html)

printCourseInfo(courseData)

})

}).on('error', function(){

console.log('获取课程数据出错')

})


1 回复 有任何疑惑可以回复我~

举报

0/150
提交
取消
进击Node.js基础(一)
  • 参与学习       219397    人
  • 解答问题       896    个

本视频教程带你揭开Node.js的面纱,带你走进一个全新世界

进入课程

执行这个爬虫的代码后 没有反应

我要回答 关注问题
意见反馈 帮助中心 APP下载
官方微信