虽然拉钩更新了,我们要学习的就是方法和思路。但是根据这个思路来,我抓取前10条数据都抓不到,直接返回了{"status":false,"msg":"您操作太频繁,请稍后再访问","clientIp":"182.108.60.100","state":2402},继续看下一节。看怎么解决操作频繁的问题
2021-03-05
2020-03-03评论:去年的代码今年就不能用了,抓取城市列表页面,返回的却是中间页面:加载中... 并且发现requests返回的页面编码格式为:
ISO-8859-1,需要在返回结果前增加代码:response.encoding='ut-8',才不至于乱码
ISO-8859-1,需要在返回结果前增加代码:response.encoding='ut-8',才不至于乱码
2021-03-05
2-3 创建多进程时,按视频中的做法,出现报错AttributeError: module 'multiprocessing' has no attribute 'pool',解决方法为:导入模块代码改为from multiprocessing.dummy import Pool,然后创建进程池处的代码改为pool = Pool(2)
2020-06-29
2-2 05:02处设置的第一个get请求(也就是保存cookie信息的get请求),抓取到的有些城市的URL形式为https://www.lagou.com/jobs/list_python/p-city_2?px=default,这里我不懂怎么进行城市匹配,后面通过抓取其他一些城市(如崇左、儋州)的URL形式为:https://www.lagou.com/jobs/list_python?&px=default&city=%E5%B4%87%E5%B7%A6,发现这里可以进行城市匹配,然后就使用该URL,经过实验,可以如视频中一样获取到相关信息。
2020-06-29
从这第二节开始,我fiddler的第一个get请求那个响应数据就不一样了,好像拉钩更新了 所以视频讲的就不太对了
2020-03-03