-
。。。查看全部
-
网页解析器包括查看全部
-
网页解析器,数据+新URL查看全部
-
https或redirect 网页的handler查看全部
-
三种URL管理器实现方式查看全部
-
基本爬虫架构查看全部
-
Python下载网页内容的三种方法--三 第三种、增强urllib2. 为其增加cookie处理查看全部
-
Python下载网页内容的三种方法-- 一、二 第一种、最简单 第二种、可以增加请求参数和Http头查看全部
-
简单爬虫架构-运行流程查看全部
-
简单爬虫架构查看全部
-
爬虫架构查看全部
-
class HtmlOutputer(object): def _init_(seif): self.datas=[] def collect_data(self,data): if data is none: return self.datas.append(data) pass def outputer_html(self): fout=open('output.html','w') fout.write('<html>') fout.write('<body>') fout.write('<table>') #ascii for data in sele.datas: fout.write('<tr>')#行的开始标签 fout.write('<td>%s<td>'%data['url'].encode(utf-8))#表格内容:url fout.write('<td>%s<td>'%data['title'].encode(utf-8))#表格内容:titlle fout.write('<td>%s<td>'%data[''summary])#表格内容:summary fout.write('</tr>')#行的闭合标签 fout.write('</table>') fout.write('</body>') fout.write('</html>') fout.close() pass查看全部
-
爬虫实例流程查看全部
-
解析器 class HtmlParser(object): def parse(self,page_url,html_cont): if page_url is None or html_cont is None:首先进行参数判断 return soup=BeautifulSoup(html_cont,'html.parser',from_encoding='utf-8')#将html_cont 加入beautifulsoup new_urls=self._get_new_urls(page_url,soup) new_data=self._get_new_data(page_url,soup)#进行两个解析 return new_urls,new_data 创建两个方法: def _get_new_urls(self,page_url,soup): new_urls=set() #/view/123.htm links=soup.find_all('a',href=re.compile(r/view/\d\.htm")) for link in links: new_url=link['href'] new_full_url=urlparse.urljoin(page_url,new_url)#将不完整的url拼接成完 整的url new_urls.add(new_full_url) return new_urls def _get_new_urls(self,html_cont,soup):查看全部
-
网页解析器查看全部
举报
0/150
提交
取消