首页手记 Java 爬虫 - 自己手动写网络爬虫

Java 爬虫 - 自己手动写网络爬虫

标签：

Java Python

1、全面剖析网络爬虫

你知道百度、谷歌是如何获取数以亿计的网页并且实时更新的吗？你知道在搜索领域人们常说的spider吗，本文章将介绍网络爬虫的方方面面，读完之后希望你直接能写出来一个网络爬虫，随意抓取互联网上面你感兴趣的任何东西。

既然百度、谷歌这些搜索引擎巨头已经帮我们抓取了互联网上面大部分的信息，为什么我们自己还要写爬虫呢？因为在现实生活中信息的需求是广泛的，在企业中，爬虫抓取下来的信息可以做为数据仓库多维度展示的数据源，也可以作为数据挖掘的来源，甚至有人为了炒股，抓取股票信息。既然从美国中情局到普通老百姓都需要，那还等什么，干就完了。

1.1通过指定的URL抓取网页内容

Java语言是为网络而生的编程语言，它把网络资源看成是一种文件，它对网络资源的访问和对本地文件的访问一样方便，它把请求和响应封装成流，因此我们可以根据相应内容，获得响应流，之后从流中按字节读取数据，例如，Java.net.URL有一个默认的构造函数，使用URL地址作为参数，构造URL对象。

URL pageUrl = new URL(path);

接着，可以通过获得的URL对象来取得网络流，

inputStream stream = pageUrl.openStream();

在实际项目中，网络环境比较复杂，因此，Java.net包中的api来模拟IE客户端的工作，代码量非常大，需要处理HTTP返回的状态码，设置http代理，处理HTTPS协议等工作。为了便于程序的开发，实际开发中常常使用Apache的HttpClient。

例如：

//创建一个客户端，类似于打开一个浏览器		
HttpClient httpClient = new HttpClient();	

//创建一个get方法，类似于浏览器中输入地址		
GetMethod getMethod = new GetMethod(" 
//回车，获取响应代码		
int statusCode = httpClient.executeMethod(getMethod);		
System.out.println(statusCode);		
		
//查看命中情况		
System.out.println("response= " + getMethod.getResponseBodyAsString());	

//释放		
getMethod.releaseConnection();

在这个实例中，只是简单的返回网页内容，在现实项目中，通常需要把返回的内容写到本地文件并保存。最好还要关闭网络连接，避免资源消耗。

这个日子使用get方式来访问web资源，get请求方式把需要传递给服务器的参数作为URL的一部分传递给服务器，但是，HTTP协议本身对URL字符串长度有所限制，因此不能传递过多的参数，为了避免这个问题，可以使用HttpClient的POST方法。

//创建一个客户端，类似于打开一个浏览器
HttpClient httpClient = new HttpClient();	
		
//创建一个post方法，类似于浏览器中输入地址		
PostMethod postMethod = new PostMethod(" 

//使用数组传递参数		
NameValuePair[] valuePairs = new NameValuePair[2];		
valuePairs[0] = new NameValuePair("前段开发", "HTML");		
valuePairs[1] = new NameValuePair("后端开发", "JAVA");	
			
//设置参数		
postMethod.addParameters(valuePairs);	
			
//回车，获取响应代码		
int statusCode = httpClient.executeMethod(postMethod);		
System.out.println(statusCode);	
			
//查看命中情况		
System.out.println("response= " + postMethod.getResponseBodyAsString());		
System.out.println("NameValuePair[0] " + postMethod.getParameters()[0]);		
System.out.println("NameValuePair[1] " + postMethod.getParameters()[1]);
	
//释放		
postMethod.releaseConnection();

结果：
200
NameValuePair[0] name=前段开发, value=HTML
NameValuePair[1] name=后端开发, value=JAVA

有时，我们执行爬虫程序的机器不能直接访问WEB资源，而是需要通过代理服务器去访问，HTTPClient对代理服务器也有很好的支持。例如：

//创建HttpClient相当于打开一个代理	   
HttpClient httpClient = new HttpClient();
	   
//设置代理服务器的IP和端口	   
httpClient.getHostConfiguration().setProxy("192.168.0.1", 8888);
	   
//告诉HttpClient，使用抢先认证，否则你会收到你没有资格的恶果	   
httpClient.getParams().setAuthenticationPreemptive(true);	   	   
//httpClient.getParams().setParameter(CredentialsProvider.PROVIDER,
 new MyCredentialsProvider());	  
 	   
//设置代理服务器的用户名密码	  
httpClient.getState().setProxyCredentials(new AuthScope("192.168.0.1",
 AuthScope.ANY_PORT,AuthScope.ANY_REALM),
 new UsernamePasswordCredentials("username","Password"));

上面的例子详细解释了如何使用HTTPClient设置代理服务器，如何在局域网访问WEB资源。

1.2处理HTTP状态码

当状态码是2XX的时候，我们只需要处理200和202两种状态码，其他的可以采用简单的丢弃处理就可以解决。200的状态码标识成功，可以直接进行网页抓取，例如：

if(statsuCode == HttpStatus.SC_OK)
{
    input = postMethod.getResponseBodyAsString();
    //得到文件名
    String fileName = path.substring(path.lastIndexOf('/')+1);
    //获取文件输出流
    outPut = new FileOutputStream(fileName);
    //输出到文件
    int tempValue = -1;
    while((tempValue = input.read() > 0 )){
        output.write(tempValue );
    }
}

202的响应码，表示请求已经接受，服务器再做处理。

当返回值状态码为3XX时，通常进行转向，例如：

 //处理状态为3XX的  
 if(statusCode==HttpStatus.SC_MOVED_TEMPORARILY||  
    statusCode==HttpStatus.SC_SEE_OTHER||  
    statusCode==HttpStatus.SC_TEMPORARY_REDIRECT){  
 //读取新的URL地址  
    Header header=getMethod.getRequestHeader("location");  
    if(header!=null){  
          String newUrl=header.getValue();  
          if(newUrl==null||newUrl.equals("")){  
          newUrl="/";  
          //重定向处理  
          GetMethod method=new GetMethod(newUrl);  
          }  
     }  
                  
}

下面的博客地址是之前写的用Python爬虫的具体执行逻辑，内容很丰富，介绍了python爬虫主要的五个模块：