分享web开发知识

注册/登录|最近发布|今日推荐

主页 IT知识网页技术软件开发前端开发代码编程运营维护技术分享教程案例
当前位置:首页 > 软件开发

使用httpClient下载网页

发布时间:2023-09-06 01:24责任编辑:沈小雨关键词:http

HttpCore

对HTTP协议客户端编程做了一些基本的封装。例如,格式化请求头和解析响应头。LineF ormatter用来格式化请求头信息,而实际的实现在BasicLineF ormatter

上。HttpResponseParser 解析响应头。

请求头信息封装在一个HttpParamS. BasicHttpParams使用一个散列表实现HttpParams。
HttpProtocolParams包含特定的方法来设置参数,例如,设置HTTP协议版本号的setVersion方
法。org.apache.http.HttpVersion封装了所有可能的HTTP协议版本号。已经定义的HTTP协议
的版本有1.1/1.0/0.9。例如,使用HttpProtocolParams设置HTTP协议的版本为1.1。

HttpParams params = new BasicHttpParams();//设置参数到params
HttpProtocolParams.setVersion(params, HttpVersion.HTTP_l_l);

设置连接参数HttpParams.

HttpParams params = new BasicHttpParams();//设置连接超时HttpConnectionParams.setConnectionTimeout(params, 180 * 1000);//设置Socket超时HttpConnectionParams.setSoTimeout(params, 180 * 1000);//设置Socket缓存大小HttpConnectionParams.setSocketBufferSize(params, 8192);

HttpProtocolParams有设置客户端类型的setUserAgent方法。

//把参数设置成和IE7相同的HttpProtocolParams.setUserAgent(params,"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)");

HTTP协议处理器是一个协议拦截器的集合,实现了 “责任链”模式。每个协议拦截器工
作在这个拦截器负责的特定方面。例如,RequestTargetHost给请求头增加HOST信息,
RequestUserAgent 给请求头增加 USER_AGENT 信息。

HTTP响应是由服务器在接收和解释请求报文之后返回发送给客户端的报文。响应报文的
第一行包含了协议版本,之后是数字状态码和相关联的文本段。

HttpResponse response = new BasicHttpResponse(HttpVersion.HTTP_1_1,HttpStatus.SC_0K, "OK");System.out.println(response.getProtocolVersion()); //HTTP/1.1System.out.println(response.getStatusLine().getStatusCode()); "200System.out.println(response.getStatusLine().getReasonPhrase()); //OKSystem.out.println(response.getStatusLine().toString()); //HTTP/1.1 200 OK

模拟浏览器

private static List<Header> getHeads() {//头信息String userAgent = "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.2)";List<Header> headers = new ArrayList<Header>();headers.add(new BasicHeader("Accept-Charset","GB2312,utf-8;q=0.1, *;q=0.7"));headers.add(new BasicHeader("Accept-Language","zh-cn, zh;q=0.5"));headers.add(new BasicHeader("User-Agent",userAgent));return headers;}List<Header> headers = getHeads();CloseableHttpClient httpclient =HttpClientBuilder.create().setDefaultHeaders(headers).build();

重试

HttpRequestRetryHandler接口决定执行HTTP请求时,碰到一个可恢复的异常后是否可以
重试。DefaultHttpRequestRetryHandler类实现3次重试,多重试2次的代码如下所示。

HttpRequestRetryHandler retryHandler =new StandardHttpRequestRetryHandler (5, true); //重试5次CloseableHttpClient httpClient =HttpClientBuilder.create().setRetryHandler(retryHandler).build ();

修改超时设置的代码。

//配置int socketTimeout = 5000;int connectionTimeout = 5000;//求配置RequestConfig requestConfig = RequestConfig.custom ().setConnectTimeout(connectionTimeout).setSocketTimeout(socketTimeout).build();//创建客户端HttpClient httpClient = HttpClientBuilder.create ().setDefaultRequestConfig(requestConfig).build();

 抓取压缩的网页

有些网站页面内容返回格式为gzip压缩格式,所以在得到返回结果后要判断内容是否压缩过,如果是,则先要解压缩,然后解析内容。这样的网页返回的头信息会说明Content-Encoding:gzip

参考:http://blog.csdn.net/qy20115549/article/details/52912532

抓取需要登录的网页

参考:http://www.cnblogs.com/Michael2397/p/7811699.html

代理

参考:http://www.cnblogs.com/Michael2397/p/7821930.html

使用httpClient下载网页

原文地址:http://www.cnblogs.com/Michael2397/p/7825430.html

知识推荐

我的编程学习网——分享web前端后端开发技术知识。 垃圾信息处理邮箱 tousu563@163.com 网站地图
icp备案号 闽ICP备2023006418号-8 不良信息举报平台 互联网安全管理备案 Copyright 2023 www.wodecom.cn All Rights Reserved