[js高手之路]Node.js实现简易的爬虫-抓取博客所有文章列表信息

发布时间：2023-09-06 01:11责任编辑：沈小雨关键词：js Node 爬虫

抓取目标：就是我自己的博客：http://www.cnblogs.com/ghostwu/

需要实现的功能：

抓取博客所有的文章标题，超链接，文章摘要，发布时间

需要用到的库：

node.js自带的http库

第三方库:cheerio，这个库就是用来处理dom节点的，他的用法几乎跟jquery用法一模一样，所以有了这个利器，写一个爬虫就非常简单

准备工作：

1，npm init --yes 初始化package.json

2，安装cheerio:npm install cheerio --save-dev

实现的目标，是要把每篇文章需要抓取的部分( 抓取文章标题，超链接，文章摘要，发布时间 )整理成一个对象，放在数组中，如:

[ { title: ‘[置顶][js高手之路]从零开始打造一个javascript开源框架gdom与插件开发免费视频教程连载中‘, ???url: ‘http://www.cnblogs.com/ghostwu/p/7470038.html‘, ???entry: ‘摘要: 百度网盘下载地址：https://pan.baidu.com/s/1kULNXOF 优酷土豆观看地址：http://v.youku.com/v_show/id_XMzAwNTY2MTE0MA==.html?spm=a2h0j.8191423.playlist_content.5!3~5~5~A&&f‘, ???listTime: ‘2017-09-05 17:08‘ }, ?{ title: ‘[js高手之路]Vue2.0基于vue-cli+webpack Vuex用法详解‘, ???url: ‘http://www.cnblogs.com/ghostwu/p/7521097.html‘, ???entry: ‘摘要: 在这之前，我已经分享过组件与组件的通信机制以及父子组件之间的通信机制，而我们的vuex就是为了解决组件通信问题的 vuex是什么东东呢？ 组件通信的本质其实就是在组件之间传递数据或组件的状态（这里将数据和状态统称为状态），但可以看到如果我们通过最基本的方式来进行通信，一旦需要管理的状态多了，代码就会‘, ???listTime: ‘2017-09-14 15:51‘ }, ?{ title: ‘[js高手之路]Vue2.0基于vue-cli+webpack同级组件之间的通信教程‘, ???url: ‘http://www.cnblogs.com/ghostwu/p/7518158.html‘, ???entry: ‘摘要: 我们接着上文继续，本文我们讲解兄弟组件的通信，项目结构还是跟上文一样. 在src/assets目录下建立文件EventHandler.js，该文件的作用在于给同级组件之间传递事件 EventHandler.js代码: 2，在Components目录下新建一个组件Brother1.vue 。通过Eve‘, ???listTime: ‘2017-09-13 22:49‘ }, ??]

思路讲解：

1，获取目标地址：http://www.cnblogs.com/ghostwu/ 所有的html内容

2，提取所有的文章html内容

3，提取每篇文章下面对应的( 文章标题，超链接，文章摘要，发布时间 )

 1 var http = require(‘http‘); 2 var cheerio = require(‘cheerio‘); 3 ?4 var url = ‘http://www.cnblogs.com/ghostwu/‘; 5 ?6 function filterHtml(html) { 7 ????var $ = cheerio.load(html); 8 ????var arcList = []; 9 ????var aPost = $("#content").find(".post-list-item");10 ????aPost.each(function () {11 ????????var ele = $(this);12 ????????var title = ele.find("h2 a").text();13 ????????var url = ele.find("h2 a").attr("href");14 ????????ele.find(".c_b_p_desc a").remove();15 ????????var entry = ele.find(".c_b_p_desc").text();16 ????????ele.find("small a").remove();17 ????????var listTime = ele.find("small").text();18 ????????var re = /\d{4}-\d{2}-\d{2}\s*\d{2}[:]\d{2}/;19 ????????listTime = listTime.match( re )[0];20 ????????arcList.push({21 ????????????title: title,22 ????????????url: url,23 ????????????entry: entry,24 ????????????listTime: listTime25 ????????});26 ????});27 ????return arcList;28 }29 30 http.get(url, function (res) {31 ????var html = ‘‘;32 ????var arcList = [];33 ????// var arcInfo = {};34 ????res.on(‘data‘, function (chunk) {35 ????????html += chunk;36 ????});37 ????res.on(‘end‘, function () {38 ????????arcList = filterHtml( html ); 39 ????????console.log( arcList );40 ????});41 });

有几个关键的地方要讲解下：

1，res.on( ‘data‘, function(){} )

http模块发送get请求之后，就会源源不断的抓取目标网页的源代码内容, 所以，我在on中监听data事件， chunk就是传输的数据，把这些数据累加到html这个变量，当数据传输完之后就会触发end事件，你可以在end事件中打印一下console.log( html ) 就能发现，他就是目标地址的所有html源代码，这样就解决了我们的第一个问题：获取目标地址：http://www.cnblogs.com/ghostwu/ 所有的html内容

2，有了完整的html内容之后，接下来我封装了一个函数filterHTML用来过滤我所需要的结果( 每篇文章的信息 )

3，var $ = cheerio.load(html); 把html内容通过cheerio的load方法加载进来，就可以用cheerio的节点操作了，为了亲和jquery的操作，我用美元符号$保存了这个文档对象

4，var aPost = $("#content").find(".post-list-item"); 这个是所有的文章节点信息，拿到之后，通过each方法挨个遍历并抓取需要的信息，整理成对象，然后放在一个数组中

1 ?arcList.push({2 21 ????????????title: title,3 22 ????????????url: url,4 23 ????????????entry: entry,5 24 ????????????listTime: listTime6 25 ????????});

这样就处理完了，结果已经在上面展示了，如果博客样式跟我的博客样式一样，应该都能抓取了,

接着完善分页抓取，这样就能把整个博客爬下来了

 1 var http = require(‘http‘); 2 var cheerio = require(‘cheerio‘); 3 ?4 var url = ‘http://www.cnblogs.com/ghostwu/‘; 5 ?6 function filterHtml(html) { 7 ????var $ = cheerio.load(html); 8 ????var arcList = []; 9 ????var aPost = $("#content").find(".post-list-item");10 ????aPost.each(function () {11 ????????var ele = $(this);12 ????????var title = ele.find("h2 a").text();13 ????????var url = ele.find("h2 a").attr("href");14 ????????ele.find(".c_b_p_desc a").remove();15 ????????var entry = ele.find(".c_b_p_desc").text();16 ????????ele.find("small a").remove();17 ????????var listTime = ele.find("small").text();18 ????????var re = /\d{4}-\d{2}-\d{2}\s*\d{2}[:]\d{2}/;19 ????????listTime = listTime.match(re)[0];20 ????????arcList.push({21 ????????????title: title,22 ????????????url: url,23 ????????????entry: entry,24 ????????????listTime: listTime25 ????????});26 ????});27 ????return arcList;28 }29 30 function nextPage( html ){31 ????var $ = cheerio.load(html);32 ????var nextUrl = $("#pager a:last-child").attr(‘href‘);33 ????if ( !nextUrl ) return ;34 ????var curPage = $("#pager .current").text();35 ????if( !curPage ) curPage = 1;36 ????var nextPage = nextUrl.substring( nextUrl.indexOf( ‘=‘ ) + 1 );37 ????if ( curPage < nextPage ) crawler( nextUrl );38 }39 40 function crawler(url) {41 ????http.get(url, function (res) {42 ????????var html = ‘‘;43 ????????var arcList = [];44 ????????res.on(‘data‘, function (chunk) {45 ????????????html += chunk;46 ????????});47 ????????res.on(‘end‘, function () {48 ????????????arcList = filterHtml(html);49 ????????????console.log( arcList );50 ????????????nextPage( html );51 ????????});52 ????});53 }54 crawler( url );

[js高手之路]Node.js实现简易的爬虫-抓取博客所有文章列表信息

原文地址：http://www.cnblogs.com/ghostwu/p/7526974.html

[js高手之路]Node.js实现简易的爬虫-抓取博客所有文章列表信息

知识推荐