分享web开发知识

注册/登录|最近发布|今日推荐

主页 IT知识网页技术软件开发前端开发代码编程运营维护技术分享教程案例
当前位置:首页 > 教程案例

【转】使用webmagic搭建一个简单的爬虫

发布时间:2023-09-06 01:24责任编辑:苏小强关键词:爬虫

【转】使用webmagic搭建一个简单的爬虫 

刚刚接触爬虫,听说webmagic很不错,于是就了解了一下。

webmagic的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。

这句话说的真的一点都不假,像我这样什么都不懂的人直接下载部署,看了看可以调用的方法,马上就写出了第一个爬虫小程序。

以下是我学习的过程:

首先需要下载jar:http://webmagic.io/download.html

部署好后就建一个class继承PageProcessor接口,重写process()方法,即可完成一个爬虫。

是不是很简单?

先上代码,再讲解吧。

mport us.codecraft.webmagic.Page;import us.codecraft.webmagic.Site;import us.codecraft.webmagic.Spider;import us.codecraft.webmagic.processor.PageProcessor; public class MyProcessor implements PageProcessor { ???// 抓取网站的相关配置,包括编码、抓取间隔、重试次数等 ???private Site site = Site.me().setRetryTimes(3).setSleepTime(100); ???private static int count =0; ????????@Override ???public Site getSite() { ???????return site; ???} ????@Override ???public void process(Page page) { ???????//判断链接是否符合http://www.cnblogs.com/任意个数字字母-/p/7个数字.html格式 ???????if(!page.getUrl().regex("http://www.cnblogs.com/[a-z 0-9 -]+/p/[0-9]{7}.html").match()){ ???????????//加入满足条件的链接 ???????????page.addTargetRequests( ???????????????????page.getHtml().xpath("//*[@id=\"post_list\"]/div/div[@class=‘post_item_body‘]/h3/a/@href").all()); ???????}else{ ????????????????????????????????????????//获取页面需要的内容 ???????????System.out.println("抓取的内容:"+ ???????????????????page.getHtml().xpath("//*[@id=\"Header1_HeaderTitle\"]/text()").get() ???????????????????); ???????????count ++; ???????} ???} ????public static void main(String[] args) { ???????long startTime, endTime; ???????System.out.println("开始爬取..."); ???????startTime = System.currentTimeMillis(); ???????Spider.create(new MyProcessor()).addUrl("https://www.cnblogs.com/").thread(5).run(); ???????endTime = System.currentTimeMillis(); ???????System.out.println("爬取结束,耗时约" + ((endTime - startTime) / 1000) + "秒,抓取了"+count+"条记录"); ???} }

由于刚开始学,技术有限,所以简单地爬一下这些文章的作者。

要爬取,首先得知道内容在哪个位置上。在chrome下审查一下元素发现,文章都在这里

点进文章后审查元素发现作者的名字在这里

知道要爬的内容在哪个位置之后。我们还需要知道怎样才能拿到这些数据。

这里说一下webmagic的内容

启动爬虫就这句:Spider.create(new MyProcessor()).addUrl("https://www.cnblogs.com/").thread(5).run();//addUrl就是种子url

Page对象就是当前获取的页面,

getUrl()可以获得当前url,

addTargetRequests()就是把链接放入等待爬取

getHtml()获得页面的html元素

上面这些很容易就能知道它的意思,不懂得是xpath();

刚开始学,我也不懂,但是chrome懂,所以可以让它帮我们写好xpath。

审查元素下,选择要需要的部分右键Copy,选择Copy XPath,然后在console下粘贴

关于xpath的教程可以查看https://www.one-tab.com/page/JFPOsHyvQUOQlzZwahc6-Q

关于webmagic的可以查看http://webmagic.io/docs/zh/posts/ch1-overview/

【转】使用webmagic搭建一个简单的爬虫

原文地址:http://www.cnblogs.com/faunjoe88/p/7815089.html

知识推荐

我的编程学习网——分享web前端后端开发技术知识。 垃圾信息处理邮箱 tousu563@163.com 网站地图
icp备案号 闽ICP备2023006418号-8 不良信息举报平台 互联网安全管理备案 Copyright 2023 www.wodecom.cn All Rights Reserved