分享web开发知识

注册/登录|最近发布|今日推荐

主页 IT知识网页技术软件开发前端开发代码编程运营维护技术分享教程案例
当前位置:首页 > 教程案例

WebMagic框架总结

发布时间:2023-09-06 01:09责任编辑:顾先生关键词:Web

一下是博主收藏的第一个WebMagic框架爬虫示例

推荐网站: http://webmagic.io/docs/zh/posts/ch4-basic-page-processor/pageprocessor.html

public class GithubRepoPageProcessor implements PageProcessor { ???// 部分一:抓取网站的相关配置,包括编码、抓取间隔、重试次数等 ???private Site site = Site.me().setRetryTimes(3).setSleepTime(1000); ???@Override ???// process是定制爬虫逻辑的核心接口,在这里编写抽取逻辑 ???public void process(Page page) { ???????// 部分二:定义如何抽取页面信息,并保存下来 ???????page.putField("author", page.getUrl().regex("https://github\\.com/(\\w+)/.*").toString()); ???????page.putField("name", page.getHtml().xpath("//h1[@class=‘entry-title public‘]/strong/a/text()").toString()); ???????if (page.getResultItems().get("name") == null) { ???????????//skip this page ???????????page.setSkip(true); ???????} ???????page.putField("readme", page.getHtml().xpath("//div[@id=‘readme‘]/tidyText()")); ???????// 部分三:从页面发现后续的url地址来抓取 ???????page.addTargetRequests(page.getHtml().links().regex("(https://github\\.com/[\\w\\-]+/[\\w\\-]+)").all()); ???} ???@Override ???public Site getSite() { ???????return site; ???} ???public static void main(String[] args) { ???????Spider.create(new GithubRepoPageProcessor()) ???????????????//从"https://github.com/code4craft"开始抓 ???????????????.addUrl("https://github.com/code4craft") ???????????????//开启5个线程抓取 ???????????????.thread(5) ???????????????//启动爬虫 ???????????????.run(); ???}}

WebMagic框架总结

原文地址:http://www.cnblogs.com/mageblog/p/7494063.html

知识推荐

我的编程学习网——分享web前端后端开发技术知识。 垃圾信息处理邮箱 tousu563@163.com 网站地图
icp备案号 闽ICP备2023006418号-8 不良信息举报平台 互联网安全管理备案 Copyright 2023 www.wodecom.cn All Rights Reserved