项目介绍:
采集指定网页内容,通过模式匹配匹配到要采集的数据格式返回到数组中
项目步骤:
1.创建匹配模式表
2.请求网页连接
3.过滤文本,并对数据去重处理
4.显示结果
效果展示: ??
完整代码:
???import console; /*项目说明:【抓取网页数据】项目介绍: ???采集指定网页内容,通过模式匹配匹配到要采集的数据格式返回到数组中项目步骤: ???1.创建匹配模式表 ???2.请求网页连接 ???3.过滤文本,并对数据去重处理 ???4.显示结果*///参考来源:http://bbs.aardio.com/forum.php?mod=viewthread&tid=11218&extra=page%3D1import web.rest.jsonClient;var httpUrl="http://www.meijumi.vip/usa/katong/5754.html";//1.获取用于查找的模式匹配数组var parttern = {};table.push(parttern, `ed2k\://[^\s"‘]+`);//2.请求网页链接var http = web.rest.jsonClient();var magnet = http.api(httpUrl,,parttern);var urls = magnet.get();//console.log("采集到的数据列表:");//for(k,v in urls){ // ?console.log(k, v);//}//3.过滤文本,并对数据去重处理var resultStr="";if(urls){ ???var f = `S01E`;//过滤文本 ???if(#f){ ???????//筛选结果 ???????urls = table.filter(urls, function(v){ ???????????return string.find(v,f); ????????}) ?????????urls = table.unique(urls);//数组去重 ???} ????//提取结果 ???resultStr = string.join(urls,‘\r\n‘);//将字符串数组使用指定的分隔符合并为一个字符串 ??}//4.显示结果console.log("采集结果:", resultStr)console.pause(true);
抓取网页数据
原文地址:http://blog.51cto.com/10466450/2316220