分享web开发知识

注册/登录|最近发布|今日推荐

主页 IT知识网页技术软件开发前端开发代码编程运营维护技术分享教程案例
当前位置:首页 > 运营维护

node.js之爬虫

发布时间:2023-09-06 01:45责任编辑:沈小雨关键词:js爬虫

nodejs爬取数据出现编码错误的问题

可以使用 superagent-charset 和 superagent 模块进行处理

var charset = require(‘superagent-charset‘);var cheerio = require(‘cheerio‘);var superagent = require(‘superagent‘);charset(superagent);var express = require(‘express‘);var url = ‘http://acm.hdu.edu.cn/statistic.php?pid=1000‘;var app = express();app.get(‘/‘, function (req, res, next) { ???superagent.get(url) ???????.charset(‘gbk‘) ???????.end(function (err, sres) { ???????????var html = sres.text; ???????????var $ = cheerio.load(html, {decodeEntities: false}); ???????????var len = $(‘.table_text‘).length; ???????????console.log(len); ???????????var arr =[]; ???????????for(var i = 0 ; i<len;i++){ ???????????????arr.push($(‘.table_text td a‘).eq(i).html()); ???????????} ???????????// var ans = $(‘.table_text td a‘).eq(1).html(); ???????????// res.send(ans); ???????????res.send(arr); ???????????console.log(arr); ???????});});app.listen(3000, function () { ???console.log(‘app is listening at port 3000‘);});

结果是

node.js之爬虫

原文地址:https://www.cnblogs.com/ldlx-mars/p/8588021.html

知识推荐

我的编程学习网——分享web前端后端开发技术知识。 垃圾信息处理邮箱 tousu563@163.com 网站地图
icp备案号 闽ICP备2023006418号-8 不良信息举报平台 互联网安全管理备案 Copyright 2023 www.wodecom.cn All Rights Reserved