分享web开发知识

注册/登录|最近发布|今日推荐

主页 IT知识网页技术软件开发前端开发代码编程运营维护技术分享教程案例
当前位置:首页 > 教程案例

爬虫,可用于增加访问量和抓取网站全页内容

发布时间:2023-09-06 02:13责任编辑:彭小芳关键词:爬虫

爬虫,可用于增加访问量和抓取网站全页内容

  • 爬虫道德规范:
    • 1.不让爬的咱不爬
    • 2.让爬的咱不能一直爬

使用爬虫提高文章访客说明:

  • 1.本爬虫使用代理IP
  • 2.伪装浏览器
  • 3.粘贴地址即可使用
  • 4.原文件 github 地址:https://github.com/xpwi/py/blob/master/py%E7%88%AC%E8%99%AB/eyes.py
  • 5.下载原文件:https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/eyes.py
# coding:utf-8'''使用爬虫提高文章访客说明:1.本爬虫使用代理IP2.伪装浏览器3.粘贴地址即可使用'''from urllib import request,errorif __name__ == '__main__': ???# 将需要访问的地址替换下面地址 ???url = "https://www.cnblogs.com/xpwi/" ???# 设置代理地址,代理IP一般20天左右会失效 ???# 获取最新代理IP,参考文章:https://www.cnblogs.com/xpwi/p/9600727.html ???# 1.日本 ???# proxy = {'http': '140.227.65.196:3128'} ???# 2.俄罗斯 ???proxy = {'http': '94.242.59.135:1448'} ???# 2.创建ProxyHandler ???proxy_handler = request.ProxyHandler(proxy) ???# 3.创建Opener ???opener = request.build_opener(proxy_handler) ???# 4.安装Opener ???request.install_opener(opener) ???# 下面再进行访问url就会使用代理服务器 ???# 更换浏览器型号,参照:https://www.cnblogs.com/xpwi/p/9600719.html ???try: ???????req = request.Request(url) ???????req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163") ???????rsp = request.urlopen(req) ???????html = rsp.read().decode() ???????print("访问成功访客+1,以下是该网页的HTML:\n",html,"\n访问成功访客+1,以上是该网页的HTML\n") ???except error.HTTPError as e: ???????print(e) ???except Exception as e: ???????print(e)

更多文章链接:Python 爬虫随笔


  • 本笔记不允许任何个人和组织转载

爬虫,可用于增加访问量和抓取网站全页内容

原文地址:https://www.cnblogs.com/xpwi/p/9609701.html

知识推荐

我的编程学习网——分享web前端后端开发技术知识。 垃圾信息处理邮箱 tousu563@163.com 网站地图
icp备案号 闽ICP备2023006418号-8 不良信息举报平台 互联网安全管理备案 Copyright 2023 www.wodecom.cn All Rights Reserved