分享web开发知识

注册/登录|最近发布|今日推荐

主页 IT知识网页技术软件开发前端开发代码编程运营维护技术分享教程案例
当前位置:首页 > 软件开发

网站爬取-案例四:知乎抓取(COOKIE登录抓取个人中心)(第一卷)

发布时间:2023-09-06 01:42责任编辑:沈小雨关键词:暂无标签

有很多网站是需要先登录,才可以浏览的,所以我们这个案例主要讲解如何以登陆的方式抓取这类的页面

第一:http本身是一种无状态的协议

这样两个请求没有任何关系,像淘宝这样的网站需要记录用户的每次请求,来看看有状态的请求

看一下COOKIE本地存储

用户名密码可以存到本地,所以安全性不高,这样就出现了SESSION机制,根据用户名和密码生成SESSIONID,根据SESSIONID请求取出用户要的内容

登陆时产生,退出时清空 看下登陆时

三个字段为ID,加密字段,失效日期,看下登录后的控制台

说到这里我们不得说一说浏览器请求的几种状态:

这些状态要分析完成之后才可以模拟登陆先来看下知乎这个目标网站

 我先用别人的试用用户名和密码做个实验:登陆是爬取知乎的第一步

网站爬取-案例四:知乎抓取(COOKIE登录抓取个人中心)(第一卷)

原文地址:https://www.cnblogs.com/woshiruge/p/8452605.html

知识推荐

我的编程学习网——分享web前端后端开发技术知识。 垃圾信息处理邮箱 tousu563@163.com 网站地图
icp备案号 闽ICP备2023006418号-8 不良信息举报平台 互联网安全管理备案 Copyright 2023 www.wodecom.cn All Rights Reserved