分享web开发知识

注册/登录|最近发布|今日推荐

主页 IT知识网页技术软件开发前端开发代码编程运营维护技术分享教程案例
当前位置:首页 > 教程案例

urllib2和webdriver得到的网页的源代码的不同

发布时间:2023-09-06 01:41责任编辑:郭大石关键词:url源代码

目标:扒取京东的笔记本电脑的信息(商品名和商品价格)

通过浏览器的开发者工具查看源代码:

一、使用urllib2获得页面源代码

1 # coding:UTF-82 import urllib23 url="https://list.jd.com/list.html?cat=670,671,672"4 headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3298.4 Safari/537.36"}5 request=urllib2.Request(url=url,headers=headers)6 response=urllib2.urlopen(request)7 html=response.read()8 print html

运行结果关键截图:

分析:

urllib2得到的源代码和通过浏览器查看的源代码不尽相同,尤其是urllib2无法得到商品的价格

二、使用selenium的webdriver得到页面源代码

from selenium import webdriverdriver=webdriver.Chrome()driver.maximize_window()url="https://list.jd.com/list.html?cat=670,671,672"driver.get(url)print driver.page_source

运行结果关键截图:

总结:

使用selenium的webdriver模拟用户得到的源代码和在用户在浏览器中查看的源代码一样,而urllib2得到的源代码是不包括js动态生成的元素代码

urllib2和webdriver得到的网页的源代码的不同

原文地址:https://www.cnblogs.com/beast-king/p/8419537.html

知识推荐

我的编程学习网——分享web前端后端开发技术知识。 垃圾信息处理邮箱 tousu563@163.com 网站地图
icp备案号 闽ICP备2023006418号-8 不良信息举报平台 互联网安全管理备案 Copyright 2023 www.wodecom.cn All Rights Reserved