我的编程学习网分享web开发知识

注册/登录|最近发布|今日推荐

主页 IT知识网页技术软件开发前端开发代码编程运营维护技术分享教程案例

当前位置：首页 > IT知识

读取网页的方法-爬虫学习

发布时间：2023-09-06 02:17责任编辑：苏小强关键词：爬虫

1、读取全部网页

1 #encoding:utf-82 3 import urllib24 def download1(url):5 ????return urllib2.urlopen(url).read() #读取全部网页6 7 url="http://www.baidu.com" #urlopen只能处理http 不能处理https8 print download3(url)

2、读取每一行的数据，压入列表

1 #encoding:utf-82 3 import urllib24 5 def download2(url):6 ????return urllib2.urlopen(url).readlines() #读取每一行的数据，压入列表7 8 url="http://www.baidu.com" #urlopen只能处理http 不能处理https9 print download2(url)

3、网页抽象为文件

 1 #encoding:utf-8 2 import urllib2 3 ?4 def download3(url): 5 ????response=urllib2.urlopen(url)#网页抽象为文件 6 ????while True: 7 ????????line=response.readline()#读取每一行 8 ????????if not line: 9 ????????????break10 ????????print line11 12 url="http://www.baidu.com" #urlopen只能处理http 不能处理https13 print download3(url)

读取网页的方法-爬虫学习

原文地址：https://www.cnblogs.com/klmyoil/p/9759812.html

知识推荐

我的编程学习网——分享web前端后端开发技术知识。垃圾信息处理邮箱 tousu563@163.com 网站地图

icp备案号闽ICP备2023006418号-8 不良信息举报平台互联网安全管理备案 Copyright 2023 www.wodecom.cn All Rights Reserved