第一周、学会爬取网页信息总结

发布时间：2023-09-06 02:21责任编辑：郭大石关键词：暂无标签

目标：爬取网页，获得自己需要的信息

步骤：

1. 导入需要的模块
2. 利用request向目标网站获得网页信息
3. 用BeautifulSoup解析所获得的网页
3. 获得需要的信息所在的标签内容
4. 精简标签获得关键信息
5. 获得关键信息之后，再处理（比如比大小）

1、导入需要的模块

BeautifulSoup模块：

BeautifulSoup：是一个可以从HTML和XML中读取数据的库。库也叫模块，在笨办法学Python中叫做特征，是其他程序员开发好的一些代码，可以拿来导入（import），然后调用。

from bs4 import BeautifulSoup

request模块：
request库：是Python中的一个HTTP网络请求库，用来简化网络请求！能够让你的Python程序向服务器发送HTTP请求，获得网页数据的库。

import requests

time库：
如果我们太频繁的向服务器发送请求，服务器会察觉拒绝服务，导致IP被封，这个时候就需要time库控制时间。

import time

2、利用request向目标网站获得网页信息

客户端（用户）如果想浏览某个网页首先是向目标URL发送requests请求。

然后服务器在收到请求之后，返回一个response回应，如Response [200]表示收到，Response[404]表示服务器无法回应。如果返回的是200，则加载请求网页的信息。

如果目标网页是登录之后的网页，就需要用headers包含User-Agent和cookie等信息，一起requests过去，才能获得所需网页信息。

1 url = ‘www.example.com‘ #目标网站url2 headers = {3 ????‘User-Agent‘:‘****‘, ???#包含的浏览器信息4 ????‘Cookie‘:‘***‘ ????????5 ????}6 7 wb_data = requests.get(url,headers = headers)

3、用BeautifulSoup解析所获得的网页

获得网页信息之后，再用BeautifulSoup解析网页。

1 soup = BeautifulSoup(wb_data.text,‘lxml‘)

4、获得需要的信息所在的标签内容

解析网页之后，就需要定位所需信息所在的标签，这也是第一周的难点，也就是如何定位所需的信息的位置。

一般方法是在Chrome中检查网页，然后copy selector，会获得元素标签的selector路径。如果获得的信息是同一类型，那么就需要对多条selector进行对比，然后找出最优的selector路径，这些路径需要测试看获得的信息对不对。

例子代码：

1 images = Soup.select(‘body > div.main-content > ul > li > img‘)2 titles = Soup.select(‘body > div.main-content > ul > li > div.article-info > h3 > a‘)3 descs = Soup.select(‘body > div.main-content > ul > li > div.article-info > p.description‘)4 rates = Soup.select(‘body > div.main-content > ul > li > div.rate > span‘)5 cates = Soup.select(‘body > div.main-content > ul > li > div.article-info > p.meta-info‘)

5、精简标签获得关键信息

获得标签之后，还需要去掉其他没用的信息，得到关键信息。可以利用for... in...遍历信息，然后获得关键信息，装入一个序列或者字典中待用。

例子代码：

 1 info = [] 2 ?3 ?4 #code 5 ?6 ?7 for title,image,desc,rate,cate in zip(titles,images,descs,rates,cates): 8 ????data = { 9 ????????‘title‘: title.get_text(), ?????# get_text()去除html标签，获得文本信息。10 ????????‘rate‘: rate.get_text(),11 ????????‘desc‘: desc.get_text(),12 ????????‘cate‘: list(cate.stripped_strings), ???????# stripped_strings获得一个父级标签下所有子标签的文本信息13 ????????‘image‘: image.get(‘src‘), ?????# get()获得某个标签的属性14 ????}15 ????info.append(data) ??#append在列表末尾添加新的对象

6、获得关键信息之后，再处理

最后再从上一步中待用的序列或者字典中，取出信息，操作，可以是比大小或者打印出来。也就是我们要爬取这些信息的目的。

7、注意：

如果将以上代码封装进一个函数里面，然后在利用此函数爬取不同网页的时候，需要在requests网页之后，再加入一个等待时间，就是time模块的用处。

代码：

1 wb_data = requests.get(url,headers = headers)2 time.sleep(5)

5代表5秒，这样操作主要是为了防止服务器接受requests请求太频繁，拒绝服务，甚至封掉IP，是一个保护措施。

课时（9-17）总结

第一周、学会爬取网页信息总结

原文地址：https://www.cnblogs.com/wall9527/p/9936855.html

第一周、学会爬取网页信息总结

知识推荐