Python 爬虫实战：驾驭数据洪流，揭秘网页深处-青年物资网

Python 爬虫实战：驾驭数据洪流，揭秘网页深处

来源：博客园时间：2023-07-06 14:44:41

爬虫，这个经常被人提到的词，是对数据收集过程的一种形象化描述。特别是在Python语言中，由于其丰富的库资源和良好的易用性，使得其成为编写爬虫的绝佳选择。本文将从基础知识开始，深入浅出地讲解Python爬虫的相关知识，并分享一些独特的用法和实用技巧。本文将以实际的网站为例，深入阐述各个处理部分，并展示输出，助力大家快速掌握Python爬虫技巧。

开始之前：必要的库

Python有很多库可以用来编写爬虫，但我们这里重点介绍两个：requests和BeautifulSoup。

(相关资料图)

import requestsfrom bs4 import BeautifulSoup

requests库用于发送HTTP请求，而BeautifulSoup库则用于解析HTTP响应中的HTML。

基本爬虫：爬取全部网页内容

以Python官方网站（https://www.python.org/）为例，一个基本的Python爬虫可能会这样编写：

url = "https://www.python.org/"response = requests.get(url)soup = BeautifulSoup(response.text, "html.parser")print(soup.prettify()[:500])

这段代码的目的是获取网页的内容，并使用BeautifulSoup库进行解析。我们可以看到，requests.get(url)是用来发送GET请求的，而BeautifulSoup(response.text, "html.parser")则是用来解析HTTP响应中的HTML内容的。

这段代码的输出前500个字符如下：

使用CSS选择器爬取特定元素当我们希望获取特定元素时，我们可以使用CSS选择器。比如我们希望获取Python官方网站中所有的头部链接：
elements = soup.select("div.top-bar > ul > li > a")for element in elements:    print(element.get("href"), element.text)
在这里，div.top-bar > ul > li > a是一个CSS选择器，用来选择
class为top-bar的div元素下的ul元素中的li元素下的a元素。这些a元素就是我们想要的头部链接。
这段代码的部分输出如下：
/ Python/psf-landing/ PSF/docs/ Docs/pypl/ PyPI/jobs/ Jobs/community-landing/ Community
HTML解析语言爬取：XPath除了CSS选择器，还有一种常用的HTML解析技术是XPath。XPath，全称XML Path Language，是一门在XML文档中查找信息的语言，也可以用在HTML文档解析中。
Python的lxml库提供了XPath的支持：
from lxml import etreehtml = "AB
"root = etree.HTML(html)links = root.xpath("//a/@href")print(links)
在这段代码中，我们首先定义了一个HTML字符串。然后，我们使用etree.HTML()函数将这个字符串解析成一个DOM树。最后，我们使用root.xpath()方法提取出所有的链接。
绝对链接爬取你可能已经注意到，上述代码的输出中的链接是相对链接，而不是绝对链接。如果我们希望获取绝对链接，我们可以使用urljoin函数：
from urllib.parse import urljoinelements = soup.select("div.top-bar > ul > li > a")for element in elements:    absolute_url = urljoin(url, element.get("href"))    print(absolute_url, element.text)
这段代码的部分输出如下：
https://www.python.org/ Pythonhttps://www.python.org/psf-landing/ PSFhttps://www.python.org/docs/ Docshttps://www.python.org/pypl/ PyPIhttps://www.python.org/jobs/ Jobshttps://www.python.org/community-landing/ Community
动态加载的数据爬取：Selenium在许多现代的网页中，数据可能不是在页面加载时一次性加载的，而是通过JavaScript在用户与页面交互时动态加载的。这时，我们可能需要使用另一个工具：Selenium。
from selenium import webdriverdriver = webdriver.Firefox()driver.get("https://www.python.org/")element = driver.find_element_by_css_selector("div.top-bar > ul > li > a")print(element.text)
这段代码使用Selenium模拟浏览器行为，获取JavaScript动态加载的数据。在这个例子中，我们只获取了第一个链接的文本，实际使用时，你可能需要根据需求进行更复杂的操作。
爬虫代理使用代理，可以帮助我们隐藏自己的真实IP地址，从而避免因爬取同一网站过多数据而被封IP。下面是一段简单的使用代理的代码：
proxies = {    "http": "http://10.10.1.10:3128",    "https": "http://10.10.1.10:1080",}response = requests.get("https://www.python.org/", proxies=proxies)
在这里，我们定义了一个代理字典，并将其传给requests.get()函数。这样，我们的请求就会通过代理服务器发送，从而隐藏了我们的真实IP地址。
异步爬虫：提升爬虫效率在爬取大量数据时，我们通常需要进行多次HTTP请求，如果每次请求都等待前一次请求完成，那么效率将会非常低。此时，我们可以使用Python的异步IO库asyncio和aiohttp来提高效率。下面是一个简单的例子：
import asyncioimport aiohttpasync def fetch(session, url):    async with session.get(url) as response:        return await response.text()async def main():    async with aiohttp.ClientSession() as session:        html = await fetch(session, "http://python.org")        print(html[:500])loop = asyncio.get_event_loop()loop.run_until_complete(main())
在这段代码中，我们首先定义了一个异步的fetch函数，用于发送HTTP请求并获取响应。然后，我们在main函数中创建一个HTTP会话，并使用这个会话来发送请求。最后，我们使用事件循环来运行main函数。
爬虫框架：Scrapy虽然使用上述方法可以实现爬虫的基本功能，但在处理更复杂的爬虫任务时，我们可能需要一个更强大的工具。Scrapy是一个用Python实现的强大的爬虫框架，它为我们提供了许多高级功能，比如并发请求、数据处理和存储等。
下面是一个简单的Scrapy爬虫的例子：
import scrapyclass MySpider(scrapy.Spider):    name = "myspider"    start_urls = ["http://python.org"]    def parse(self, response):        self.log("Visited %s" % response.url)        yield {            "url": response.url,            "title": response.css("title::text").get(),        }
在这段代码中，我们定义了一个继承自scrapy.Spider的爬虫类。这个类中定义了爬虫的名字、开始的URL和解析响应的方法。Scrapy将会自动为我们处理请求的发送和响应的接收，我们只需要关心如何从响应中提取数据即可。
自动化任务：定时爬虫有时我们需要定时执行爬虫任务，比如每天爬取一次网站的数据。Python的schedule库可以帮助我们实现这一点：
import scheduleimport timedef job():    print("I"m working...")schedule.every(10).seconds.do(job)while True:    schedule.run_pending()    time.sleep(1)
在这段代码中，我们首先定义了一个爬虫任务job。然后，我们使用schedule.every().seconds.do()方法设置任务的执行间隔。最后，我们使用一个无限循环来不断执行待运行的任务。
爬虫道德规范：遵守robots.txt在进行爬虫时，我们需要尊重网站的robots.txt规则。robots.txt是一个存放在网站根目录下的文本文件，用于告诉爬虫哪些页面可以抓取，哪些页面不可以抓取。
Python的urllib.robotparser模块可以帮助我们解析robots.txt：
from urllib.robotparser import RobotFileParserrp = RobotFileParser()rp.set_url("http://www.python.org/robots.txt")rp.read()can_fetch = rp.can_fetch("*", "http://www.python.org/")print(can_fetch)
在这段代码中，我们首先创建了一个RobotFileParser对象，然后使用set_url方法设置robots.txt的URL，并使用read方法读取和解析robots.txt。最后，我们使用can_fetch方法判断我们的爬虫是否可以抓取指定的URL。
请注意，不是所有的网站都有robots.txt，也不是所有的网站都会严格遵守robots.txt。在爬取网站时，除了尊重robots.txt，我们还应该尽量减小爬虫对网站的影响，例如限制爬取频率，避免在网站高访问量的时候爬取。
总结总结起来，Python爬虫虽然有许多复杂的技术和知识点，但只要掌握了基础知识和一些实用技巧，就可以解决大部分的爬虫任务。未来，我将继续分享更多的Python爬虫知识和技巧。
如有帮助，请多关注个人微信公众号：【Python全视角】TeahLead_KrisChang，10+年的互联网和人工智能从业经验，10年+技术和业务团队管理经验，同济软件工程本科，复旦工程管理硕士，阿里云认证云服务资深架构师，上亿营收AI产品业务负责人。
                                    关键词：


                        
                            
                                
                                      相关新闻  
                                
                                
                                    
                                                                                Python 爬虫实战：驾驭数据洪流，揭秘网页深处
                                                                                影视娱乐港股走低 云音乐跌超6%
                                                                                长安汽车王俊：中国新能源汽车出口均价大幅提升-头条焦点
                                                                                美联测量：料坚尼地城住宅地日后发展以中小型单位为主
                                                                                “技术管家”一个设计小变更，节省600万元-世界今日报
                                                                                报考心理咨询师需要什么条件_观天下
                                                                                暑假，让孩子们动起来（体坛观澜） 全球热点
                                                                                寻味中国丨一块泥巴 捏出大千世界
                                                                                环球速看：7月6日生意社煤焦油基准价为4250.00元/吨
                                                                                绣出文创新天地-世界实时
                                                                                【全球新要闻】国产电视领域掀起涨价潮，电视产品发展到达新阶段
                                                                                畔森板材怎么辨真假_ps标尺怎么用 每日视讯
                                                                                世界播报:“带押过户”成效如何？深圳最新数据来了
                                                                                没有里程焦虑的“电车” 聚看点
                                                                                “中国的人权理念与实践”边会在日内瓦举行
                                                                                含羞草长什么样作文（含羞草长什么样）
                                                                                冰炎之歌 序 蔚蓝乐篇 天天聚看点
                                                                                第20次TRIX金叉，德展健康买入胜率如何？看数据说n
                                                                                惠及广州101所中小学，“三棋”文化进校园推广项目顺利收官
                                                                                连日高温中暑游客多！北京120急救中心医生每天“连轴转”


            
                
                
                    
                        资讯
                        查看更多→
                    
                
                
                    
                                                
                            
                                
                                    06 
                                    2023.07
                                
                                Python 爬虫实战：驾驭数据洪流，揭秘网页深处
                            
                        
                                                
                            
                                
                                    06 
                                    2023.07
                                
                                影视娱乐港股走低 云音乐跌超6%
                            
                        
                                                
                            
                                
                                    06 
                                    2023.07
                                
                                长安汽车王俊：中国新能源汽车出口均价大幅提升-头条焦点
                            
                        
                                                
                            
                                
                                    06 
                                    2023.07
                                
                                美联测量：料坚尼地城住宅地日后发展以中小型单位为主
                            
                        
                                                
                            
                                
                                    06 
                                    2023.07
                                
                                “技术管家”一个设计小变更，节省600万元-世界今日报
                            
                        
                                                
                            
                                
                                    06 
                                    2023.07
                                
                                报考心理咨询师需要什么条件_观天下
                            
                        
                                                
                            
                                
                                    06 
                                    2023.07
                                
                                暑假，让孩子们动起来（体坛观澜） 全球热点
                            
                        
                                                
                            
                                
                                    06 
                                    2023.07
                                
                                寻味中国丨一块泥巴 捏出大千世界
                            
                        
                                                
                            
                                
                                    06 
                                    2023.07
                                
                                环球速看：7月6日生意社煤焦油基准价为4250.00元/吨
                            
                        
                                                
                            
                                
                                    06 
                                    2023.07
                                
                                绣出文创新天地-世界实时
                            
                        
                                            
                
                
                
                    
                        行业
                        查看更多→
                    
                
                
                    
                                                
                            
                                06-20
                                杭州为“专精特新”科技型企业提供担保贷款突破1亿元
                            
                        
                                                
                            
                                12-24
                                桐庐推出全省首笔“非遗工坊贷” 单户最高1000万元
                            
                        
                                                
                            
                                12-24
                                生态环境部：全国碳市场第一个履约周期运行平稳 累计成交额58.02亿元
                            
                        
                                                
                            
                                12-24
                                国台办：严厉谴责个别人在大是大非问题上搞政治操弄
                            
                        
                                                
                            
                                12-24
                                笑起来真好看｜元古堆村来了位特殊客人
                            
                        
                                                
                            
                                12-24
                                综述：海外多国疫情阴霾下走近圣诞节
                            
                        
                                                
                            
                                12-24
                                一声“老兵” 一生军魂
                            
                        
                                                
                            
                                12-24
                                近两年我国平均人均退税额581.61元 近一半纳税人可退税
                            
                        
                                                
                            
                                12-24
                                第72集团军某合成旅开展红蓝对抗演练
                            
                        
                                                
                            
                                12-24
                                新技术让3D打印生物组织更方便存储
                            
                        
                                            
                
                
                
                    
                        动态
                        查看更多→
                    
                
                                
                    
                        
                        
                            云南保山百花岭：“中国观鸟金三角”迎来黄金飙鸟期
                            高黎贡山百花岭观鸟产业的发展要追溯到1989年，至今已有33年历史，观鸟方式也由“野拍”转为“塘拍”，模式更加专业、管理更加标准
                        
                    
                
                                
                    
                        
                        
                            动态焦点:雷科防务：公司未来如有相关计划将及时履行信息披露义务
                            雷科防务(002413)12月19日在投资者关系平台上答复了投资者关心的问题。
                        
                    
                
                                
                    
                        
                        
                            文灿股份12月30日快速上涨
                            以下是文灿股份在北京时间12月30日09:42分盘口异动快照：12月30日，文灿股份盘中快速上涨，5分钟内涨幅超过2%，截至9点42分，报61 54元，成交6
                        
                    
                
                                
                    
                        
                        
                            中国交建拟整合设计资产上市 水泥巨头祁连山“转身”在即 环球新动态
                            时隔半年，中国交建拟分拆设计资产与祁连山重组上市，迈出关键一步。　　12月28日晚，中国交建披露重组上市预案，资产估值、交易方案等得以明
                        
                    
                
                                
                    
                        
                        
                            中装建设: 2022年第一次债券持有人会议决议公告 焦点热闻
                            中装建设:2022年第一次债券持有人会议决议公告
                        
                    
                
                                
                    
                        
                        
                            世界热讯:威海广泰(002111)：董事股份减持计划减持数量过半的进展
                            2022年12月30日公告发布

Python 爬虫实战：驾驭数据洪流，揭秘网页深处

影视娱乐港股走低云音乐跌超6%

长安汽车王俊：中国新能源汽车出口均价大幅提升-头条焦点

美联测量：料坚尼地城住宅地日后发展以中小型单位为主

“技术管家”一个设计小变更，节省600万元-世界今日报

报考心理咨询师需要什么条件_观天下

暑假，让孩子们动起来（体坛观澜）全球热点

寻味中国丨一块泥巴捏出大千世界

环球速看：7月6日生意社煤焦油基准价为4250.00元/吨

绣出文创新天地-世界实时

杭州为“专精特新”科技型企业提供担保贷款突破1亿元

桐庐推出全省首笔“非遗工坊贷” 单户最高1000万元

生态环境部：全国碳市场第一个履约周期运行平稳累计成交额58.02亿元

国台办：严厉谴责个别人在大是大非问题上搞政治操弄

笑起来真好看｜元古堆村来了位特殊客人

综述：海外多国疫情阴霾下走近圣诞节

一声“老兵” 一生军魂

近两年我国平均人均退税额581.61元近一半纳税人可退税

第72集团军某合成旅开展红蓝对抗演练

新技术让3D打印生物组织更方便存储

云南保山百花岭：“中国观鸟金三角”迎来黄金飙鸟期

高黎贡山百花岭观鸟产业的发展要追溯到1989年，至今已有33年历史，观鸟方式也由“野拍”转为“塘拍”，模式更加专业、管理更加标准

动态焦点:雷科防务：公司未来如有相关计划将及时履行信息披露义务

雷科防务(002413)12月19日在投资者关系平台上答复了投资者关心的问题。

文灿股份12月30日快速上涨

以下是文灿股份在北京时间12月30日09:42分盘口异动快照：12月30日，文灿股份盘中快速上涨，5分钟内涨幅超过2%，截至9点42分，报61 54元，成交6

中国交建拟整合设计资产上市水泥巨头祁连山“转身”在即环球新动态

时隔半年，中国交建拟分拆设计资产与祁连山重组上市，迈出关键一步。　　12月28日晚，中国交建披露重组上市预案，资产估值、交易方案等得以明

中装建设: 2022年第一次债券持有人会议决议公告焦点热闻

中装建设:2022年第一次债券持有人会议决议公告

世界热讯:威海广泰(002111)：董事股份减持计划减持数量过半的进展

2022年12月30日公告发布

Python 爬虫实战：驾驭数据洪流，揭秘网页深处

影视娱乐港股走低 云音乐跌超6%

长安汽车王俊：中国新能源汽车出口均价大幅提升-头条焦点

美联测量：料坚尼地城住宅地日后发展以中小型单位为主

“技术管家”一个设计小变更，节省600万元-世界今日报

报考心理咨询师需要什么条件_观天下

暑假，让孩子们动起来（体坛观澜） 全球热点

寻味中国丨一块泥巴 捏出大千世界

环球速看：7月6日生意社煤焦油基准价为4250.00元/吨

绣出文创新天地-世界实时

杭州为“专精特新”科技型企业提供担保贷款突破1亿元

桐庐推出全省首笔“非遗工坊贷” 单户最高1000万元

生态环境部：全国碳市场第一个履约周期运行平稳 累计成交额58.02亿元

国台办：严厉谴责个别人在大是大非问题上搞政治操弄

笑起来真好看｜元古堆村来了位特殊客人

综述：海外多国疫情阴霾下走近圣诞节

一声“老兵” 一生军魂

近两年我国平均人均退税额581.61元 近一半纳税人可退税

第72集团军某合成旅开展红蓝对抗演练

新技术让3D打印生物组织更方便存储

云南保山百花岭：“中国观鸟金三角”迎来黄金飙鸟期

高黎贡山百花岭观鸟产业的发展要追溯到1989年，至今已有33年历史，观鸟方式也由“野拍”转为“塘拍”，模式更加专业、管理更加标准

动态焦点:雷科防务：公司未来如有相关计划将及时履行信息披露义务

雷科防务(002413)12月19日在投资者关系平台上答复了投资者关心的问题。

文灿股份12月30日快速上涨

以下是文灿股份在北京时间12月30日09:42分盘口异动快照：12月30日，文灿股份盘中快速上涨，5分钟内涨幅超过2%，截至9点42分，报61 54元，成交6

中国交建拟整合设计资产上市 水泥巨头祁连山“转身”在即 环球新动态

时隔半年，中国交建拟分拆设计资产与祁连山重组上市，迈出关键一步。 12月28日晚，中国交建披露重组上市预案，资产估值、交易方案等得以明

中装建设: 2022年第一次债券持有人会议决议公告 焦点热闻

中装建设:2022年第一次债券持有人会议决议公告

世界热讯:威海广泰(002111)：董事股份减持计划减持数量过半的进展

2022年12月30日公告发布

影视娱乐港股走低云音乐跌超6%

暑假，让孩子们动起来（体坛观澜）全球热点

寻味中国丨一块泥巴捏出大千世界

生态环境部：全国碳市场第一个履约周期运行平稳累计成交额58.02亿元

近两年我国平均人均退税额581.61元近一半纳税人可退税

中国交建拟整合设计资产上市水泥巨头祁连山“转身”在即环球新动态

时隔半年，中国交建拟分拆设计资产与祁连山重组上市，迈出关键一步。　　12月28日晚，中国交建披露重组上市预案，资产估值、交易方案等得以明

中装建设: 2022年第一次债券持有人会议决议公告焦点热闻