概述
爬虫指的是一种软件应用程序,可在互联网上运行一些自动化的任务。相比于真人对网页进行操作,爬虫在运行任务时通常很简单,并且效率以及执行速度会高很多。
简单的来说,爬虫就是模拟浏览器接收以及发送请求,并且按照一定的规律自动获取互联网上的信息,将信息处理后保存至数据库并以文档形式或者报表形式进行展示。
爬虫与浏览器的区别:
- 浏览器: 发送接收请求,进行渲染
- 爬虫: 发送接收请求,不进行渲染
开发工具
Python3.8
Pycharm: 功能强大,代码自动补全友好,不能分块执行
jupyter: 小巧,方便,可以分块执行
我比较喜欢使用jupyter
第三方库
- urllib3
- requests
- threading
- re
- json
- beautifulsoup4
- selenim
- lxml
最简单的爬虫
1 | from urllib.request import urlopen |