Python爬虫入门

Python爬虫入门

概述

​ 爬虫指的是一种软件应用程序,可在互联网上运行一些自动化的任务。相比于真人对网页进行操作,爬虫在运行任务时通常很简单,并且效率以及执行速度会高很多。

​ 简单的来说,爬虫就是模拟浏览器接收以及发送请求,并且按照一定的规律自动获取互联网上的信息,将信息处理后保存至数据库并以文档形式或者报表形式进行展示。

爬虫与浏览器的区别:

  • 浏览器: 发送接收请求,进行渲染
  • 爬虫: 发送接收请求,不进行渲染

开发工具

  • Python3.8

  • Pycharm: 功能强大,代码自动补全友好,不能分块执行

  • jupyter: 小巧,方便,可以分块执行

我比较喜欢使用jupyter

第三方库

  • urllib3
  • requests
  • threading
  • re
  • json
  • beautifulsoup4
  • selenim
  • lxml

最简单的爬虫

1
2
3
4
5
6
7
8
9
10
11
12
from urllib.request import urlopen
from urllib.request import Request
from fake_useragent import UserAgent

ua = UserAgent()#请求头
url = "http://www.baidu.com" #url

req = Request(url, ua.chrome) #构造一个请求
response = urlopen(url) #获取返回结果

info = response.read().decode() #解析返回信息
print(info)
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×