Python爬虫入门

概述

爬虫指的是一种软件应用程序，可在互联网上运行一些自动化的任务。相比于真人对网页进行操作，爬虫在运行任务时通常很简单，并且效率以及执行速度会高很多。

简单的来说，爬虫就是模拟浏览器接收以及发送请求，并且按照一定的规律自动获取互联网上的信息，将信息处理后保存至数据库并以文档形式或者报表形式进行展示。

爬虫与浏览器的区别：

浏览器: 发送接收请求，进行渲染
爬虫: 发送接收请求，不进行渲染

开发工具

Python3.8
Pycharm: 功能强大，代码自动补全友好，不能分块执行
jupyter: 小巧，方便，可以分块执行

我比较喜欢使用jupyter

第三方库

urllib3
requests
threading
re
json
beautifulsoup4
selenim
lxml

最简单的爬虫

from urllib.request import urlopen
from urllib.request import Request
from fake_useragent import UserAgent

ua = UserAgent()#请求头
url = "http://www.baidu.com" #url

req = Request(url, ua.chrome) #构造一个请求
response = urlopen(url) #获取返回结果

info = response.read().decode() #解析返回信息
print(info)

2022-04-23

auto关键字&decltype关键字

C++特性

Python爬虫入门

概述

开发工具

第三方库

最简单的爬虫

喜欢这篇文章？打赏一下作者吧

链接

分类

标签云

最新文章

归档

标签

最新文章

归档

标签

Your browser is out-of-date!