零基础爬取堆糖网图片(一)
零基础爬取堆糖网图片(一)
全文介绍:
首先堆糖网是一个美图壁纸兴趣社区,有大量的美女图片
今天我们实现搜索关键字爬取堆糖网上相关的美图。
当然我们还可以实现多线程爬虫,加快爬虫爬取速度
涉及内容:
- 爬虫基本流程
- requests库基本使用
- urllib.parse模块
- json包
- jsonpath库
图例说明:
- 请求与响应
sequenceDiagram
浏览器->>服务器: 请求
服务器–>>浏览器: 响应
浏览器->>服务器: 请求
服务器–>>浏览器: 响应
- 爬虫基本流程
graph TD
A[目标网站] –>|分析网站| B(url)
B –> C[模拟浏览器请求资源]
C –>D[解析网页]
D–>E[保存数据]
A[目标网站] –>|分析网站| B(url)
B –> C[模拟浏览器请求资源]
C –>D[解析网页]
D–>E[保存数据]
正文:
1. 分析网站
1.1 目标网址:https://www.duitang.com/
1.2 关键字:
值得注意的是url当中是不能有汉字的,所以真正的url是这样的:
https://www.duitang.com/search/?kw=美女&type=feed
思路:
import urllib.parse
label = \'美女\'
label = urllib.parse.quote(label)
# 输出:%E7%BE%8E%E5%A5%B3
1.3 数据源:
首先,这个网站的数据是瀑布流式的加载方式。
瀑布流举例说明:你去一个饭店,直接开口要十碗烩面,这个时候老板开始下面给你吃
版权声明:本文为mark-wq原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。