零基础爬取堆糖网图片(一)

全文介绍:

首先堆糖网是一个美图壁纸兴趣社区,有大量的美女图片
今天我们实现搜索关键字爬取堆糖网上相关的美图。
当然我们还可以实现多线程爬虫,加快爬虫爬取速度

涉及内容:

  1. 爬虫基本流程
  2. requests库基本使用
  3. urllib.parse模块
  4. json包
  5. jsonpath库

图例说明:

  1. 请求与响应
sequenceDiagram
浏览器->>服务器: 请求
服务器–>>浏览器: 响应
  1. 爬虫基本流程
graph TD
A[目标网站] –>|分析网站| B(url)
B –> C[模拟浏览器请求资源]
C –>D[解析网页]
D–>E[保存数据]

正文:

1. 分析网站

1.1 目标网址:https://www.duitang.com/

1.2 关键字:

值得注意的是url当中是不能有汉字的,所以真正的url是这样的:

https://www.duitang.com/search/?kw=美女&type=feed
思路:

import urllib.parse

label = \'美女\'
label = urllib.parse.quote(label)
# 输出:%E7%BE%8E%E5%A5%B3

1.3 数据源:

首先,这个网站的数据是瀑布流式的加载方式。

瀑布流举例说明:你去一个饭店,直接开口要十碗烩面,这个时候老板开始下面给你吃

版权声明:本文为mark-wq原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/mark-wq/p/12643806.html