零基础爬取堆糖网图片（一）

mark-wq 2020-04-06 原文

零基础爬取堆糖网图片（一）

全文介绍：

首先堆糖网是一个美图壁纸兴趣社区，有大量的美女图片
今天我们实现搜索关键字爬取堆糖网上相关的美图。
当然我们还可以实现多线程爬虫，加快爬虫爬取速度

涉及内容：

爬虫基本流程
requests库基本使用
urllib.parse模块
json包
jsonpath库

图例说明：

请求与响应

sequenceDiagram
浏览器->>服务器: 请求
服务器–>>浏览器: 响应

爬虫基本流程

graph TD
A[目标网站] –>|分析网站| B(url)
B –> C[模拟浏览器请求资源]
C –>D[解析网页]
D–>E[保存数据]

正文：

1. 分析网站

1.1 目标网址：https://www.duitang.com/

1.2 关键字:

值得注意的是url当中是不能有汉字的，所以真正的url是这样的：

https://www.duitang.com/search/?kw=美女&type=feed
思路：

import urllib.parse

label = \'美女\'
label = urllib.parse.quote(label)
# 输出：%E7%BE%8E%E5%A5%B3

1.3 数据源：

首先，这个网站的数据是瀑布流式的加载方式。

瀑布流举例说明：你去一个饭店，直接开口要十碗烩面，这个时候老板开始下面给你吃

本文链接：https://www.cnblogs.com/mark-wq/p/12643806.html

随机推荐

anaconda的安装教程和使用方法

一、anaconda安装方法：　　1、下载：　　　　anaconda官方下载地址：https://www. […]...

JUC——线程同步辅助工具类（Semaphore，CountDownLatch，CyclicBarrier）

CountDownLatch CountDownLatch是一个计数器闭锁，通过它可以完成类似于阻塞当前线程的 […]...

vue实现带logo的二维码/商品条形码/打印商品吊牌

一、带logo的二维码 1.安装 npm install vue-qr --save 2.在页面或组件中使用 […]...

如何在命令长度受限的情况下成功get到webshell(函数参数受限突破、mysql的骚操作)

0x01 问题提出还记得上篇文章记一次拿webshell踩过的坑(如何用PHP编写一个不包含数字和字母的后门 […]...

JQuery遍历

遍历js的遍历方式for（初始化值；循环结束条件；步长）<script src="../js/jquer...

插头DP学习笔记

插头DP学习笔记插头DP学习笔记用途有些状压 \(DP\) 问题要求我们记录状态的连通性信息，这类问题 […]...

Spring Boot 轻量替代框架 Solon 1.3.18 发布

Solon 是一个微型的Java开发框架。项目从2018年启动以来，参考过大量前人作品；历时两年，4000多次 […]...

如何自学编程？学习方法在这里！

目前工作4年，当初是自学安卓的，资料网上整理的都非常全面了，我想补充的是现在已经不是当初资料匮乏的时代了，免费 […]...

零基础爬取堆糖网图片（一）