爬虫---Beautiful Soup 爬取图片

qican 2021-11-09 原文

　　上一篇简单的介绍Beautiful Soup 的基本用法，这一篇写下如何爬取网站上的图片，并保存下来

爬取图片

1.找到一个福利网站：http://www.xiaohuar.com/list-1-1.html

2.通过F12进行定位图片

3.通过下图可以看到标签为img，然后通过width=”210″的属性

爬取方法

1.通过find_all()的方法进行查找图片位置

2.筛选出图片的URL和图片名称

3.筛选后会发现其中有一些图片URL不完整

4.这个时候需要在代码中加一个判断，如何URL不完整我们就给他补充完整

import requests
from bs4 import BeautifulSoup
import os
# 请求地址
url = \'http://www.xiaohuar.com/list-1-1.html\'
html = requests.get(url).content
# BeautifulSoup 实例化
soup  = BeautifulSoup(html,\'html.parser\')
jpg_data = soup.find_all(\'img\',width="210")
for i in jpg_data:
    data = i[\'src\']
    name = i[\'alt\']
# 判断URL是否完整
    if "https://www.dxsabc.com/" not in data:
        data = \'http://www.xiaohuar.com\'+ data

保存图片

1.判断一个文件夹是否存在，不存在就重新创建

2.request模块请求图片的URL

3.通过content返回图片二进制，进行写入文件夹中

# coding:utf-8
import requests
from bs4 import BeautifulSoup
import os
# 创建一个文件夹名称
FileName = \'tupian\'
if not os.path.exists(os.path.join(os.getcwd(), FileName)):     # 新建文件夹   
     print(u\'建了一个名字叫做\', FileName, u\'的文件夹！\')
     os.mkdir(os.path.join(os.getcwd(),\'tupian\'))
else:
    print(u\'名字叫做\', FileName, u\'的文件夹已经存在了！\')
url = \'http://www.xiaohuar.com/list-1-1.html\'
html = requests.get(url).content    # 返回html
soup  = BeautifulSoup(html,\'html.parser\')   # BeautifulSoup对象
jpg_data = soup.find_all(\'img\',width="210") # 找到图片信息
for i in jpg_data:
    data = i[\'src\'] # 图片的URL
    name = i[\'alt\'] # 图片的名称
    if "https://www.dxsabc.com/" not in data:
        data = \'http://www.xiaohuar.com\'+data
    r2 = requests.get(data)
    fpath = os.path.join(FileName,name)
    with open(fpath+\'.jpg\',\'wb+\')as f : # 循环写入图片
        f.write(r2.content)
print(\'保存成功，快去查看图片吧！！\')

图片就不贴了，喜欢的可以自己动手写一写。

版权声明：本文为qican原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/qican/p/11134248.html

爬虫---Beautiful Soup 爬取图片的更多相关文章

爬虫—Beautiful Soup 反反爬虫事例
　　前两章简单的讲了Beautiful Soup的用法，在爬虫的过程中相信都遇到过一些反爬虫，如何跳过这些反爬 […]...
Python之Beautiful Soup 4使用实例
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库，它能够通过你喜欢的转 […]...
（最全）Xpath、Beautiful Soup、Pyquery三种解析库解析html 功能概括
一、Xpath 解析 xpath：是一种在XMl、html文档中查找信息的语言，利用了lxml库对HTML […]...
Python爬虫利器：Beautiful Soup
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。使用它来处理HTML […]...
beautifulSoup模块
　　这个库用来对网页进行解析功能，十分强大，有了它我们可以减少对正则的使用，也能顺利的从网页源码中拿到我们要的 […]...
100天搞定机器学习|Day21 Beautiful Soup
前情回顾机器学习100天|Day1数据预处理100天搞定机器学习|Day2简单线性回归分析100天搞定机器学 […]...
soup 解析
目录 BeautifulSoup 数据解析 + 提取对象种类：遍历文档树：搜索文档树： css 选择器： […]...
Python爬虫学习 – day1 – 爬取图片
利用Python完成简单的图片爬取　　最近学习到了爬虫，瞬时觉得很高大上，想取什么就取什么，感觉要上天。这里 […]...

随机推荐

Excel文本型数据转为数值型的方法
Excel文本型数据转为数值型的方法操作步骤非常简单，适用于所有版本的Excel。在任意一个空白单元格中输 […]...
这15个Vue指令，让你的项目开发爽到爆
1. V-Hotkey 仓库地址: github.com/Dafrok/v-ho… Demo: 戳这里 htt […]...
【MacOS】VMware安装10.15-Catalina版本
参考自： https://www.bilibili.com/video/BV1sf4y1D77A?p=4 资源 […]...
Java判断时间段是否重叠
需求当前有个核酸自助下单项目，要控制设置时间段内下单数量，每个时间段不能重叠解决方法如果要想当前时间段不与比较多时间段重复那么应该满足：当前开始时间大于要比较时间段的结束时间或者当前结束时间小于要比较时间段的开始时间。代码/*** @...
javascript JS CryptoJS DES加解密CBC模式与C#DES加解密相同互通
javascript JS CryptoJS DES加解密CBC模式与C#DES加解密相同互通我们只知道不同 […]...
量化交易-外汇交易-MetaTrader5
量化交易-外汇交易-MetaTrader5 外汇有充足的流动性， 7*24，交易成本低，多空双向，外加杠杆， […]...
计算机专业学了快一年，只会一点C语言，你好意思说自己是IT专业的？
目录一、C/C++入门阶段学习视频推荐：C++入门基础【B站小甲鱼】二、C/C++开发进阶学习视频推 […]...
RHCA学习笔记:RH442-Unit8进程与调度
UNIT 8 Processes and the Scheduler 进程与调度学习目标 A. C […]...