python 爬取图片

taurusfy 2021-08-07 原文

使用python的requests库爬取网页时，获取文本一般使用text方法，如果要获取图片并保存要用content

举个栗子，爬煎蛋网的图：

#!/usr/bin/env python
#-*- coding:utf-8 -*-
import requests
import re
import os
url="http://jandan.net/ooxx"
s = requests.session()
header_jandan={\'Host\': \'jandan.net\',
        \'Connection\': \'keep-alive\',
        \'Cache-Control\': \'max-age=0\',
        \'Upgrade-Insecure-Requests\': \'1\',
        \'User-Agent\': \'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36\',
        \'Accept\': \'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8\',
        \'Referer\': \'http://jandan.net/ooxx\',
        \'Accept-Encoding\': \'gzip, deflate, sdch\',
        \'Accept-Language\':\'zh-CN,zh;q=0.8\'}
resp = s.get(url,headers=header_jandan,timeout=10)
if len(resp.text) < 1500:
    resp2 = s.get(url,headers=header_jandan,timeout=10)
    text=resp2.text
else:
    text=resp.text
#print rn.text
img_url=re.findall(ur\'(?<=\<img src\=").*?(?=\")\',text)
d=os.getcwd()
for i in img_url:
    ret=i.split("/")
    file = ret[-1]
    #print file
    if i.find("http") == -1:
        url_img="http:"+i
        r_img=s.get(url_img,headers=header_jandan,timeout=10)
        open(os.path.join(d,file), \'wb+\').write(r_img.content)
        print "write %s" % file

考虑到如果图片很大，获取需要时间，设置timeout超时避免内容取不完整。

写文件内容为r_img.content

打开文件的方式使用wb+，二进制文件覆盖方式写入。

版权声明：本文为taurusfy原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/taurusfy/p/7158801.html

python 爬取图片的更多相关文章

python 前端简介
python 前端前端简介# 1.什么是前端什么是后端前端任何与用户直接打交道的界面都可以称之为前端eg:淘宝页面游戏页面操作页面后端不直接与用户打交道的用于执行真正业务逻辑的代码eg:python代码 java代码 c++代...
Python 【元祖】【元祖相关功能】
元祖 tu = (111,'alex',(11,['aa','xhg',(78,43)],'aaa'),789 […]...
python中的lambda+reduce（第二弹）
In [1]: add1 = lambda x : x+1 In [2]: add1 Out[2]: < […]...
Python深入浅出property特性属性
导语在Java中，通常在类中定义的成员变量为私有变量，在类的实例中不能直接通过对象.属性直接操作，而是要通过 […]...
编写你的第一个Django应用程序，第四部分
本教程从随笔三停止的地方开始。这里将重点放简单的表单处理和削减我们的代码。写一个简单的表单更新模版文件po […]...
Python3 hasattr()、getattr()、setattr()、delattr()函数
hasattr()函数　　hasattr()函数用于判断是否包含对应的属性语法：　　hasattr(ob […]...
Python 的AES加密与解密
AES加密方式有五种：ECB, CBC, CTR, CFB, OFB 从安全性角度推荐CBC加密方法，本文介绍 […]...
python django mysql配置
1 django默认支持sqlite，mysql, oracle,postgresql数据库。 […]...

随机推荐

即便到愚人节，也千万别做的恶作剧！
普及一下：愚人节，这个19世纪在西方兴起的民间节日至今都未被不论什么国家认定为法定节日。然而愚人节风靡全球， […]...
Java多线程之深入解析ThreadLocal和ThreadLocalMap
ThreadLocal概述 ThreadLocal是线程变量，ThreadLocal中填充的变量属于当前线程， […]...
线性代数笔记9——消元矩阵与置换矩阵
线性代数笔记9——消元矩阵与置换矩阵消元矩阵　　如果用矩阵表示一个有解的方程组，那么矩阵经过消元后，最终能 […]...
EasyJson 发布
JSON库很常用了，现在开源的JSON库也有很多。但是我们仍然面临下列问题 1）时不时的爆出这个Json库出现 […]...
Security+ SYO-501 外网题库（1-200）
PS:局部翻译及选项有出入，请各位见谅 CompTIA Security+ SYO-501 question( […]...
c 中关于int，unsigned int , short 各种类型总结 – youxin
c 中关于int，unsigned int , short 各种类型总结 2013-08-03 00:52 […]...
Gmail，QMail，163邮箱的 IMAP/SMTP/POP3 地址 – Greyed Wolf
Gmail，QMail，163邮箱的 IMAP/SMTP/POP3 地址 Gmail，QMail，163邮箱的 […]...
面试(二)—synchronized
一、前言本来计划将ConcurrentHashMap和HashMap对比着来说下，奈何看的源码 […]...