python 爬取百度图片

zhoulixue 2021-12-13 原文

# coding=utf-8
"""根据搜索词下载百度图片"""
import re
import sys
import urllib
import requests
def get_onepage_urls(onepageurl):
    """获取单个翻页的所有图片的urls+当前翻页的下一翻页的url"""
    if not onepageurl:
        print(\'已到最后一页, 结束\')
        return [], \'\'
    try:
        html = requests.get(onepageurl).text
    except Exception as e:
        print(e)
        pic_urls = []
        fanye_url = \'\'
        return pic_urls, fanye_url
    pic_urls = re.findall(\'"objURL":"(.*?)",\', html, re.S)
    fanye_urls = re.findall(re.compile(r\'<a href="(.*)" class="n">下一页</a>\'), html, flags=0)
    fanye_url = \'http://image.baidu.com\' + fanye_urls[0] if fanye_urls else \'\'
    return pic_urls, fanye_url
def down_pic(pic_urls):
    """给出图片链接列表, 下载所有图片"""
    for i, pic_url in enumerate(pic_urls):
        try:
            pic = requests.get(pic_url, timeout=15)
            string = str(i + 1) + \'.jpg\'
            with open(string, \'wb\') as f:
                f.write(pic.content)
                print(\'成功下载第%s张图片: %s\' % (str(i + 1), str(pic_url)))
        except Exception as e:
            print(\'下载第%s张图片时失败: %s\' % (str(i + 1), str(pic_url)))
            print(e)
            continue
 
 
if __name__ == \'__main__\':
    keyword = \'bus\'  # 关键词, 改为你想输入的词即可, 相当于在百度图片里搜索一样
    url_init_first = r\'http://image.baidu.com/search/flip?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1497491098685_R&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&ctd=1497491098685%5E00_1519X735&word=\'
    url_init = url_init_first + urllib.quote(keyword, safe=\'/\')
    all_pic_urls = []
    onepage_urls, fanye_url = get_onepage_urls(url_init)
    all_pic_urls.extend(onepage_urls)
    fanye_count = 0  # 累计翻页数
    while 1:
        onepage_urls, fanye_url = get_onepage_urls(fanye_url)
        fanye_count += 1
        print(\'第%s页\' % fanye_count)
        if fanye_url == \'\' and onepage_urls == []:
            break
        all_pic_urls.extend(onepage_urls)
    down_pic(list(set(all_pic_urls)))

版权声明：本文为zhoulixue原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/zhoulixue/p/8394959.html

python 爬取百度图片的更多相关文章

【Python】Python使用Tk实现动态爱心效果
【Python】Python使用Tk实现动态爱心效果深夜种下希望，梦中便能发芽相对于之前的版本（晚上星月争辉，美梦陪你入睡），解决了看起来很卡、爱心跳动死板和外围光环不怎么灵动的问题，添加了文字功能，能在中心加固定文字。改进如下：画...
Python协程中使用上下文
在Python 3.7中，asyncio 协程加入了对上下文的支持。使用上下文就可以在一些场景下隐式地传递变量 […]...
Python Django(WEB电商项目构建)
（坚持每一天，就是成功） Python Django Web框架，Django是一个开放源代码的Web应用框架 […]...
mongo数据库的一些命令（对于新同学，按照我的步骤连一遍即可）
进入mongo mongo 查看数据库 show dbs;/show databases(); 第一个命令 […]...
selenium学习之元素等待(四)
——为什么要设置元素等待：　　目前大多数web应用程序都是使用AJAX和JavaScript开发，每次加载一 […]...
python 7
目录日志模块的主要组成部分配置字典配置字典如何在项目中使用第三方模块openpyxl模块日志模块的主要组成部分import logging# 1.logger对象:产生日志...
Python学习：7.文件操作
文件操作我们曾将听过一个问题，将大象放入冰箱分为三步：1、打开冰箱门，2、将大象放进去，3、关上冰箱门。今天 […]...
第11天内置函数详解
参考博客地址：https://www.cnblogs.com/sesshoumaru/p/6140987.ht […]...

随机推荐

zipfile 解压文件名乱码
zipfile 中文文件名解压乱码上传文件功能模块需求及BUG现象：环境 mac django 1.11 […]...
上周热点回顾（10.19-10.25）
热点随笔： · Vue3 来了，Vue3 开源商城项目重构计划正式启动！ (我是13)· 全平行宇宙首个.NE […]...
Javaee的Dao层的抽取
有时候我们在实现不同功能的时候回看到很多的Dao层的增加、修改、删除、查找都很相似，修改我们将他们提取Base […]...
24.C++- 抽象类(存虚函数)、接口、多重继承
抽象类和接口什么是抽象类用来表示现实世界中的抽象概念是一种只能定义类型,而不能产生对象的类只能被子类继 […]...
个人作业1
404...
python
1、 pip freeze 固化依赖包版本，生成依赖清单--使用：在另一个新环境中快速下载依赖包--pip install -r requirements.txt2、 python 源库：https://pypi.org/simpl...
phpcms v9模板制作教程(转载)
phpcms v9模板制作教程第一节 1、首先下载phpcms v9的集成安装包并安装，这里就不详细说明了。 […]...
挂载磁盘
挂载磁盘 1、查看磁盘状态，找出要挂载的磁盘 lsblk fdisk -l df -lh 2、格式化磁盘文件格 […]...