python脚本工具－1 制作爬虫下载网页图片

tdcqma 2021-09-28 原文

参考：http://www.cnblogs.com/fnng/p/3576154.html

本文参考虫师的博客“python实现简单爬虫功能”，整理分析后抓取其他站点的图片并下载保存在本地。

抓取图片等网址：http://www.cnblogs.com/fnng/p/3576154.html
用到的正则表达式：reg = r\’src=”(.+?\.png)”\’

源代码：

 1 #! /usr/bin/python
 2 # coding:utf-8
 3 
 4 #导入urllib与re模块
 5 import urllib 
 6 import re
 7 
 8 # 定义一个函数获片取页面的信息，返回html文件。
 9 def getHtml(url):
10   page = urllib.urlopen(url)
11   html = page.read()
12   return html
13 
14 #将页面中的图片保存为正则表达式对象，通过for循环，
15 #利用urllib.urlretrieve()方法将所有图片下载到本地。
16 def getImg(html):
17     reg = r\'src="(.+?\.png)"\'
18     imgre = re.compile(reg)
19     imglist = re.findall(imgre,html)
20     x = 0
21     for imgurl in imglist:
22       urllib.urlretrieve(imgurl,\'%s.png\' % x)
23       x+=1
24 
25 html = getHtml("http://www.cnblogs.com/fnng/p/3576154.html")

　　2. 终端下看到的已下载好的图片

spdbmadeMacBook-Pro:crawler spdbma$ ls
0.png        2.png        4.png        6.png
1.png        3.png        5.png        getjpg.py

本文链接：https://www.cnblogs.com/tdcqma/p/5255332.html

随机推荐

一起学Hive——总结常用的Hive优化技巧

今天总结本人在使用Hive过程中的一些优化技巧，希望给大家带来帮助。Hive优化最体现程序员的技术能力，面试官 […]...

ubuntu 下安装 activate-power-mode

转自网络被朋友圈中的atom的activate-power-mode 震撼到了，于是想试试。步骤如下首先 […]...

Z字形扫描(201412-2)

问题描述　　在图像编码的算法中，需要将一个给定的方形矩阵进行Z字形扫描(Zigzag Scan)。给定一个n […]...

浅析uint8_t / uint16_t / uint32_t /uint64_t

简单来说，uint8_t / uint16_t / uint32_t /uint64_t这些数据类型都只是别名 […]...

Mysql索引优化之索引的分类

Mysql的历史简单回顾一下Mysql的历史，Mysql 是一个关系型数据库管理系统，由瑞典 Mysql A […]...

CenterOS,Ubuntu上安装JDK

一、首先去Oracal官网上下载JAVA安装tar包，现在最新的JDK1.8版本。　　下载地址：https: […]...

Unslider – 轻量的响应式 jQuery 内容滑块插件

Unslider 是一款非常轻量的 jQuery 插件（压缩后只有 1KB），能够用于任何 HTML 内容的滑 […]...

转义、编码和加密

转义、编码和加密是开发中很常见也很基础的概念。对于初学开发的开发者，可能有时会无法准确的区分着几个词。我们将通 […]...

python脚本工具－1 制作爬虫下载网页图片

python脚本工具－1 制作爬虫下载网页图片的更多相关文章

随机推荐

热门专题

目录导航