python的一次简单爬虫···

xikl 2021-08-13 原文

import requests
from lxml import etree
 
headers={
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:71.0) Gecko/20100101 Firefox/71.0",
    "Referer":"https://www.mzitu.com/",
}
response = requests.get("https://www.mzitu.com/" , headers=headers)   #获得网页源码
# print(response.text) 查看是否录入网页源码
 
html = etree.HTML(response.text)
#response.text为字符串类型
#etree.HTML()可以用来解析字符串格式的HTML文档对象，将传进去的字符串转变成_Element对象。
#作为_Element对象，可以方便的使用getparent()、remove()、xpath()等方法。
 
src_list = html.xpath(\'//img[@class="lazy"]/@data-original\')    
alt_list = html.xpath(\'//img[@class="lazy"]/@alt\')
#xpath返回一个列表
 
for src,alt in zip(src_list,alt_list):
    response = requests.get(src, headers=headers)
    FileName = "img\\" + alt + ".jpg"
    print("正在保存图片：" + FileName)
    with open(FileName,"wb") as p:
    #二进制写入，说明response内容为二进制
    #text 返回的是unicode 型的数据，一般是在网页的header中定义的编码形式。content返回的是bytes，二进制型的数据。
        p.write(response.content)

　　加油加油加油！！！

本文链接：https://www.cnblogs.com/xikl/p/12031556.html

随机推荐

HTML表格列表简介

HTML表格列表简介 HTML简介： html列表： ol标签：order list 有序列表。 ul […]...

Laravel Event的分析和使用

Laravel Event的分析和使用第一部分概念解释请自行查看观察者模式第二部分源码分析（逻辑较 […]...

关于pdf解密和去除水印 – 周健

关于pdf解密和去除水印 1 pdf文档解密我遇到的情况是第二种，使用PDF Unlocker解密成功后，文档 […]...

操作系统-内存管理

内存管理的目标: 实现内存的分配和回收合理的分配内存空间,提高内存利用率,提高内存访问速度存储器的层次结构 […]...

2017 7 – 友枝

2017 7 微博：日语老师李晓东 201707N1 1. この広大な大地を潤すにはまだまだ不十分だった。 1 […]...

小题大做 | Handler内存泄露全面分析

前言嗨，大家好，问大家一个“简单”的问题： Handler内存泄露的原因是什么？你会怎么答呢？这是错误的 […]...

elementUI配置

“css-loader”: “^0.23.1”,“ […]...

Java Spring Cloud 实战之路 – 1 创建项目

0. 前言该项目使用Maven进行管理和构建，所以需要预先配置好Maven。嗯，在这个系列里就不做过多的介绍 […]...

python的一次简单爬虫···

python的一次简单爬虫···的更多相关文章

随机推荐

热门专题

目录导航