Python爬虫进阶——urllib模块使用案例【淘宝】

WoLykos 2019-12-25 原文

很多时候呢，我们都是读取本地HTML文件来进行爬虫练手，但每次都要手打不同的HTML明显耗时耗力；
还有些小伙伴不喜欢F12，偏偏喜欢在Pycharm中查看HTML的源代码；
……

难道每次都只能“复制——新建——粘贴——保存”一条龙服务吗？
不不不，我们还有Python的第三方库——urllib。
urllib模块是模拟浏览器去访问URL地址，然后拿到服务器响应回来的数据，也就是整个HTML文件。

代码如下：

import urllib.request as ur

# urlopen返回的是一个HTTPResponse对象，需使用read方法。
ret = ur.urlopen('https://www.taobao.com/').read()
print(ret)
# 写入文件，'wb'为写入二进制文件
with open('tb.html', 'wb') as f:
    f.write(ret)

输出如下：

在这里插入图片描述

为我心爱的女孩~~

版权声明：本文为WoLykos原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/WoLykos/p/12095181.html

Python爬虫进阶——urllib模块使用案例【淘宝】的更多相关文章

随机推荐

Chrome浏览器播放HTML5音频没声音的解决方案
近一个月电脑反复出现某个H5音频播放会没有声音这个问题，但是播放的进度条是正常在走的。十分诡异，偶尔出现偶尔消 […]...
梯度与方向导数
1、方向导数 2、方向余弦 3、梯度： ...
Cordova 基本命令以及如何添加，删除插件 – 折翼的飞鸟
Cordova 基本命令以及如何添加，删除插件 1、在使用cordova前，要先按照 node.js ，no […]...
五险一金及个税计算器 – jack_Meng
五险一金及个税计算器 12313 最近看到网上有使用JS计算五险一金和个税的，于是我也从网上找了下，发现 […]...
windows安装mingw和LuaJIT
1，安装mingw64 先下载mingw64压缩包(不建议下载exe安装包，在线安装太慢)，地址如下： htt […]...
【TWRP】使用adb sideload线刷ROM的方法
本教程详细介绍手机刷三方ROM 之前需要安装的 TWRP 这个神器工具楼主的手机是小米，所以此教程以小米手机 […]...
JS之回调函数（callback）
1.什么是回调函数？　　– 简单点说，一个函数被作为参数传递给另一个函数（在这里我们把另一个函数 […]...
buffer 和 cache 的区别
1.buffer：A buffer is something that has yet to be "writ […]...

展开目录

目录导航