用 python 做简单的网页爬虫程序 - NeilChen

RChen 2021-12-07 原文

用 python 做简单的网页爬虫程序

今天看到一个网页，又因为在家里用电话线上网，一直在线阅读很麻烦。所以就写了个简单的程序把网页抓下来离线阅读，省点电话费：）
这个程序因为主页面链接到的页面都在同一个目录下，结构很简单，只有一层。因此写了一些硬编码做链接地址的分析。
代码如下：

#!/usr/bin/env python
# -*- coding: GBK -*-

import urllib

from sgmllib import SGMLParser

class URLLister(SGMLParser):
    def reset(self):
        SGMLParser.reset(self)
        self.urls = []

    def start_a(self, attrs):
        href = [v for k, v in attrs if k == \’href\’]
        if href:
            self.urls.extend(href)

url = r\’http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJingShuoShenMo/\’
sock = urllib.urlopen(url)
htmlSource = sock.read()
sock.close()
#print htmlSource
f = file(\’jingangjing.html\’, \’w\’)
f.write(htmlSource)
f.close()

mypath = r\’http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJingShuoShenMo/\’

parser = URLLister()
parser.feed(htmlSource)

for url in parser.urls:
    myurl = mypath + url
    print “get: “ + myurl
    sock2 = urllib.urlopen(myurl)
    html2 = sock2.read()
    sock2.close()

    # 保存到文件
    print “save as: “ + url
    f2 = file(url, \’w\’)
    f2.write(html2)
    f2.close()

版权声明：本文为RChen原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/RChen/archive/2006/05/05/392275.html

用 python 做简单的网页爬虫程序 - NeilChen的更多相关文章

SIM808模块调试 – 梦想支撑的现实
SIM808模块调试 1.调试打电话功能拨号：ATD10086; 就是ATD<num>; 挂断： […]...
如何管理好你团队的前端代码 – liudddd
如何管理好你团队的前端代码前言随着移动互联网技术的发展，前端在整个项目体系建设中扮演的角色，所处的位置也越 […]...
三角形外接圆+圆的参数方程 – 潸然泪
三角形外接圆+圆的参数方程 1 //pku_1266_三角形外接圆+圆的参数方程.cpp 2 #include […]...
未找到或无法访问服务器请验证实例名称是否正确并且SQL Server 已配置为允许远程连接 – 悄悄的来，匆匆的走
未找到或无法访问服务器请验证实例名称是否正确并且SQL Server 已配置为允许远程连接无法连接到sql […]...
Unity3D ——强大的跨平台3D游戏开发工具教程 – jack船长大哥
Unity3D ——强大的跨平台3D游戏开发工具教程 http://unity3d.9ria.com/?p […]...
jQuery的ajax详解 – 张玉良
jQuery的ajax详解很多朋友都喜欢用JQ 而ajax更是JQ里必不可少的下面为大家详细介绍一下JQ的 […]...
mysql(一)–mysql架构和执行流程 – FLGB
1. 一条查询 SQL 语句是如何执行的？我们的程序或者工具要操作数据库，第一步要做什么事情？跟数据库 […]...
08-LTE EMM – LTE EMM and ECM States[中文翻译]
I. Introduction 通过之前的技术文档，我们已经学习了LTE网络架构和LTE identifica […]...

随机推荐

工作常用英语单词整理3
material [mə\’tɪərɪəl] adj. 重要的；物质的，实质性的；肉体 […]...
不确定估计学习小结
最近，观看了危夷晨大佬关于《不确定性学习在视觉识别中的应用》的报告，认为不确定性学习在用武之地，所以特意对相关 […]...
XDocument简单入门
XDocument简单入门 2013-03-05 17:10 糯米粥阅读(11166) 评论(14) […]...
不吹牛X，我真的干掉了if-else
我们在web开发中，经常使用数据库表中的字段作为“标记”来表示多个“状态”，比如：我们就以某宝的在线购物流程 […]...
银行分期贷款计算方法
银行分期贷款计算方法其实有个很好理解的方法，如果刷卡十万，每月还本金应该是100000/12=8333元， […]...
程序员2018年度代码报告，句句戳心
程序员2018年度代码报告，句句戳心如果用一句话形容你的 2018，会是什么？如果用一句话预测你的 20 […]...
应该要知道的几个统计学定义.
//我们先来看一下几个名词基本解释. 1.标准差(Standard deviation) 简单来说,标准差是一 […]...
mysql数据库安装
1、下载zip安装包，在本地进行解压（下载的安装包5.7版本）（解压后的安装包） 2、数据库进行初始化 […]...

展开目录

目录导航