Python爬虫-爬取URL

yp-blogs 2022-06-22 原文

1.简介：

简单的一个小爬虫，通过给函数start_url,high_nun,width_num三个参数，从而爬取start_url下面的URL链接。start_url为开始爬取的URL，high_num为从start_url开始算,往下面计算high_num个URL,也就是爬取的URL 链接的深度。width_num就是宽度了。简单理解就是一个二维表吧。同时，爬取的每个页面的url会存储为一个txt文件，文件名就是用页面的URL来命名的。

2.python包：

BeautifulSoup 用来解析html的，过滤出页面下的url链接
requests 发送请求
re 使用正则过滤出url

from bs4 import BeautifulSoup
import requests
import re


# 获取页面下面的所有url链接
def fist_url(start_url='https://www.test.com'):
    start_url = start_url
    response = requests.get(url=start_url)
    bs_html = BeautifulSoup(response.content, 'lxml')
    url_list = []
    for href in bs_html.findAll("a"):
        if 'href' in href.attrs:
            # 过滤掉href为javascript的数据
            url_te = href.attrs['href']
            if url_te != 'javascript:void(0);':
                patten = re.compile(r'(http|ftp|https):\/\/[\w\-_]+(\.[\w\-_]+)+([\w\-\.,@?^=%&:/~\+#]*['
                                    r'\w\-\@?^=%&/~\+#])?')
                url_text = patten.search(url_te)
                try:
                    # 获取正则表达式匹配url
                    url_list.append(url_text.group())
                except AttributeError as e:
                    if url_te == '' or url_te == '/':
                        pass
                    else:
                        if len(url_te) > 10:
                            result_url = 'https:' + str(url_te)
                            # print("异常数据处理结果:", result_url)
                            url_list.append(result_url)
                        else:
                            pass
            else:
                pass
    file_name = '../Drivers/{}.html'.format(start_url[8:-1])
    with open(file=file_name, mode='w', encoding='utf-8') as f:
        for i in url_list:
            f.write(str(i)+'\n')
    return file_name


# 读取start_url下面的high_num个连接
def next_url(start_url='https://www.test.com/', width=3):
    width_num = width
    url_list_test = []
    start_url = start_url
    print('start_url:', start_url)
    file_path = fist_url(start_url=start_url)
    with open(file=file_path, mode='r', encoding='utf-8') as f:
        url_list = f.readlines()
    for i in url_list[0:width_num]:
        url_list_test.append(i.strip())
        fist_url(start_url=i.strip())
    return url_list_test


def run(high_num=2, width_num=2):
    for i in range(high_num):
        next_list = next_url(start_url='https://www.test.com', width=width_num)
        next_url(start_url=next_list[0], width=width_num)
        print('return_url', next_list[0])


if __name__ == '__main__':
    run(high_num=2, width_num=2)

ps: 待完善功能：
1.在start_url之后第二个文件的第二个url假如还是start_url的情况的处理。
2.正则匹配的URL存在匹配不准确的情况。
3.加入selenium，获取需要javascrript渲染的页面

本文链接：https://www.cnblogs.com/yp-blogs/p/16398893.html

Python爬虫-爬取URL的更多相关文章

大陆居民身份证、港澳台居民居住证验证工具 Python 版：验证、获取基本信息以及生成假数据

地址：https://github.com/jxlwqq/id-validator.py 中华人民共和国居民身 […]...

pip无法使用

pip更新以后遇到一个问题 D:\Python27\lib\site-packages\pip-9.0.3-p […]...

如何用 Python 操作数据？

系列文章 1、如何用 Python 读取数据？ 2、如何用 Python 清洗数据？ 0. 序 […]...

python爬虫总结

[TOC] 由于某些原因最近终于可以从工作的琐事中抽出身来，有时间把之前的一些爬虫知识进行了一个简单的梳理，也 […]...

使用pypi-server搭建简单的PyPI源

pypiserver 是一个最基本的PyPI服务器实现, 可以用来上传和维护python包. 本文介绍 pyp […]...

【python】判断空值

各空值类型df=pd.DataFrame()df['a']=pd.NaT # datetime64[ns] # pandas中pd.NaT表示 not a time。df['b']=np.nan # float64 # NaN是...

windows安装创建mkdocs项目

windows安装创建mkdocs项目环境配置：windows 10python 3.7.31. 下载pip和解压入口下载PIP压缩包（不好找的话可以点击上边的“入口”进行下载），解压得到pip-9.0.1文件夹打开该文件夹，如下目录，有一个setup.py文件2. 执行安装pip操作打开cmd命令窗口，切到当前刚刚解压缩的文件夹目录下，执行如下命令，完成pip安装python setup.py install执行如下命令，测试是否安装成功：pip -V显示版本号等._windows 安装mkdocs...

python 一个数列[n1, n2, n3………]，其中n个数的全排列个数

python 一个数列[n1, n2, n3………]，其中n个数的全排列个 […]...

工具类： package com.ai.rai.group.system; import com.alibab […]...

Java 参数

java -help 用法: java [-options] class [args...] (执行类) 或 […]...

关于node的基础理论，书上看来的

最近看了一本书，说了一些Node.js的东西，现在来记录一下，让自己记得更牢靠一点。在书上，是这样介绍的：N […]...

无需NAS，让你躺在床上用ipad也能够直接观看电脑上的视频（安卓手机也可的简易方法)

引言寒冬之际，大家肯定都是待在被窝里不想挪动滴。而在周末闲暇之余，想要躺在床上舒服地看看视频，但却因为A […]...

软件开发项目团队建设

近 20 年来，许多新一代的软件技术、过程和方法的发展异常迅速，但软件工业仍然是一个人力密集的过程，离工业化 […]...

Github搭建个人博客

Github的搭建博客真的是非常容易，所需的步骤只有三个:要完成自己的github.io博客网站，总共分三步： […]...

计算机组成原理——第二章运算方法和运算器（笔记）

2.1 数据与文字的表示方法 1. 浮点表示法（IEEE754标准）（1）32位浮点数： x = (-1)^ […]...

ORACLE数据库创建动态表

最近公司一个项目代码里的定时任务无法执行，查验代码良久，奈何代码过于老旧，开发人员换了一茬又一茬，现在都无法理 […]...

Python爬虫-爬取URL

1.简介：

2.python包：

Python爬虫-爬取URL的更多相关文章

随机推荐

热门专题

目录导航