python爬虫之爬取小说（一）

jsxxd 2021-08-30 原文

爬取“盗墓笔记”小说

import requests
from bs4 import BeautifulSoup
headers = {
    \'User-Agent\': \'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36\'
}


def open_url(url):
    r = requests.get(url, headers=headers)
    r.encoding = \'gbk\'
    html = r.text
    return html


def get_title(html):
    soup = BeautifulSoup(html, \'lxml\')
    title_tag = soup.find(\'div\', class_=\'h1title\')
    return title_tag.text + \'\n\'


def get_text(html):
    soup2 = BeautifulSoup(html, \'lxml\')
    text_tag = soup2.find(\'div\', id=\'htmlContent\')
    return text_tag.text


def save(title, text):
    with open(\'盗墓笔记.txt\', \'a+\', encoding=\'utf-8\') as file:
        file.write(title)
        file.write(text)
    print(\'下载完成！\')


def main():
    while True:
        num = int(input(\'请输入你想要下载第几章：\')) + 78209
        url = \'http://www.taiuu.com/0/67/\' + str(num) + \'.html\'
        html = open_url(url)
        title = get_title(html)
        text = get_text(html)
        save(title, text)
        repeat = input(\'请问还要继续下载吗？（y/n）\')
        if repeat == \'y\':
            continue
        else:
            break
            print(\'已退出!\')


if __name__ == \'__main__\':
    main()

版权声明：本文为jsxxd原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/jsxxd/p/13740812.html

python爬虫之爬取小说（一）的更多相关文章

python爬虫之爬取小说（四）
爬取《坏蛋是怎样练成的》 # 导入第三方库 import requests from bs4 import B […]...
python爬虫之爬取小说（二）
爬取“全书网”《斗罗大陆》小说 #!/usr/bin/env python # -*- coding: utf […]...

随机推荐

将Swagger2文档导出为HTML或markdown等格式离线阅读
网上有很多《使用swagger2构建API文档》的文章，该文档是一个在线文档，需要使用HTTP访问。但是在我们 […]...
2020-为什么换了工作
摘要经历了一个特殊的2020上半年，疫情出乎意料的持续了半年之久，还是没有看到结束的趋势。虽然外部环境很恶劣 […]...
nginx虚拟主机配置
nginx虚拟主机配置虚拟主机的概念虚拟主机，就是把一台物理服务器划分成多个“虚拟”的服务器，每一个虚 […]...
WampServer的下载方法
http://www.wampserver.com/ 无法访问报网络连接错误 2019.01.13 最 […]...
搭建服务器需要的那些
服务器的租用或者托管并不便宜，需要考虑自身的需求。如果不是复杂应用可以考虑虚拟主机，价位较为便宜。（但是目前国 […]...
前端开发发展简史-个人经验分享
前端发展查阅网上诸多资料，并结合自己的实际开发经验，进行的一次前端技术分享。一目录不折腾的前端，和咸 […]...
vector、deque、stack、queue以及list的使用
注意：以下测试案例都要加上相应的头文件，必要时要加上algorithm文件。 1、vector 　　连续存储结 […]...
众数的求法 – 想总结却停留不前？
众数的求法 ★问题描述：给定含有n个元素的多重集合S，每个元素在S中出现的次数称为该元素的重数。多重集S中重数 […]...

展开目录

目录导航