python爬虫小说代码，可用的

blogst 2021-12-03 原文

python爬虫小说代码，可用的，以笔趣阁为例子，python3.6以上，可用作者的QQ：342290433，汉唐自远工程师

import requests

import re
from lxml import etree

url = “https://www.biquga.com/33_33132/16700250.html”

def get_content(url):
nodes = \’\’;
html_doc = requests.get(url).content.decode(\’gbk\’)
# 网站地址编码
tree = etree.HTML(html_doc)
# http://www.shuangxiniao.com下一章地址
url = tree.xpath(\’//*[@id=”wrapper”]/div[4]/div/div[4]/a[4]//@href\’)[0]
url = \’https://www.biquga.com/\’ + url
# http://www.hiry.cn章节标题
node_title = tree.xpath(\’//*[@id=”wrapper”]/div[4]/div/div[2]/h1//text()\’)[0]
# http://www.qijihu.com小说内容
node_content = tree.xpath(\’//*[@id=”content”]//text()\’)

nodes += node_title
nodes += \’\n\n\’
for node in node_content:
node = node.strip(\’\r\’)
nodes += node
nodes += \’\n\n\’
print(node_title)
filename = \’./全职妙手.txt\’
with open(filename,\’a+\’, encoding=\’utf-8\’) as f:
f.write(nodes)
if re.search(\’.html\’, url) != None:
get_content(url)

get_content(url)

版权声明：本文为blogst原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/blogst/p/10407394.html

python爬虫小说代码，可用的的更多相关文章

随机推荐

SolrJ 复杂查询高亮显示
SolrJ 复杂查询高亮显示上一章搭建了Solr服务器和导入了商品数据，本章通过SolrJ去学习Solr在 […]...
Tomcat常用的过滤器
前言　　之前我很肤浅的以为为了实现某种请求过滤功能（比如图片转换、文件上传、安全认证等），都需要自己去实现j […]...
JS（原生js和jq方式）获取元素属性（自定义属性），删除属性（自定义属性）
JS（原生js和jq方式）获取元素属性（自定义属性），删除属性（自定义属性）以下内容：一、获取元素的属性 […]...
Android 国内应用市场的汇总
2010年在国内出现了Android系统智能机的大规模发展，而应用商城也在火拼起来，下面我推荐一下国内Andr […]...
atom及其插件activate-power-mode下载安装
Atom是Github推出的一个文本编辑器，其中包含很多插件可以自行下载安装，其中一个最近比较火的就是插件ac […]...
『最大M子段和线性DP』
最大M子段和(51nod 1052) Description N个整数组成的序列a[1],a[2],a[3], […]...
【C#】支持私聊、多人聊天、图片发的TCP程序
使用c#平台的winform编写一个tcp多人聊天程序，包括一对一、广播，支持图片发送接收碎碎念先谈谈我们 […]...
django实战商城项目注册业务实现
设计到的前端知识项目的前端页面使用vue来实现局部刷新，通过数据的双向绑定实现与用户的交互，下面来看一下需求 […]...

展开目录

目录导航