python爬取豆瓣小组700+话题加回复啦啦啦python open file with a variable name

vivivi 2021-08-07 原文

需求：爬取豆瓣小组所有话题（话题title，内容，作者，发布时间），及回复（最佳回复，普通回复，回复_回复，翻页回复，0回复）

解决：1. 先爬取小组下，所有的主题链接，通过定位nextpage翻页获取总过700+条话题；

2. 访问700+ 链接，在内页+start=0中，获取话题相关的四部分（话题title，内容，作者，发布时间），及最佳回复、回复；

3. 在2的基础上，判断是否有回复，如果有回复才进一步判断是否有回复翻页，回复翻页通过nextpage 获取start=100、start=200的页；

4. 进入下一个爬取函数，将抓取的回复续写到2 中的文件；

解决思路：

Before：一开始建立2个文件，article.txt 用来存储所有话题相关的内容（700+话题、作者信息）；

同时，建立以title命名的回复文件；

After: 统一建立以话题title命名的文章，先写入文章相关内容，再续写回复；这样方便读取；

遇到的坑：

1. 要获取某个div下直接的text，div.span下的text，div.h下的text：

——有2个解决方法：

A. 通过xpath //text，意思是获取div 下的所有text文件；

B. 通过css 拼接，逗号隔开即可：

2. 巩固了不同函数之间通过meta传递参数的方法：

3. python open file with a variable name

f = open(\’%s.txt\’ % title_end,\’a\’)

a: 续写

4.去掉 str 中的空格，换行等符号

# 去掉在x左右的空白,\t,\n和\r字符.
 x1 = x.strip(\' \t\n\r\')

5 . strip 去掉数据中的\r，\’\’.join 将列表转回字符串；

# 先将文章中的\r 都去掉，有些单独的\'\r\' 就变成了空的列表元素：\'\'，再用if 来判断下就好了
        artical_end = []
        for x in  article:
            x1 = x.replace(\'\r\',\'\')
            if x1 != \'\':
                artical_end.append(x1)
# 将artical_end 列表 转为字符串
        ar =\'\'.join(artical_end)

版权声明：本文为vivivi原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/vivivi/p/7156439.html

python爬取豆瓣小组700+话题加回复啦啦啦python open file with a variable name的更多相关文章

A – 汽车加油问题(贪心)
Description 一辆汽车加满油后可行驶n公里。旅途中有若干个加油站。设计一个有效算法，指出应在哪些加油 […]...
Callback with event and delegate over .net remoting – WebQ
Callback with event and delegate over .net remoting […]...
论文翻译：Audio Bit Depth Super-Resolution with Neural Networks
Audio Bit Depth Super-Resolution with Neural Networks 能 […]...
解决npm报错：Module build failed: TypeError: this.getResolve is not a function
解决npm报错：Module build failed: TypeError: this.getResolve […]...
maven docker 插件集成的几个小坑
昨晚看springboot视频的时候，发现可以使用docker-maven-plugin这个插件直接build […]...
社会地位即服务, Status as a Service (一): 社交网络是一种 ICO 行为？
上周，看到 Eugene Wei 又发了一篇长文，Status as a Service (StaaS)。状态 […]...
Debugging with GDB
一： GDB是GNU开源组织发布的一个强大的程序调试工具（UNIX WINDOWS都可以）。一般来说，GDB […]...
D-Unet: A Dual-encoder U-Net for Image Splicing Forgery Detection and Localization
题目：D-Unet: A Dual-encoder U-Net for Image Splicing Forg […]...

随机推荐

在线生成Web2.0 logo
准备好重构你的logo 2.0了吗？ Web2.0的风格你又掌握了多少？http://h-master.net […]...
Redis 集合统计（HyperLogLog）
统计功能是一类极为常见的需求，比如下面这个场景：为了决定某个功能是否在下个迭代版本中保留，产品会要求统计页面 […]...
关于python 的http 日常操作
20190430更新重要的内容放在最前面，本地调试好的程序要放公网服务器上，怎么就不好用了呢？服务也启动了， […]...
单例模式–Java
前言本片博客主要记录Java23种设计模式中的创建型模式中的单例模式。单例模式可分为两类，一种是饿汉式，一种是懒汉式。饿汉式的三种设计方式（静态变量方式、静态代码块方式、枚举方式），懒汉式（单锁检查方式、双锁检查方式、静态内部类方式），...
调用spark API，监控任务的进度
我们现在需要监控datapre0这个任务每一次执行的进度，操作如下： 1. 如图所示，打开spark管理页面， […]...
[ASP.NET Core 3框架揭秘] 跨平台开发体验: Windows [中篇]
我们在《上篇》利用dotnet new命令创建了一个简单的控制台程序，接下来我们将它改造成一个ASP.NET […]...
Java truelicense 实现License授权许可和验证
文章目录前言一、使用场景以及truelicense是什么二、原理三、使用Keytool命令生成密钥对四、实现代码 - 证书生成五、测试 - 证书生成六、代码实现 - 证书安装和校验七、测试 - 证书的安装和校验八、执行代码期间遇到的问题九...
ActiveMQ入门介绍
1.JMS简介 JMS的全称是Java Message Service，即Java消息服务。它主要用 […]...