Python爬虫知乎文章，采集新闻60秒

greensunit 2021-04-07 原文

前言

发现很多人需要新闻的接口，所以自己去搜索了下，发现知乎上正好有对应的用户每天发布新闻简讯，所以自己想写一个新闻的爬虫。如果想做成接口的话，可以加上flask模块即可，这里就暂时只进行爬虫部分的编写。

目标站点

网址：https://www.zhihu.com/people/mt36501
通过这个网址进去，我只想要今天的内容，所以还要进行过滤。

开始编写代码

# 导入要使用的库
import requests, re, time
# 目标网址
url = 'https://www.zhihu.com/people/mt36501'
# 模拟请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                  'Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362',
    'Accept': 'image/png, image/svg+xml, image/*; q=0.8, */*; q=0.5',
}
# 请求网址返回内容
resp = requests.get(url,headers=headers).text
# 过滤标题
h2 = re.findall(r'<h2 class="ContentItem-title">.*?</h2>', resp, re.S)
# 遍历每一个标题，因为发现有时候会发与新闻不想关的内容
for i in h2:
    # 获取当前日期
    now_time = time.strftime("%#m月%#d日", time.localtime())
    # 过滤出链接
    link = re.findall(r'href="(.*?)"', str(i), re.S)[0]
    # 过滤出标题
    title = re.findall(r'Title">(.*?)</a>', str(i), re.S)
    # 如果为空跳过
    if title == []:
        continue
    else:
        # 获取文章的日期
        title = str(title[0]).split('，')[0]
        # 文章日期与当前日期比较
        if title == now_time and link != '':
            #print(title, link)
            # 如果日期为今天，请求对应的网址，获取对应文章的内容
            con_resp = requests.get('https:' + link, headers=headers).text
            # 只要我们想要的内容，并过滤掉一些字符
            p = re.findall(r'<p>(.*?)</p>', con_resp.replace('"', '"').replace('&amp;', '&'), re.S)
            sum = 0
            text = ''
            # 遍历每一条获取到的新闻赋值给text
            for index, i in enumerate(p):
                sum += 1
                if sum == 1 | sum == 3:
                    continue
                    print(i)
                elif i == '':
                    print(i)
                    continue
                else:
                    if index == len(p) - 1:
                        text += i
                    else:
                        text += i + '\n\n'
print(text)

版权声明：本文为greensunit原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/greensunit/p/14630111.html

Python爬虫知乎文章，采集新闻60秒的更多相关文章

【Django】有关多用户管理的一点小经验分享
前言最近，笔者因为需要开发一个系统作为毕设的展示，因此就产生了有关多用户管理的问题。在这里我把自己的需求重新 […]...
python 的深浅拷贝问题
深浅拷贝概念基本类型和引用类型数据拷贝的问题。因为基本类型的数据大小是固定的，所以他保存在栈内存中；而引用类 […]...
python十行代码实现文件去重，去除重复文件的脚本
导入依赖 '''导入依赖''' from pathlib import Path import filecmp […]...
RSA算法在Python Django中的简单应用
说明 RSA算法是当今使用最广泛，安全度最高的加密算法。 • RSA算法的安全性理论基础 [引]根据百科介绍， […]...
码农眼中的数学之～矩阵专栏（附Numpy讲解）
2.矩阵专栏¶ 吐槽一下：矩阵本身不难，但是矩阵的写作太蛋疼了 (⊙﹏⊙)汗还好有Numpy，不然真的崩 […]...
python-网络-udp
python-网络-udp 标签（空格分隔）： python 开发环境:windows Pycharm+pyt […]...
爬虫工程师常用的 Chrome 插件
做多了爬虫都知道，写一个爬虫大部分时间不是在代码上，而是在分析网页上，所有有一套好用的工具可以极大节省劳动力， […]...
Python 之网络编程——SOCKET开发
Python 之网络编程——SOCKET开发一、预备知识对于我们，主要掌握5层协议就行。物理层：　　转 […]...

随机推荐

如何设计一个牛逼的API接口
在日常开发中，总会接触到各种接口。前后端数据传输接口，第三方业务平台接口。一个平台的前后端数据传输接口一般都会 […]...
独家解读 | 2018 恶意机器流量报告
**本文由腾讯防水墙发表在腾讯云+社区 ** Distil Networks 对 2017 年网络数千个域名， […]...
使用springboot创建商城系统
首先，恭喜自己（伪）独立完成了一个包括后台管理和前端商城的（简陋至极的）商城系统。在这一过程中，我最主要的问 […]...
混淆矩阵（confusion_matrix）含义
混淆矩阵 1.混淆矩阵是机器学习中总结分类模型预测结果的情形分析表，以矩阵形式将数据集中的记录按照真实的类别与 […]...
超好用的文件转换神器！拿走不谢~
前言你有没有过别人发的视频自己打不开的尴尬？你有没有过别人发的电子书自己看不了的尴尬？仅仅因为自己的设备不兼 […]...
MySQL性能优化:分表、增量备份、还
对表进行水平划分如果一个表的记录数太多了，比如上千万条，而且需要经常检索，那么我们就有必要化整为零了。如果 […]...
Android开发之漫漫长途 IX——彻底掌握Binder
该文章是一个系列文章，是本人在Android开发的漫漫长途上的一点感想和记录，我会尽量按照先易后难的顺序进行编 […]...
const和指针
1. 指针指向常量对象，可以防止使用该指针来修改所指向的值(可以将指针指向别的变量) 首先，声明一个指向常量的 […]...

展开目录

目录导航