python爬虫爬取58同城商品信息

november1943 2021-09-02 原文

title: python爬虫爬去58同城二手平板电脑信息
tags: python,爬虫
grammar_cjkRuby: true

爬去http://bj.58.com/pbdn/0/pn2/中除转转、推广商品以外的产品信息

# coding:utf-8
# 爬取58同城二手电脑信息
# 进入http://bj.58.com/pbdn/0/pn2/页面
# 爬取列表中除转转、推广商品外的正常商品
from bs4 import BeautifulSoup
import requests
import time
def get_links_from(who_sells):  # 爬取列表中除转转、推广商品外的正常商品爬取列表中除转转、推广商品外的正常商品的连接
    urls = []
    list_view = \'http://bj.58.com/pbdn/{}/pn2/\'.format(str(who_sells))
    wb_data = requests.get(list_view)
    soup = BeautifulSoup(wb_data.text, \'lxml\')
    # 通过对页面分析 发现商品链接在 tr > td.t > a.t 中
    for link in soup.select(\'tr td.t a.t\'):
        if len(link.get(\'href\').split(\'?\')[0]) == 53: # 因为转转商品也符合 tr > td.t > a.t,要排除，观察发现正常商品链接
            # 的长度为53, 可通过字符串长度筛选去正常的连接
            urls.append(link.get(\'href\').split(\'?\')[0])
    return urls
def get_views(url):
    id = url.split(\'/\')[-1].strip(\'x.shtml\')
    api = \'http://jst1.58.com/counter?infoid={}\'.format(id)
    js = requests.get(api)
    views = js.text.split(\'=\')[-1]
    return views
def get_item_info(who_sells=0): #
    urls = get_links_from(who_sells)
    for url in urls:
        time.sleep(2)
        web_data = requests.get(url)
        soup = BeautifulSoup(web_data.text, \'lxml\')
        data = {
            \'title\': soup.title.text,
            \'price\': soup.find_all(\'span\', \'price c_f50\')[0].text,
            \'area\': list(soup.select(\'.c_25d\')[0].stripped_strings) if soup.find_all(\'span\',\'c_25d\') else None,
            \'date\': soup.select(\'.time\')[0].text,
            \'cate\': \'个人\' if who_sells == 0 else \'商家\',
            \'views\': get_views(url)
        }
        print(data)
get_item_info()

版权声明：本文为november1943原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/november1943/p/5242490.html

python爬虫爬取58同城商品信息的更多相关文章

Python爬虫 | lxml解析html页面
一、简介 1.下载：pip install lxml 推荐使用douban提供的pipy国内镜像服务，如果想手 […]...
Python爬虫入门教程 7-100 蜂鸟网图片爬取之二
简介今天玩点新鲜的，使用一个新库 aiohttp ，利用它提高咱爬虫的爬取速度。安装模块常规套路 pip […]...
爬虫原理
世界上80%的爬虫是基于python开发的,学好爬虫技能,对后续的大数据分析,挖掘,机器学习提供重要的数据源 […]...
Python JSON的基本使用
Python JSON的基本使用一、json格式介绍 JSON(JavaScript Object Nota […]...
python socket函数详解
关于socket函数，每个的意义和基本功能都知道，但每次使用都会去百度，参数到底是什么，返回值代表什么意义，就 […]...
Python 3网络爬虫开发实战中文PDF+源代码+书籍软件包(免费赠送)+崔庆才
Python 3网络爬虫开发实战中文PDF+源代码+书籍软件包+崔庆才下载：链接：https://pan. […]...
使用Python终结“你是什么垃圾”的灵魂拷问！
目录 0 引言 1 环境 2 需求分析 3 代码实现 4 后记 0 引言纸巾再湿也是干垃圾？瓜子皮再干也是湿 […]...
python3csv与xlsx文件操作模块（csv、xlsxwriter）
一、csv模块实现csv文件操作 1、CSV介绍 CSV，全称为Comma-Separated Values, […]...

随机推荐

[Ubuntu18]桌面美化-仿MAC主题
心得:可以先把需要的资源下载下来,然后再进行配置主题下载地址: https://www.gnome-loo […]...
8 张脑图入门 JavaScript – 基础面试不倒
8 张脑图入门 JavaScript – 基础面试不倒转载请注明出处第一：JavaScript […]...
用户画像学习笔记
一用户画像简介 • 用户画像，即用户信息标签化，通过收集用户社会属性、消费习惯、偏好特征等各个维度数据， […]...
类加载过程
类加载过程 Class 文件需要加载到虚拟机中之后才能运行和使用，那么虚拟机是如何加载这些 Class 文 […]...
软件安装管家
点击：通往软件安装的世界...
dell新服务器安装系统
dell新服务器安装系统公司新采购的dell 630服务器,但是第一次安装操作系统的时候比较麻烦,每次都要重 […]...
【转】Impala安装json解析udf插件
背景 Impala跟Hive一样，是常用的数据仓库组件之一。熟悉Hive的同学肯定知道，Hive官方提供了ge […]...
写了那么多年 Java 代码，终于 debug 到 JVM 了
继上篇文章原创 | 全网最新最简单的 openjdk13 代码编译之后，我们有了自己编译后的 jdk 和 […]...