Python简单爬虫入门一

cookie1026 2021-12-09 原文

为大家介绍一个简单的爬虫工具BeautifulSoup

BeautifulSoup拥有强大的解析网页及查找元素的功能本次测试环境为python3.4（由于python2.7编码格式问题）

此工具在搜索你想爬的数据匹配的方式就是html标签嵌套的顺序(html介绍在其它随笔内）

首先来聊聊BeautifulSoup的安装pip install python-bs4 包含BeautifulSoup方法

再来安装依赖工具requests和解析格式lxml下载安装包解压进入目录 python setup.py install此方法是请求服务

先来写一个简单的网页解析代码如下:

#!/usr/bin/env python
# -*- coding:utf-8 -*-

from bs4 import BeautifulSoup
import requests


headers = {
    \'User-Agent\':\'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36\',
}
url = "http://www.jd.com/"

wb_data = requests.get(url,headers=headers)
soup = BeautifulSoup(wb_data.text,\'lxml\')
print(soup)

来简单说明下每行代码得作用:

from从bs4库里import导入BeautifulSoup方法

import导入requests方法

headers表示头文件，伪装成浏览器浏览网页，当然我这里写得简单还没写全

url网页地址

wb_data网页数据requests.get请求访问(url网页京东,headers伪装的头文件）

soup解析后的数据BeautifulSoup解析数据(wb_data网页数据,lxml解析的格式按这个要求解析)

print答应soup解析后的网页数据也就是网页源代码如下由于网页源代码很长所以这里截图只能显示一部分

学好基础包括html的结构标签的嵌套还有CSS的名字在网页位置等后教你们怎么去抓电影等网站并且把内容归类好方便查阅

下面是我抓去某电影网站的数据及归类效果掩饰：

本文链接：https://www.cnblogs.com/cookie1026/p/6065384.html

创建HelloWorld项目如果是第一次，会经过漫长的等待。启动模拟器可以用第三方模拟器，也可以用官方集 […]...

django-枚举类型扩展方法

django-枚举类型扩展方法原文地址：https://docs.djangoproject.com/en/ […]...

CentOS安装noVNC，以Web方式交付VNC远程连接

什么是noVNC noVNC 是一个 HTML5 VNC 客户端，采用 HTML 5 WebSockets, […]...

React生命周期

React生命周期自从React发布Fiber之后，更新速度日新月异，而生命周期也随之改变，虽然原有的一些生 […]...

LabVIEW入门第五天（如何开始写一个程序—点灯程序）

LabVIEW入门第五天欢迎大家阅读本篇文章，今天给大家介绍LabVIEW入门的第一个程序，欢迎有兴趣的一起 […]...

ARM处理器差异浅析

1、ARM处理器解析　　ARM9、ARM11是哈佛结构，5级流水线结构，所以性能要高一点。ARM9和ARM11 […]...

淘宝API的使用例子

http://hi.baidu.com/kalada/item/b1b49827902892140975086 […]...

git命令清单

一、新建代码库 # 在当前目录新建一个Git代码库 $ git init # 新建一个目录，将其初始化 […]...

Python简单爬虫入门一

为大家介绍一个简单的爬虫工具BeautifulSoup

Python简单爬虫入门一的更多相关文章

随机推荐

热门专题

目录导航