python爬虫之获取页面script里面的内容

mm20 2021-09-19 原文

这是网页上的script 我要获取的是00914这个数字直接使用正则表达式即可

运行结果：

源码：

import re
from bs4 import BeautifulSoup
from urllib.request import urlopen
url = "你要解析的网页URL"
html = urlopen(url).read()
soup = BeautifulSoup(html,"html.parser")
titles = soup.select("body  script") # CSS 选择器
i = 1
for title in titles:
    if i == 3:
     #print(title.get_text())# 标签体、标签属性
     str=title.get_text()
     break
    if i == 2:
        i = 3
    if i == 1:
        i = 2

print(str)
str1 = "\"\"\""+"<script>"+str+"</script>"+"\"\"\""
soup = BeautifulSoup(str1, "html.parser")
pattern = re.compile(r"var _url = \'(.*?)\';$", re.MULTILINE | re.DOTALL)
script = soup.find("script", text=pattern)
#print (pattern.search(script.text).string)
s = pattern.search(script.text).string
print (s.split(\'\\'\')[11])

本文链接：https://www.cnblogs.com/mm20/p/10362963.html

随机推荐

常见爬虫/BOT对抗技术介绍（一）

爬虫，是大家获取互联网公开数据的有效手段。爬虫、反爬虫技术、反-反爬虫技术随着互联网的不断发展，也在不断发 […]...

关于 RGB 的颜色认知

1.每一个像素都有自己的颜色，而每一种颜色都可以由RGB3色素组成。对应的是（红，绿，蓝）。 2.像素的颜色组 […]...

扫描类APP推荐

扫描全能王 (com.intsig.camscanner) – 5.10.0.20190426 & […]...

利用dotnet-dump分析docker容器内存泄露

目录一运行官方示例 1,Clone代码并编译 2,创建Dockerfile构建镜像 3,启动容器二生成 […]...

ROS中的机器人通信

目录： ROS通信 ROS中的多机器人通信　　1.单个roscore和公共网络　　2.群组/名称空间的使 […]...

roles

　　 nginx 官方下载 [root@ansible roles]# tree yngx y […]...

架构设计：分布式结构下，服务部署发布

分布式系统架构下，服务发布是一件很麻烦的事情，特别是在构建自动发布流程和灰度测试的策略两个核心方面。通常情况下 […]...

Map端数据倾斜

Map端数据倾斜 MapReduce任务的数据倾斜一般指的是Reduce端数据倾斜，Map端怎么还会出现数据倾 […]...

python爬虫之获取页面script里面的内容

python爬虫之获取页面script里面的内容的更多相关文章

随机推荐

热门专题

目录导航