介绍一款好用又易学的爬虫工具：web scraper

jscs 2021-11-23 原文

文章目录

web scraper

简介：

使用说明

web scraper

简介：

Web Scraper分为chrome插件和云服务两种，云服务是收费的，chrome插件是免费的，这里说的就是chrome插件这种。
Web Scraper插件，可以让你以“所见即所得”的方式挑选要提取的网页数据，形成模版，以后可以随时执行该模版，并且执行结果可以导出成Csv格式。
web scraper 比较类似selenium和火车头浏览器，不过web scraper功能要少的多，不过更加小巧，学习成本更低

优点

抓取需要登录的数据较方便，因为这个插件是运行在浏览器上的。
只要抓取频率慢一点，被网站屏蔽的概率较小，也因为是浏览器的原因，这就像是真实的用户访问一样。
学习成本低

缺点

好像并不能做验证码识别
抓取效率较低，相对于爬虫程序来说，Web scraper没法大并发，快速切换IP等，所以大量级的数据抓取用Web Scrpaer不适合，慢慢抓大几千网页还是可以。
插件本身是不支持配置定时任务的，云服务提供了这种功能，不过是收费的，到是可以尝试使用Python驱动谷歌来进而来操作web scraper的定时

下载地址：

https://www.webscraper.io/

crx文件：jnhgnonknehpejjnehehllkliplmbmhn_0_2_0_18.crx

操作

安装

谷歌浏览器

打开google浏览器，进入应用
点击网上应用商店
输入框搜索web scraper，点击添加到chrome
安装完成

火狐浏览器

点击右上角的菜单按钮，然后点击进入web开发者
点击获取更多工具
在搜索框里输入web scraper进行搜索
点击添加到 Firefox

使用说明

进入谷歌浏览器，按F12进入开发者模式
安装好web scraper插件之后呢，会在最后出现web scraper标示
点击进入web scraper
首先，我们点击create new sitemaps –>create sitemaps，来创建一个爬虫项目
输入爬虫名称和需要采集的url，点击创建项目
点击Add new selector创建一个选择器
配置相关参数
运行爬虫，查看数据

版权声明：本文为jscs原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/jscs/p/13663592.html

介绍一款好用又易学的爬虫工具：web scraper的更多相关文章

Web Scraper 翻页——抓取分页器翻页的网页（Web Scraper 高级用法）| 简易数据分析 12
这是简易数据分析系列的第 12 篇文章。前面几篇文章我们介绍了 Web Scraper 应对各种翻页的解决方 […]...
Web Scraper 的下载与安装 | 简易数据分析 02
web scraper 的好处有这几个：1. 门槛足够低，只要你电脑上安装了 Chrome 浏览器就可以用 2 […]...
Web Scraper 翻页——利用 Link 选择器翻页 | 简易数据分析 14
这是简易数据分析系列的第 14 篇文章。今天我们还来聊聊 Web Scraper 翻页的技巧。这次的更新是 […]...
web scraper 抓取数据并做简单数据分析
其实 web scraper 说到底就是那点儿东西，所有的网站都是大同小异，但是都还不同。这也是好多同学总是遇 […]...
Web Scraper 翻页——控制链接批量抓取数据
![](https://image-1255652541.cos.ap-shanghai.myqcloud.c […]...
Web Scraper 高级用法——抓取属性信息 | 简易数据分析 16
这期课程我们讲一个用的较少的 Web Scraper 功能——抓取属性信息这是简易数据分析系列的第 16 篇 […]...
简易数据分析 10 | Web Scraper 翻页——抓取「滚动加载」类型网页
这是简易数据分析系列的第 10 篇文章。友情提示：这一篇文章的内容较多，信息量比较大，希望大家学习的时候多看 […]...
web scraper 抓取网页数据的几个常见问题
如果你想抓取数据，又懒得写代码了，可以试试 web scraper 抓取数据。相关文章：最简单的数据抓取教程 […]...

随机推荐

Openstack从入门到放弃
目录云计算归档： 1.了解： 2.KVM命令： 3.云技术基础架构服务平台搭建 3.1基础环境搭建： 3.2 […]...
APP——功耗测试（耗电测试）——adb命令复杂获取分析
查看手机电量信息：adb shell dumpsys battery 设置电池为充电状态——adb shell […]...
深入理解Java并发框架AQS系列（五）：条件队列（Condition）
深入理解Java并发框架AQS系列（一）：线程深入理解Java并发框架AQS系列（二）：AQS框架简介及锁概念 […]...
spring框架基础笔记
认识 Spring 框架 Spring 框架是 Java 应用最广的框架，它的成功来源于理念，而不是技术本身， […]...
程序员可以为钱工作，但别为钱卖命
我知道有很多人进互联网行业或者是成为程序员，都是为了心中的一厢热情，或者是为了行业的高薪资，高福利等等。但是 […]...
面试官：换人！他连哈希扣的都不懂
前言相信你面试的时候，肯定被问过 hashCode 和 equals 相关的问题。如： hashCode […]...
wireshark无法捕获无线网卡数据解决办法(failed to set hardware filter to promiscuous mode) – 94cool
wireshark无法捕获无线网卡数据解决办法(failed to set hardware filter t […]...
.NET 在信创常用软件适配清单之中？
2020年8月份写了一篇文章《.NET Core也是国产化信息系统开发的重要选项》，这又过去了大半年了，在信 […]...

展开目录

目录导航