R爬虫（rvest）

匿名 2021-08-03 原文

基于R

相信自己，每天多学一点。

温故而知新，如有错误请指正。

东方玄学，总是充满了神奇的。

（一本正经的背景：射手座水逆的很严重啊= = ）

（好吧，就是闲的没事想找找周易玄学的书了）= =

这次用到了R包中的爬虫weapon之一 rvest。

爬虫的网站是当当网（书的资源比较舒服，爬的也舒服~~）

首先是导入包

首页的网址：http://category.dangdang.com/pg1-cp01.28.01.17.00.00.html

在这里我们其实已经可以找找规律了，页码在pg后位数字表示，

然后在查看源码，会发现在html中我们所需要的信息都已经包括了（不愧是超文本~~）

这里，我们直接可以read_html

结果会得到很多一串的东西，就是之前看到的源码

这里我们可以直接看标签正则取出来我们需要的东西的

最后直接整理一下，作为数据框返回就好了~

好吧，其实到这里，mission completely~~~

但是还有一个问题的，这只是爬取了第一页的数据的，那么要是想爬取多个应该怎么办呢？

好吧，这个也很简单的。

循环搞定。

这里，我会先把上面的爬取的东西集合，作为一个自定义函数，如下：

下面，直接写一个for循环解决问题。

下面，没然后了，想写出为csv也行，随便咯~

我这边是写出为csv了~

看一下效果~

好啦，今晚就稍微皮一下就好了~~

溜了溜了~

本文链接：

随机推荐

centos7.4下离线安装CDH5.7

（一）安装前的规划（1）操作系统版本：centos7.4（64bit） [root@hadoop22 etc […]...

用Javascript跨平台开发手机Native App

实践了下Moscrif，就是那个javascript开发native app的解决方案。与PhoneGap等 […]...

excel中常用函数，方法

Excel：添加或取消删除线：选中-右击-设置单元格格式-字体-选项”页面找到“特殊效果”模块，点击“删除线” […]...

移动端测试

移动端测试移动端功能测试：一、安卓和IOS区别： 1.操作角度： 1）安卓：安卓home键– […]...

win10 JDK安装

1、官网下载JDK；一、JDK下载与安装 JDK下载网站（甲骨文官网）： http://www.oracle […]...

深入浅出了解frame和bounds

frame frame的官方解释如下： The frame rectangle, which describe […]...

阿里巴巴实习生笔试题目

用Java代码模拟实现：一个人不断往箱子里放苹果，另一个人不断从箱子里取苹果，箱子只能放5个苹果，苹果数量无限 […]...

linux环境下的python安装过程(含setuptools)

这里我不想采用诸如ubuntu下的apt-get install方式进行python的安装，而是在linux下 […]...

R爬虫（rvest）

R爬虫（rvest）的更多相关文章

随机推荐

热门专题

目录导航