用nodejs实现简单爬虫

maorongmaomao 2018-05-03 原文

前言

本喵最近工作中需要使用node，并也想晋升为全栈工程师，所以开始了node学习之旅，在学习过程中，

我会总结一些实用的例子，做成博文和视频教程，以实例形式来理解体会node的用法，所以跟小猫一起由浅及深的学node吧！

近期都会是些基础文章，主要用来了解node的各种功能，非常适合对node有所了解但没有开发node基础的前端工程师，

等基础掌握后，后续会进行进阶的探索和总结哟

本文将以抓取百度搜索结果中关键词的相关搜索为例子，教会大家以nodejs制作最简单的爬虫：

将使用的node模块及属性介绍：

request：

用于发送页面请求，抓取页面代码

GET请求

cheerio：

cheerio 是一个 jQuery Core 的子集，其实现了 jQuery Core 中浏览器无关的 DOM 操作 API：

本例子中将使用load方法，以下是一个简单的示例：

express：

基于Node.js 平台,快速、开放、极简的 web 开发框架，这里主要用来做简单的路由功能，就不做详细介绍了，主要是用了get，具体可以参考官网。

具体实现：

1.首先，我们要使用express搭建简单的node服务

使用命令行运行node demo.js,并在浏览器中访问 localhost:3000/key 运行结果为

2. 使用request实现页面抓取功能

使用命令行运行node demo.js,并在浏览器中访问 localhost:3000/key 运行结果为

3.使用cheerio将页面代码解析为jquery格式，并用jQuery语法找到抓取的内容位置，这样这个爬虫就实现了！

想要知道具体的解决方案，请关注我的公众号哦～回复 “node爬虫”获取原文哟

公众号：喵呜轻语

使用命令行运行node demo.js,并在浏览器中访问 localhost:3000/index 运行结果为

tips：

有些网站不是utf-8编码模式，这时可以使用iconv-lite来解除gb2312的乱码问题

当然各个网站都有反爬虫功能，可以通过研究怎么模拟一个正常用户的请来规避部分问题（百度的中文搜索也会被屏蔽）

本文只是个入门，后序有机会将和大家详细讨论进阶版

本文链接：https://www.cnblogs.com/maorongmaomao/p/8987972.html

用nodejs实现简单爬虫的更多相关文章

JavaScript 产生不重复的随机数三种实现思路

在 JavaScript 中，一般产生的随机数会重复，但是有时我们需要不重复的随机数，如何实现?本文给于解决方 […]...

js网页返回顶部和楼层跳跃的实现原理

这是简单的效果图。（实现楼层间的跳跃，主要依靠的是 window.scrollTo(x,y)方法 […]...

javaScript之数组操作方法（一）

　　本篇文章主要总结了几个简单的数组操作方法。数组就是一组数据的集合，接下来我们就了解一下几种数组的操作方法。 […]...

用Decorator控制Koa路由

在Spring中Controller长这样 @Controller public class HelloCon […]...

javascript 理解和使用回调函数

在javascript中，function是内置的类对象，也就是说它是一种类型的对象，可以和其他String、 […]...

javascript 词法结构小结

　　作为一名前端程序员，自然学习了一些框架，但是学的越多越发现自己基础的不足，于是想系统的学习一下js基础，然 […]...

基本数据类型和引用类型

js将数据类型分为基础类型和引用类型，通俗地讲，基础类型都是单一结构，而引用类型都可以看做对象，即复合结构。二 […]...

如何查看jsplumb.js的API文档(YUIdoc的基本使用)

目录一.问题描述二. 处理方法三. YUIdoc工具介绍示例代码托管在：http://www.gith […]...

随机推荐

新手如何学习java(java学习建议路线图)

怎么学习Java，这是很多新手经常会问我的问题，现在我简单描述下一个Java初学者到就业要学到的一些东西： […]...

Weka中BP神经网络的实践（参数调整以及结果分析）

废话：周日讲了下神经网络，本来想的是以理论和实践相结合，前面讲讲神经网络，后面简单讲下在weka中怎么使用B […]...

SOAP对接JAVA接口

//工具SoapUI<soapenv:Envelope xmlns:soapenv="http://sc […]...

手撸了一个HTTP框架：支持Sprng MVC、IOC、AOP，拦截器，配置文件读取…

https://github.com/Snailclimb/jsoncat ：仿 Spring Boot 但不 […]...

如何成为一名PM（转载）

产品经理需要的品质分为以下几方面(按优先级排序) 1. sense 对产品要有感觉, 了解用户喜欢做什么, […]...

ES6学习笔记（二）：教你玩转类的继承和类的对象

继承程序中的继承：子类可以继承父类的一些属性和方法 class Father { //父类 constru […]...

关于 SONY WF1000XM3 在 Windows 10 下蓝牙连接只有 Handfree 没有 Stereo 模式

应该是驱动适配问题，目前粗暴的解决方案貌似下载安装一个 Intel APTX 驱动就可以了： https:// […]...

深入浅出–梯度下降法及其实现

梯度下降的场景假设梯度梯度下降算法的数学解释梯度下降算法的实例梯度下降算法的实现 Further re […]...

用nodejs实现简单爬虫

用nodejs实现简单爬虫的更多相关文章

随机推荐

热门专题

目录导航