欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~

本文由腾讯云实验室发表于云+社区专栏

腾讯云提供了开发者实验室教你搭建 PySpider 爬虫服务,教程内容如下,用户可以点击开发者实验室快速上机完成实验。

任务时间:5min ~ 10min

在开始部署前,我们需要做一些前置准备。

yum 更新

  1. yum update -y

安装开发编译工具

  1. yum install gcc gcc-c++ -y

安装依赖库

  1. yum install python-pip python-devel python-distribute libxml2 libxml2-devel python-lxml libxslt libxslt-devel openssl openssl-devel -y

升级pip

  1. pip install --upgrade pip

该步骤可选,但为了部署的稳定性,推荐执行

该步骤耗时可能较长(5~10min),请耐心等待

任务时间:10min ~ 20min

由于 CentOS 7 中 MySQL 数据库已从默认的程序列表中移除,我们使用 mariadb 代替。

  1. yum install mariadb-server mariadb -y
  1. systemctl start mariadb

默认的root用户密码为空,你可以使用以下命令来创建 root 用户的密码:

(该步骤也可以跳过,password 后的 Password 可以改为任何你希望设置的密码)

  1. mysqladmin -u root password "Password"

现在你可以尝试通过以下命令来连接到 Mysql 服务器

  1. mysql -u root -p

然后输入您刚才设置的密码 ( 默认:Password ),如果一切正常,您应该可以在命令行看到以 MariaDB [(none)]>mysql> 开头的提示了,说明连接成功。

此时输入 SHOW DATABASES; 并回车,应该可以看到类似下面这样的输出,说明一切正常。

  1. mysql> SHOW DATABASES;
  2. +----------+
  3. | Database |
  4. +----------+
  5. | mysql |
  6. | test |
  7. +----------+
  8. 2 rows in set (0.13 sec)

完成后,可以通过快捷键 Ctrl+C 或命令行键入 exit 来退出,进入下一步。

如果您未设置密码,直接使用 mysql 即可

任务时间:10min ~ 20min

  1. wget http://download.redis.io/redis-stable.tar.gz
  1. tar -xzvf redis-stable.tar.gz
  1. mv redis-stable /usr/local/redis
  1. cd /usr/local/redis
  2. make
  3. make install
  1. mkdir -p /etc/redis
  2. cp /usr/local/redis/redis.conf /etc/redis/redis.conf

修改 /etc/redis/redis.conf 文件的 daemonize 配置项为如下:

  1. daemonize yes
  1. /usr/local/bin/redis-server /etc/redis/redis.conf

任务时间:10min ~ 20min

  1. pip install --upgrade chardet
  2. easy_install mysql-connector==2.1.3
  3. easy_install redis
  1. pip install pyspider

首先创建配置目录

  1. mkdir /etc/pyspider

然后 /etc/pyspider 目录下创建 pyspider.conf.json,参考下面的内容。

具体配置的说明文档请参考 官方文档

  1. {
  2. "taskdb": "mysql+taskdb://root:Password@127.0.0.1:3306/taskdb",
  3. "projectdb": "mysql+projectdb://root:Password@127.0.0.1:3306/projectdb",
  4. "resultdb": "mysql+resultdb://root:Password@127.0.0.1:3306/resultdb",
  5. "message_queue": "redis://127.0.0.1:6379/db",
  6. "webui": {
  7. "username": "root",
  8. "password": "Password",
  9. "need-auth": true
  10. }
  11. }

其中 mysql 配置中的 root 为您 mysql 的用户名, root: 后面的 Password 为您刚设置的密码。

webui 配置中的 username 及 password 为您访问 WebUI 时候需要的用户名,你也可以不设置用户名密码,直接将 need-auth 设为 false 即可。

  1. pyspider -c /etc/pyspider/pyspider.conf.json

如果一切正常,现在访问 http://<您的 CVM IP 地址>:5000,您应该可以看到 pyspider dashboard 的首页了。

服务能够正常启动后,我们需要让它能够在后台运行,您可以通过以下命令让服务在后台运行

  1. nohup pyspider -c /etc/pyspider/pyspider.conf.json &

也可以使用官方推荐的 Supervisor 来启动,这里就不详细介绍了,具体用法可以参考 Supervisor 的文档

任务时间:1min ~ 2min

此时您可以访问 http://<您的 CVM IP 地址>:5000 使用您的爬虫来搜集数据了,具体 pyspider 爬虫脚本的编写及使用教程可以参考 网上资料

问答
BeautifulSoup和Scrapy爬虫之间的区别?
相关阅读
腾讯云数据库回档解决方案
大数据在教育行业的研究与应用
看看上下文映射的清晰视图
云学院 · 课程推荐 | 知乎KOL,与你分享机器学习中如何做选择

此文已由作者授权腾讯云+社区发布,原文链接:https://cloud.tencent.com/developer/article/1151513?fromSource=waitui

欢迎大家前往腾讯云+社区或关注云加社区微信公众号(QcloudCommunity),第一时间获取更多海量技术实践干货哦~

版权声明:本文为qcloud1001原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/qcloud1001/p/9518838.html