分布式爬虫(5)：微博数据爬取

bigdata-stone 2021-09-04 原文

一、使用Selenium+Phantoms来抓取数据

　　　　1.登录：最重要的是设置User-Agent，否则无法转跳链接　

from selenium.webdriver.common.desired_capability import DesiredCapabilities
user_agent=(
　　"Mozilla/5.0()"

)

　　　　2.输入用户名和密码：

<input id="loginname"
type="text"
class="W input" maxlength="128"
autocomplete="off"
action-data="text=........"
name="username"
node-type="username" 
tabindex="1">

　　　　(1)为了与微博内容交互，需要用到javascript

　　　　　　相关的javascript代码：

　　　　　　document.getElementById(\’loginname\’).value=\’abc\’

　　　　　　document.getElementsByName(\’password\’)[0].value=\’abc\’

　　　　　　通过Selenium提供的send_keys来进行传递value

　　　　　　driver.find_element_by_id(\’loginname\’).send_keys(username)

　　　　　　driver.find_element_by_name(\’password\’).send_keys(password)

二、微博接口分析

三、直接调用微博API来抓取

四、表单及登录

本文链接：https://www.cnblogs.com/bigdata-stone/p/9861479.html

分布式爬虫(5)：微博数据爬取的更多相关文章

分布式爬虫（一）——————分布式爬虫概述

分布式爬虫概述什么是分布式爬虫：　　　　　多个爬虫分布在不同的服务器上，通过状态管理器进行统一调度，达到像 […]...

python网络爬虫——分布式爬虫

redis分布式部署 – 概念：可以将一组程序执行在多台机器上（分布式机群），使其进行数据的分布爬 […]...

金三银四跳槽季，BAT美团滴滴java面试大纲（带答案版）之二：ThreadLocal和Valotile 继续 […]...

Ubuntu中U盘识别不了 – cekong

Ubuntu中U盘识别不了 1.查看U盘的位置不插U盘 ls /dev/ | grep sdb* 插上U盘 […]...

复制文件方式新建虚拟机

　　通过镜像文件安装虚拟机需要一定的时间，而且要重新安装应用软件，可以从一台已经可以正常使用的虚拟机上以拷贝文 […]...

腾讯大佬总结的代码重构原则，看完再也不怕面试官问啦！

前言上一篇开闭原则最有用的代码改动是基于 “修改” 的方式来实现新功能的。如果我们遵循开闭原则，也就是 “对 […]...

springboot上传文件控制文件大小

最近做项目需要开发一个通过excel表格导入数据的功能，上传接口写好调试的时候遇到几个问题，记录一下。报错1 […]...

IntelliJ IDEA的常用设置及快捷键

IntelliJ IDEA的常用设置及快捷键基本设置打开设置：ctrl+alt+s 修改主题、字体、字号 […]...

Java：多态乃幸福本源

01 多态是什么在我刻板的印象里，西游记里的那段孙悟空和二郎神的精彩对战就能很好的解释“多态”这个词：一个孙 […]...

数据中台学习笔记-元数据管理，指标管理，数据模型

数据中台学习笔记-元数据管理，指标管理，数据模型概述上一篇文章主要介绍了数据中台的原理知识，现在开始介绍数 […]...

分布式爬虫(5)：微博数据爬取

一、使用Selenium+Phantoms来抓取数据

1.登录：最重要的是设置User-Agent，否则无法转跳链接

2.输入用户名和密码：

二、微博接口分析

三、直接调用微博API来抓取

四、表单及登录

四、表单及登录

分布式爬虫(5)：微博数据爬取的更多相关文章

随机推荐

热门专题

目录导航