唯快不破时代,企业如何落地实时数据分析?
数据已成为企业最重要的生产要素之一,驾驭实时数据的分析为企业提供了挖掘数据价值的重要利器。当前,越来越多的企业已经意识到实时数据的分析价值,实时数据分析应用迎来爆发。不过,企业在落地应用的过程中,无论在技术还是业务层面都面临诸多挑战。
当前,企业在生产和经营活动中产生的各类数据正以前所未有的速度增长,通过对实时及历史数据的融合分析,及时挖掘业务洞察和辅助决策,也已成为企业的普遍行动。
传统上,企业对数据的分析主要是在离线场景下,仅对历史数据进行事后分析,反馈周期较长。随着市场竞争环境和客户需求的快速变化,以及数据应用的深入,企业对数据驱动业务决策的实时性需求在不断提升。近两年来,以通信、金融、制造等行业为代表,企业对实时数据分析的应用迎来了爆发。
在实时数据的分析场景下,实时数据的分析结果在需求提出后即时处理完成,实现对业务需求的快速响应,实现数据价值的倍增。实时数据分析有哪些应用场景和价值?企业又该如何实现实时数据分析在自身业务场景的应用落地?
01 需求和技术驱动实时数据分析应用爆发
实时数据分析技术早前由互联网行业等起始,典型应用如实时个性化推荐等,这是由于互联网企业的业务本身就具备在线化特征。在线化业务积累了丰富的数据,为实时数据分析提供了良好的基础;此外,在线化业务一般具备业务量高并发等特征,需要更实时的业务洞察和更短的决策周期,且用户端对个性化服务和体验的需求也更加强烈。
而传统行业自身的在线化、数字化升级,实时数据分析也开始加速推进,需求开始爆发。
另一方面,实时处理技术的进步,也是推动实时数据分析应用场景快速落地的必要条件。尤其是各种开源框架的成熟,完善了实时处理技术生态。
实时数据的分析场景实现,包含了数据采集与接入、数据存储与查询、数据分析与计算、数据服务等环节的完整链条,每一个环节都要实现实时处理,这对相关数据技术提出了很大的挑战。在这些环节上,近年来都有相应的开源框架出现并走向成熟。
例如,Kafka和Flume用于实现高可靠性的实时数据采集和接入;Druid、Clickhouse、Hbase等数据库在存储、查询方面的高性能,支撑了海量数据的实时OLAP场景;Spark和Flink等计算引擎,实现了大规模流数据实时计算。
在这些成熟的开源框架的基础上,众多开发者可以结合自身要解决的具体业务场景需求,快速地构建完整实时数据的分析解决方案,并进一步地在应用实践中不断完善相关技术。
02 实时数据的分析应用价值
实时数据分析对于企业的价值是显而易见的,主要体现在提升生产效率、提升客户体验、提供个性化产品服务三个方面。
1)提高生产效率
基于实时数据分析技术,企业能够实时追踪企业内部包括生产设备、人员等的情况,同时还能对产品和服务生产到消费全链条的状态进行监控,提高企业的生产效率。这方面典型的场景包括实时指标加工、实时反欺诈和实时监控等。
在实时指标加工的场景下,银行对线上交易数据进行实时采集和加工计算,计算出来的指标结果可以实现实时监控,实时报表;也可以向实时工作流的下游供数,构建实时数仓,实现数据化运营。
如在银行欺诈交易监测的场景下,通过实时数据分析,能在潜在欺诈交易尚未完成前,即可提前识别采取措施,以减少银行的损失。然而仅基于传统的历史数据仓库分析,在欺诈交易完成后,即便能够识别出来,事后进行追查的成本也会比较大。
在实时监控的场景下,工厂通过传感器采集设备数据,实时监控设备的运行状态,使用规则和模型配置进行关键数据的预测;对生产流水线进行二十四小时视频监控,对于采集的视频和图像通过模型及时发现生产中的异常状态。
2)提升客户体验
基于实时数据分析技术,企业能够实时感知到客户需求并及时提供产品和服务予以满足。这方面典型的应用场景包括实时授信和实时交易。
在实时授信的场景下,针对客户的贷款申请,基于对客户数据的实时采集,通过规则计算和模型预测,金融企业在数分钟就能作出审批授信额度的决定。
在实时交易的场景下,基于实时数据分析技术,证券公司可实时追踪股市波动,计算收益和价值,根据实时价格和投资策略自动平衡投资组合。
3)提供个性化产品和服务
基于用户相关的各方面数据,例如消费记录、购买偏好等,利用实时数据分析技术,能够根据消费者需求,及时提供个性化产品和服务。
这方面典型的场景包括实时精准营销。例如,网上商城使用基于日志的实时用户行为的实时统计与分析,提供精确产品营销,提高广告转化率。另外,基于实时数据分析,还可结合GPS数据、代表性建筑等对用户进行定位,实现基于“情景”的精准商品推送,提升营销效果。
总体来看,实时数据分析技术在金融、通信、零售、制造业等诸多行业拥有成熟的应用场景。随着未来物联网时代的到来,更多的设备将联网,对数据的实时性要求更高,实时数据分析应用将迎来爆发。
03 企业落地实时数据分析应用仍需克服多重挑战
虽然有较为成熟的技术生态做支撑,但企业在落地实时数据分析应用的过程中,要实现工程化落地和业务价值,仍然面临多重挑战,主要包括技术和业务两个方面。
技术方面,在实时数据分析涉及到的数据采集与接入、数据存储与查询、数据分析与计算、数据服务等环节中,都有众多难点需要突破。系统需要在满足实时性指标的同时,具备生产环境下的高可用性和易用性。
在数据采集与接入环节,需要能够接入各种实时数据源和各类异构数据;在数据存储和查询环节,需要对用于数据分析产生的指标进行计算和存储,需要具备同时支持热数据、温数据和冷数据查询的频率等;在数据分析与计算环节,需具备实时处理过程中的复杂计算逻辑,包括糅合指标、模型、业务规则等各类计算逻辑。
另一方面,实时数据分析是一个与业务场景进行深度结合的过程,在具体应用落地的过程中,需要具备将技术与业务结合的能力。
具体来看,企业实时数据分析赋能具体的业务场景,基于指标规则和业务模型进行实时决策,并支持简单易行,零代码的配置实现。企业在日常生产经营活动中,积累了很多基于业务的专业知识体系,在应用实时数据分析技术时,需要将基于专家规则沉淀的知识体系能够迁移过来,并与实时数据分析技术中的AI模型等组件进行结合决策。
04 基于成熟产品,加速应用落地
对于大部分企业而言,完全自建实时数据分析平台往往需要投入大量资源,更好的选择是与具备成熟解决方案的厂商合作,共同推进技术应用落地。
目前,市场上能够提供实时数据的分析解决方案典型厂商主要包括以下两类。
第一类是专注于数据智能领域的厂商。此类厂商涉及从底层数据库、数据仓库,机器学习、日志分析等通用技术到上层数据应用领域,典型厂商包括九章云极DataCanvas等。
第二类是有互联网背景的云厂商。这类厂商在内部互联网业务发展过程中,已广泛应用实时分析技术,基于自身业务场景建立实时数据分析能力。
不同厂商提供的实时数据分析解决方案具备的功能和性能各有差异。总体来看,针对厂商提供的实时数据分析解决方案,企业应该从以下维度进行评估。
性能方面,实时处理能力和高可用性是核心指标。
实时处理能力可以从系统的吞吐量评估,通常由QPS(TPS)、并发数两个因素决定,QPS指的是每秒的请求数量,而并发数则指的是同时访问服务器站点的连接数。
吞吐量越大,越能提升实时数据分析的效能。如在数据采集与接入环节,大吞吐量的情况下,可提升采集和接入数据的效率;在数据存储和分析的环节,能够降低实时响应的时长,提升实时效率的速度。
一般来看,系统的吞吐量由使用的开源框架本身决定,目前,Spark Streaming 和 Flink 在所有开源框架中具备的吞吐量最大。以九章云极的DataCanvas RT实时决策中心产品为例,该产品支持高吞吐、高并发、毫秒级的实时计算需求。
功能层面,作为企业级产品,实时数据分析解决方案需要满足易用性要求。
关键的易用性要求包括:需要支持灵活的权限管理,保证数据安全;需要支持多租户架构,满足企业各个业务部门同时使用场景下的算力分配、资源隔离等,并便于弹性扩容;需要具备完整的监控运维工具,便于监控审计和故障定位;需要配备低代码开发、自动化建模等工具,便于业务人员快速开发和上线实时分析应用。
此外,面向特定业务场景的服务经验也是重要的考量因素。
实时数据分析最终要服务于具体的业务场景,需要与业务知识相结合,具体体现在分析规则、指标、模型等方面。不同厂商由于客群定位、历史服务记录等方面的不同,跨业务场景服务能力有所差异。具体到产品层面,厂商在服务具体业务场景的过程中,可以沉淀大量基于专家规则、业务经验的知识体系,并在厂商产品中预置相关规则库、指标库、模型库等工具,助力应用的快速开发。
05 典型解决方案案例:九章云极DataCanvas RT实时决策中心产品
以九章云极DataCanvas与某总部位于上海的股份制银行合作的项目为例。该银行此前经过多年IT建设,依托主流互联网大数据生态圈,引入开源社区软件框架,完成了大数据分析平台、数据湖的搭建,建立了体系化的批量数据分析能力。
不过,基于原有的系统,该银行依然面临多方面挑战。首先,批量式、准实时数据效率无法满足所有的业务场景,无法覆盖实时营销推荐、实时风控、反洗钱等业务领域;其次,传统数据交付方式复杂,无法满足快速变化的业务需求。
在这一情况下,该银行客户与九章云极DataCanvas合作,基于DataCanvas RT实时决策中心软件,搭建了全行级大数据应用支撑平台。
该平台的运作流程如下:通过Kafka实时进行数据接入后,实现对数据的实时存储,利用一般规则、实时指标、CEP规则以及机器学习模型实现数据与业务的结合,最终在下游支撑起,营销管理系统、反洗钱监控系统等。
效果层面,通过引入九章云极DataCanvas RT实时决策中心,该银行建立了全行实时数据处理服务能力,实现对交易、日志等流式数据秒级的采集、处理能力,每日全行ESB报文采集和足迹采集量达17亿以上;实现实时标签(客户标签、产品标签、活动标签、内容标签)加工能力,面向营销业务提供基于事件的实时营销推荐(基金/理财首次开户、手机银行足迹、大额存入、权益阈值等)。
同时通过平台易用性能力建设,实现在线拖拽式、配置化场景开发能力,支持在线调试、业务应用热更新等能力,提升快速、自主、迭代式平台的交付能力。
通过建立秒级数据加工、服务能力,成功支撑手机银行足迹营销、营销管理、资金流向监控、大额资金变动、大额交易实时监控等近数十个实时场景;同时,可视化的流应用开发能力能够适应各种实时业务场景。