大数据是什么
大数据是什么
大数据本身是一个抽象的概念。从一般意义上讲,大数据是指无法在有限时间内用常规软件工具对其进行获取、存储、管理和处理的数据集合。
目前,业界对大数据还没有一个统一的定义,但是大家普遍认为,大数据具备 Volume、Velocity、Variety 和 Value 四个特征,简称“4V”,即数据体量巨大、数据速度快、数据类型繁多和数据价值密度低,如图 1 所示。下面分别对每个特征作简要描述。
大数据特征
Volume:表示大数据的数据体量巨大。
数据集合的规模不断扩大,已经从 GB 级增加到 TB 级再增加到 PB 级,近年来,数据量甚至开始以 EB 和 ZB 来计数。
例如,一个中型城市的视频监控信息一天就能达到几十 TB 的数据量。百度首页导航每天需要提供的数据超过 1-5PB,如果将这些数据打印出来,会超过 5000 亿张 A4 纸。图 2 展示了每分钟互联网产生的各类数据的量。
互联网每分钟产生的数据
Velocity:表示大数据的数据产生、处理和分析的速度在持续加快。
加速的原因是数据创建的实时性特点,以及将流数据结合到业务流程和决策过程中的需求。数据处理速度快,处理模式已经开始从批处理转向流处理。
业界对大数据的处理能力有一个称谓——“ 1 秒定律”,也就是说,可以从各种类型的数据中快速获得高价值的信息。大数据的快速处理能力充分体现出它与传统的数据处理技术的本质区别。
Variety:表示大数据的数据类型繁多。
传统 IT 产业产生和处理的数据类型较为单一,大部分是结构化数据。随着传感器、智能设备、社交网络、物联网、移动计算、在线广告等新的渠道和技术不断涌现,产生的数据类型无以计数。
现在的数据类型不再只是格式化数据,更多的是半结构化或者非结构化数据,如 XML、邮件、博客、即时消息、视频、照片、点击流、 日志文件等。企业需要整合、存储和分析来自复杂的传统和非传统信息源的数据,包括企业内部和外部的数据。
Value:表示大数据的数据价值密度低。
大数据由于体量不断加大,单位数据的价值密 度在不断降低,然而数据的整体价值在提高。以监控视频为例,在一小时的视频中,有用的数据可能仅仅只有一两秒,但是却会非常重要。现在许多专家已经将大数据等同于黄金和石油,这表示大数据当中蕴含了无限的商业价值。
根据中商产业研究院发布的《2018-2023 年中国大数据产业市场前景及投资机会研究报告》显示,2017 年中国大数据产业规模达到 4700 亿元,同比增长 30%。随着大数据在各行业的融合应用不断深化,预计 2018 年中国大数据市场产值将突破 6000 亿元达到 6200 亿元。
通过对大数据进行处理,找出其中潜在的商业价值,将会产生巨大的商业利润。
大数据时代是什么意思
近年来,信息技术迅猛发展,尤其是以互联网、物联网、信息获取、社交网络等为代表的技术日新月异,促使手机、平板电脑、pc 等各式各样的信息传感器随处可见,虚拟网络快速发展,现实世界快速虚拟化,数据的来源及其数量正以前所未有的速度增长。
伴随着云计算、大数据、物联网、人工智能等信息技术的快速发展和传统产业数字化的转型,数据量呈现几何级增长,根据市场研究资料显示,全球数据总量将从 2016 年的 16.1ZB 增长到 2025 年的 163ZB (约合 180 万亿 GB),十年内将有 10 倍的增长,复合增长率为 26%,如图 1 所示。
若以现有的蓝光光盘为计量标准,那么 40ZB 的数据全部存入蓝光光盘,所需要的光盘总重量将达到 424 艘尼米兹号航母的总重量。而这些数据中,约 80% 是非结构化或半结构化类型的数据,甚至更有一部分是不断变化的流数据。因此,数据的爆炸性增长态势,以及其数据构成特点使得人们进入了“大数据”时代。
如今,大数据已经被赋予多重战略含义。
在资源的角度,数据被视为“未来的石油”,被作为战略性资产进行管理。
在国家治理角度,大数据被用来提升治理效率,重构治理模式,破解治理难题,它将掀起一场国家治理革命。
在经济增长角度,大数据是全球经济低迷环境下的产业亮点,是战略新兴产业的最活跃部分。
在国家安全角度,全球数据空间没有国界边疆,大数据能力成为大国之间博弈和较量的利器。
总之,国家竞争焦点将从资本、土地、人口、资源转向数据空间,全球竞争版图将分成新的两大阵营:数据强国与数据弱国。
从宏观上看,由于大数据革命的系统性影响和深远意义,主要大国快速做出战略响应,将大数据置于非常核心的位置,推出国家级创新战略计划。
美国 2012 年发布了《大数据研究和发展计划》,并成立“大数据高级指导小组”,2013 年又推出“数据一知识一行动”计划,2014 年进一步发布《大数据:把握机遇,维护价值》政策报告,启动“公开数据行动”,陆续公开 50 个门类的政府数据,鼓励商业部门进行开发和创新。
欧盟正在力推《数据价值链战略计划》;英国发布了《英国数据能力发展战略规划》;日本发布了《创建最尖端 IT 国家宣言》;韩国提出了“大数据中心战略”。中国多个省市发布了大数据发展战略,国家层面的《关于促进大数据发展的行动纲要》也于 2015 年 8 月 19 日正式通过。
从微观上看,大数据重塑了企业的发展战略和转型方向。
美国的企业以 GE 提出的“工业互联网”为代表,提出智能机器、智能生产系统、智能决策系统,将逐渐取代原有的生产体系,构成一个“以数据为核心”的智能化产业生态系统。
德国的企业以“工业 4.0”为代表,要通过信息物理系统(Cyber Physical System, CPS)把一切机器、物品、人、服务、建筑统统连接起来,形成一个高度整合的生产系统。
中国的企业以阿里巴巴提出的“DT 时代”(Data Technology)为代表,认为未来驱动发展的不再是石油、钢铁,而是数据。
这 3 种新的发展理念可谓异曲同工、如出一辙,共同宣告“数据驱动发展”成为时代主题。
与此同时,大数据也是促进国家治理变革的基础性力量。正如《大数据时代》的作者舍恩伯格在定义中所强调的:“大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。”
在国家治理领域,大数据为解决以往的“顽疾”和 “痛点”,提供了强大支撑,如建设阳光政府、责任政府、智慧政府;大数据使以往无法实现的环节变得简单、可操作,如精准医疗、个性化教育、社会监管、舆情监测预警。
大数据也使一些新的主题成为国家治理的重点,如维护数据主权、开放数据资产、保持在数字空间的国家竞争力等。
中国具备成为数据强国的优势。中国的数据量在 2013 年已达到 576EB,到 2020 年这个数字将会达到 8.06ZB,增长超过 12 倍。
从全球占比来看,中国成为数据强国的潜力极为突岀,2010 年中国数据占全球数据的比例为 10%,2013 年占比为 13%,2020 年占比将达到 18%。
届时,中国的数据规模将超过美国位居世界第一。中国成为数据大国并不奇怪,因为中国是人口大国、制造业大国、互联网大国、物联网大国,这都是最活跃的数据生产主体,未来几年,中国成为数据大国也是逻辑上的必然结果。
大数据的产生和作用(详细分析)
从采用数据库作为数据管理的主要方式开始,人类社会的数据产生方式大致经历了 3 个阶段,而正是数据产生方式的巨大变化才最终导致大数据的产生。
运营式系统阶段。
数据库的出现使得数据管理的复杂度大大降低,在实际使用中,数据库大多为运营系统所采用,作为运营系统的数据管理子系统,如超市的销售记录系统、银行的交易记录系统、医院病人的医疗记录等。
人类社会数据量的第一次大的飞跃正是在运营式系统开始广泛使用数据库时开始的。这个阶段的最主要特点是,数据的产生往往伴随着一定的运营活动;而且数据是记录在数据库中的,例如,商店每售出一件产品就会在数据库中产生一条相应的销售记录。这种数据的产生方式是被动的。
用户原创内容阶段。
互联网的诞生促使人类社会数据量出现第二次大的飞跃,但是真正的数据爆发产生于 Web 2.0 时代,而 Web 2.0 的最重要标志就是用户原创内容。这类数据近几年一直呈现爆炸性的增长。
主要有以下两个方面的原因。
是以博客、微博和微信为代表的新型社交网络的岀现和快速发展,使得用户产生数据的意愿更加强烈。
是以智能手机、平板电脑为代表的新型移动设备的出现,这些易携带、全天候接入网络的移动设备使得人们在网上发表自己意见的途径更为便捷。这个阶段的数据产生方式是主动的。
感知式系统阶段。
人类社会数据量第三次大的飞跃最终导致了大数据的产生,今天我们正处于这个阶段。这次飞跃的根本原因在于感知式系统的广泛使用。
随着技术的发展,人们已经有能力制造极其微小的带有处理功能的传感器,并开始将这些设备广泛地布置于社会的各个角落,通过这些设备来对整个社会的运转进行监控。这些设备会源源不断地产生新数据,这种数据的产生方式是自动的。
简单来说,数据产生经历了被动、主动和自动三个阶段。这些被动、主动和自动的数据共同构成了大数据的数据来源,但其中自动式的数据才是大数据产生的最根本原因。
大数据的作用
大数据虽然孕育于信息通信技术,但它对社会、经济、生活产生的影响绝不限于技术层面。更本质上,它是为我们看待世界提供了一种全新的方法,即决策行为将日益基于数据分析,而不是像过去更多凭借经验和直觉。具体来讲,大数据将有以下作用。
对大数据的处理分析正成为新一代信息技术融合应用的结点。
移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。
云计算为这些海量、多样化的大数据提供存储和运算平台。通过对不同来源数据的管理、处理、分析与优化,将结果反馈到上述应用中,将创造出巨大的经济和社会价值,大数据具有催生社会变革的能量。
大数据是信息产业持续高速增长的新引擎。
面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。
在硬件与集成设备领域,大数据将对芯片、存储产业产生重要影响,还将催生出一体化数据存储处理服务器、内存计算等市场。
在软件与服务领域,大数据将引发数据快速处理分析技术、数据挖掘技术和软件产品的发展。
大数据利用将成为提高核心竞争力的关键因素。
各行各业的决策正在从“业务驱动”向“数据驱动”转变。
在商业领域,对大数据的分析可以使零售商实时掌握市场动态并迅速做出应对,可以为商家制定更加精准有效的营销策略提供决策支持,可以帮助企业为消费者提供更加及时和个性化的服务。
在医疗领域,可提高诊断准确性和药物有效性。
在公共事业领域,大数据也开始发挥促进经济发展、维护社会稳定等方面的重要作用。
大数据时代,科学研究的方法手段将发生重大改变。
例如,抽样调查是社会科学的基本研究方法,在大数据时代,研究人员可通过实时监测、跟踪研究对象在互联网上产生的海量行为数据,进行挖掘分析,揭示出规律性的东西,提出研究结论和对策。
大数据时代的10个重大变化
对研究范式的新认识:从第三范式到第四范式
2007 年 1 月,图灵奖得主、关系型数据库鼻祖 JimGray 发表演讲,他凭着自己对于人类科学发展特征的深刻洞察,敏锐地指出科学的发展正在进入“数据密集型科学发现范式”——科学史上的“第四范式”。
在他看来,人类科学研究活动已经历过三种不同范式的演变过程。
“第一范式”是指原始社会的“实验科学范式”。18 世纪以前的科学进步均属于此列,其核心特征是对有限的客观对象进行观察、总结、提炼,用归纳法找出其中的科学规律,如伽利略提出的物理学定律。
“第二范式”是指 19 世纪以来的理论科学阶段,以模型和归纳为特征的“理论科学范式”。其核心特征是以演绎法为主,凭借科学家的智慧构建理论大厦,如爱因斯坦提出的相对论、麦克斯方程组、量子理论和概率论等。
“第三范式”是指 20 世纪中期以来的计算科学阶段的“计算科学范式”。面对大量过于复杂的现象,归纳法和演绎法都难以满足科学研究的需求,人类开始借助计算机的高级运算能力对复杂现象进行建模和预测,如天气、地震、核试验、原子的运动等。
然而,随着近年来人类采集数据量的爆炸性增长,传统的计算科学范式已经越来越无力驾驭海量的科研数据了。例如,欧洲的大型粒子对撞机、天文领域的 Pan-STARRS 望远镜每天产生的数据多达几千万亿字节(PB)。很明显,这些数据已经突破了“第三范式”的处理极限,无法被科学家有效利用。
正因为如此,目前正在从“计算科学范式”转向“数据密集型科学发现范式”。
“第四范式”的主要特点是科学研究人员只需要从大数据中查找和挖掘所需要的信息和知识,无须直接面对所研究的物理对象。例如,在大数据时代,天文学家的研究方式发生了新的变化,其主要研究任务变为从海量数据库中发现所需的物体或现象的照片,而不再需要亲自进行太空拍照。
对数据重要性的新认识:从数据资源到数据资产
在大数据时代,数据不仅是一种“资源”,更是一种重要的“资产”。因此,数据科学应把数据当作一种“资产”来管理,而不能仅仅当作“资源”来对待。也就是说,与其他类型的资产相似,数据也具有财务价值,且需要作为独立实体进行组织与管理。
大数据时代的到来,让“数据即资产”成为最核心的产业趋势。在这个“数据为王”的时代,回首信息产业发展的起起伏伏,我们发现产业兴衰的决定性因素,已不是土地、人力、技术、资本这些传统意义上的生产要素,而是曾经被一度忽视的“数据资产”。
世界经济论坛报告曾经预测称,“未来的大数据将成为新的财富高地,其价值可能会堪比石油”,而大数据之父维克托也乐观地表示,“数据列入企业资产负债表只是时间问题”。
“数据成为资产”是互联网泛在化的一种资本体现,它让互联网不仅具有应用和服务本身的价值,而且具有了内在的“金融”价值。数据不再只是体现于“使用价值”方面的产品,而成为实实在在的“价值”。
目前,作为数据资产先行者的 IT 企业,如苹果、谷歌、IBM、阿里、腾讯、百度等,无不想尽各种方式,挖掘多种形态的设备及软件功能,收集各种类型的数据,发挥大数据的商业价值,将传统意义上的 IT 企业,打造成为“终端+应用+平台+数据”四位一体的泛互联网化企业,以期在大数据时代获取更大的收益。
大数据资产的价值的衡量尺度主要有以下 3 个方面的标准。
独立拥有及控制数据资产
目前,数据的所有权问题在业界还比较模糊。从拥有和控制的角度来看,数据可以分为 Ⅰ 型数据、Ⅱ 型数据和 Ⅲ 型数据。
Ⅰ 型数据主要是指数据的生产者自己生产出来的各种数据,例如,百度对使用其搜索引擎的用户的各种行为进行收集、整理和分析,这类数据虽然由用户产生,但产权却属于生产者,并最大限度地发挥其商业价值。
Ⅱ 型数据又称为入口数据,例如,各种电子商务营销公司通过将自身的工具或插件植入电商平台,来为其提供统计分析服务,并从中获取各类经营数据。虽然这些数据的所有权并不属于这些公司,在使用时也有一些规则限制,但是它们却有着对数据实际的控制权。
相比于前两类数据,Ⅲ 型数据的产权情况比较复杂,它们主要依靠网络爬虫,甚至是黑客手段获取数据。与 Ⅰ 型和 Ⅱ 型数据不同的是,这些公司流出的内部数据放在网上供人付费下载。这种数据在当前阶段,还不能和资产完全画等号。
计量规则与货币资本类似
大数据要实现真正的资产化,用货币对海量数据进行计量是一个大问题。尽管很多企业都意识到数据作为资产的可能性,但除了极少数专门以数据交易为主营业务的公司外,大多数公司都没有为数据的货币计量做出适当的账务处理。
虽然数据作为资产尚未在企业财务中得到真正的引用,但将数据列入无形资产比较有利。
考虑到研发因素,很多高科技企业都具有较长的投入产出期,可以让那些存储在硬盘上的数据直接进入资产负债表。对于通过交易手段获得的数据,可以按实际支付价款作为入账价值计入无形资产,从而为企业形成有效税盾,降低企业实际税负。
具有资本一般的增值属性
资本区别于一般产品的特征在于,它具有不断增值的可能性。只有能够利用数据、组合数据、转化数据的企业,他们手中的大数据资源才能成为数据资产。
目前,直接利用数据为企业带来经济利益的方法主要有数据租售、信息租售、数据使能三种模式。
数据租售主要通过对业务数据进行收集、整理、过滤、校对、打包、发布等一系列操作,实现数据內在的价值。
信息租售则通过聚焦行业焦点,收集相关数据,深度整合、萃取及分析,形成完整数据链条,实现数据的资产转化。
数据使能是指类似于阿里这样的互联网公司通过提供大量的金融数据挖掘及分析服务,为传统金融行业难以下手的小额贷款业务开创新的行业增长点。
总而言之,作为信息时代核心的价值载体,大数据必然具有朝向价值本体转化的趋势,而它的“资产化”,或者未来更进一步的“资本化”蜕变,将为未来完全信息化、泛互联网化的商业模式打下基础。
对方法论的新认识:从基于知识到基于数据
传统的方法论往往是“基于知识”的,即从“大量实践(数据)”中总结和提炼出一般性知识(定理、模式、模型、函数等)之后,用知识去解决(或解释)问题。因此,传统的问题解决思路是“问题→知识→问题”,即根据问题找“知识”,并用“知识”解决“问题”。
然而,数据科学中兴起了另一种方法论——“问题→数据→问题”,即根据“问题”找“数据”,并直接用“数据”(在不需要把“数据”转换成“知识”的前提下)解决“问题”.
对数据分析的新认识:从统计学到数据科学
在传统科学中,数据分析主要以数学和统计学为直接理论工具。但是,云计算等计算模式的出现及大数据时代的到来,提升了我们对数据的获取、存储、计算与管理能力,进而对统计学理论与方法产生了深远影响。大数据带给我们 4 个颠覆性的观念转变。
不是随机样本,而是全体数据
在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。
以前我们通常把随机采样看成是理所应当的限制,但是真正的大数据时代是指不用随机分析法这样的捷径,而采用对所有数据进行分析的方法,通过观察所有数据,来寻找异常值进行分析。
例如,信用卡诈骗是通过异常情况来识别的,只有掌握了所有数据才能做到这一点。在这种情况下,异常值是最有用的信息,可以把它与正常交易情况作对比从而发现问题。
不是纯净性,而是混杂性
数据量的大幅增加会造成一些错误的数据混进数据集。但是,正因为我们掌握了几乎所有的数据,所以我们不再担心某个数据点对整套分析的不利影响。
我们要做的就是要接受这些纷繁的数据并从中受益,而不是以高昂的代价消除所有的不确定性。这就是由“小数据”到“大数据”的改变。
不是精确性,而是趋势
研究数据如此之多,以至于我们不再热衷于追求精确度。之前需要分析的数据很少,所以我们必须尽可能精确地量化我们的记录,但随着规模的扩大,对精确度的痴迷将减弱。
拥有了大数据,我们不再需要对一个现象刨根问底,只要掌握了大体的发展方向即可,适当忽略微观层面上的精确度,会让我们在宏观层面拥有更好的洞察力。
例如,微信朋友圈中朋友发动态的时间,在一小时以内的会显示多少分钟之前,在一小时以外的就只显示几小时前;微信公众号中显示的阅读量,超过十万以后显示的就是 100000+,而不是具体数据,因为超过十万的阅读量已经让我们觉得这篇文章很优秀了,没必要精确。
不是因果关系,而是相关关系
在数据科学中,广泛应用“基于数据”的思维模式,重视对“相关性”的分析,而不是等到发现“真正的因果关系”之后才解决问题。
在大数据时代,人们开始重视相关分析,而不仅仅是因果分析。我们无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系。相关关系也许不能准确地告诉我们某件事情为何会发生,但是它会告诉我们某件事情已经发生了。
在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己发声。知道是什么就够了,没必要知道为什么。例如,知道用户对什么感兴趣即可,没必要去研究用户为什么感兴趣。
相关关系的核心是量化两个数据值之间的数据关系。相关关系强是指当一个数据值增加时,其他数据值很有可能也会随之增加。相关关系是通过识别关联物来帮助我们分析某一现象的,而不是揭示其内部的运作。
通过找到一个现象良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。例如,如果川和万经常一起发生,我们只需要注意方是否发生,就可以预测力是否也发生了。
对计算智能的新认识:从复杂算法到简单算法
“只要拥有足够多的数据,我们可以变得更聪明”是大数据时代的一个新认识。因此,在大数据时代,原本复杂的“智能问题”变成简单的“数据问题”。
只要对大数据进行简单查询就可以达到“基于复杂算法的智能计算的效果”。为此,很多学者曾讨论过一个重要话题——“大数据时代需要的是更多的数据还是更好的模型?”
机器翻译是传统自然语言技术领域的难点,虽曾提出过很多种算法,但应用效果并不理想。IBM 有能力将《人民日报》历年的文本输入电脑,试图破译中文的语言结构。
例如,实现中文的语音输入或者中英互译,这项技术在 20 世纪 90 年代就取得突破,但进展缓慢,在应用中还是有很多问题。近年来,Google 翻译等工具改变了“实现策略”,不再依靠复杂算法进行翻译,而是通过对他们之前收集的跨语言语料库进行简单查询的方式,提升了机器翻译的效果和效率。
他们并不教给电脑所有的语言规则,而是让电脑自己去发现这些规则。电脑通过分析经过人工翻译的数以千万计的文件来发现其中的规则。这些翻译结果源自图书、各种机构(如联合国)及世界各地的网站。
他们的电脑会扫描这些语篇,从中寻找在统计学上非常重要的模式,即翻译结果和原文之间并非偶然产生的模式。一旦电脑找到了这些模式,今后它就能使用这些模式来翻译其他类似的语篇。
通过数十亿次重复使用,就会得出数十亿种模式及一个异常聪明的电脑程序。但是对于某些语言来说,他们能够使用到的已翻译完成的语篇非常少,因此 Google 的软件所探测到的模式就相对很少。这就是为什么 Google 的翻译质量会因语言对的不同而不同。
通过不断向电脑提供新的翻译语篇,Google 就能让电脑更加聪明,翻译结果更加准确。
对管理目标的新认识:从业务数据化到数据业务化
在传统数据管理中,企业更加关注的是业务的数据化问题,即如何将业务活动以数据方式记录下来,以便进行业务审计、分析与挖掘。
在大数据时代,企业需要重视一个新的课题——数据业务化,即如何“基于数据”动态地定义、优化和重组业务及其流程,进而提升业务的敏捷性,降低风险和成本。业务数据化是前提,而数据业务化是目标。
电商的经营模式与实体店最本质的区别是,电商每卖出一件产品,都会留存一条详尽的数据记录。也正是因为可以用数字化的形式保留每一笔销售的明细,电商可以清楚地掌握每一件商品到底卖给了谁。
此外,依托互联网这个平台,电商还可以记录每一个消费者的鼠标单击记录、网上搜索记录。所有这些记录形成了一个关于消费者行为的实时数据闭环,通过这个闭环中源源不断产生的新鲜数据,电商可以更好地洞察消费者,更及时地预测其需求的变化,经营者和消费者之间因此产生了很强的黏性。
线下实体商店很难做到这一点,他们可能只知道一个省、一个市或者一个地区卖了多少商品,但是,他们很难了解到所生产、经营的每一件商品究竟卖到了哪一个具体的地方、哪一个具体的人,这个人还买了其他什么东西、查看了哪些商品、可能会喜欢什么样的商品。
也就是说,线下实体店即使收集了一些数据,但其数据的粒度、宽度、广度和深度都非常有限。由于缺乏足够的数据,实体店对自己的经营行为,对消费者的洞察力,以及和消费者之间的黏性都十分有限。
就此而言,一家电商和一家线下实体店最本质的区别就是是否保存了足够的数据。其实,这正是互联网化的核心和本质,即“数据化”。这并不是一个简单的数据化,而是所有业务的过程都要数据化,即把所有的业务过程记录下来,形成一个数据的闭环,这个闭环的实时性和效率是关键的指标。这个思想就是一切业务都要数据化。
在大数据时代,企业不仅仅是把业务数据化,更重要的是把数据业务化,也就是把数据作为直接生产力,将数据价值直接通过前台产品作用于消费者。
数据可以反映用户过去的行为轨迹,也可以预测用户将来的行为倾向。比较好理解的一个实例就是关联推荐,当用户买了一个商品之后,可以给用户推荐一个最有可能再买的商品。个性化是数据作为直接生产力的一个具体体现。
随着数据分析工具与数据挖掘渠道的日益丰富与多样化,数据存量越来越大,数据对企业也越来越重要。数据业务化能够给企业带来的业务价值主要包括以下几点:提高生产过程的资源利用率,降低生产成本;根据商业分析提高商业智能的准确率,降低传统“凭感觉”做决策的业务风险;动态价格优化利润和增长;获取优质客户。
目前,越来越多的企业级用户已经考虑从批量分析向近实时分析发展,从而提高 IT 创造价值的能力。同时,数据分析在快速从商业智能向用户智能发展。数据业务化可以让数据给企业创造额外收益和价值。
对决策方式的新认识:从目标驱动型到数据驱动型
传统科学思维中,决策制定往往是“目标”或“模型”驱动的,也就是根据目标(或模型)进行决策。然而,大数据时代出现了另一种思维模式,即数据驱动型决策,数据成为决策制定的主要“触发条件”和“重要依据”。
小数据时代,企业讨论什么事情该做不该做,许多时候是凭感觉来决策的,流程如图所示,由两个环节组成:一个是拍脑袋,另一个是研发功能。
基本上就是产品经理通过一些调研,想了一个功能,做了设计。下一步就是把这个功能研发出来,然后看一下效果如何,再做下一步。
整个过程都是凭一些感觉来决策。这种方式总是会出现问题,很容易走一些弯路,很有可能做出错误的决定。
数据驱动型决策加入了数据分析环节,如图所示。
基本流程就是企业有一些点子,通过点子去研发这些功能,之后要进行数据收集,然后进行数据分析。基于数据分析得到一些结论,然后基于这些结论,再去进行下一步的研发。整个过程就形成了一个循环。在这种决策流程中,人为的因素影响越来越少,而主要是用一种科学的方法来进行产品的迭代。
例如,一个产品的界面到底是绿色背景好还是蓝色背景好,从设计的层面考虑,两者是都有可能的。那么就可以做一下 A/B 测试。
可以让 50% 的人显示绿色背景,50% 的人显示蓝色背景,然后看用户点击量。哪个点击比较多,就选择哪个。这就是数据驱动,这样就转变成不是凭感觉,而是通过数据去决策。
相比于基于本能、假设或认知偏见而做出的决策,基于证据的决策更可靠。通过数据驱动的方法,企业能够判断趋势,从而展开有效行动,帮助自己发现问题,推动创新或解决方案的出现。
对产业竞合关系的新认识:从以战略为中心到以数据为中心
在大数据时代,企业之间的竞合关系发生了变化,原本相互竞争,甚至不愿合作的企业,不得不开始合作,形成新的业态和产业链。
所谓竞合关系,即在竞争中合作,在合作中竞争。它的核心思想主要体现在两个方面:创造价值与争夺价值。创造价值是个体之间相互合作、共创价值的过程;争夺价值则是个体之间相互竞争、分享价值的过程。
竞合的思想就是要求所有参与者共同把蛋糕做大,每个参与者最终分得的部分都会相应增加。
传统的竞合关系以战略为中心,德国宝马汽车公司和戴姆勒公司旗下的奔驰品牌在整车制造领域存在着品牌竞争,但双方不仅共同开发、生产及采购汽车零部件,而且在混合动力技术——领域进行研究合作。
为了能够在激烈的市场竞争中获取优势,两家公司通过竞合战略,互通有无、共享资源,从而在汽车业整体利润下滑的趋势下获得相对较好的收益,最终取得双赢。
在大数据时代,竞合关系是以数据为中心的。数据产业就是从信息化过程累积的数据资源中提取有用信息进行创新,并将这些数据创新赋予商业模式。
这种由大数据创新所驱动的产业化过程具有“提升其他产业利润”的特征,除了能探索新的价值发现、创造与获取方式以谋求本身发展外,还能帮助传统产业突破瓶颈、升级转型,是一种新的竞合关系,而非一般观点的“新兴科技催生的经济业态与原有经济业态存在竞争关系”。
所以,数据产业培育围绕传统经济升级转型,依附传统行业企业共生发展,是最好的发展策略。例如,近年来发展火热的团购,就是数据产业帮助传统餐饮业、旅游业和交通行业的升级转型。提供团购业务的企业在获得收益的同时,也提高了其他传统行业的效益。
但是,传统企业与团购企业也存在着一定的竞争关系。传统企业在与团购企业合作的过程中,也尽力防止自己的线下业务全部转为自己不能掌控的团购企业。
团购网站为了能获得更广的用户群、更大的流量来提升自己的市场地位,除了自身扩展商户和培养网民习惯之外,还纷纷采取了合纵连横的发展战略。
聚划算、京东团购、当当团购、58 团购等纷纷开放平台,吸引了千品网、高朋、满座、窝窝等团购网站的入驻,投奔平台正在成为行业共识。
对于独立团购网站来说,入驻电商平台不仅能带来流量,电商平台在实物销售上的积累对其实物团购也有一定的促进作用。
对数据复杂性的新认识:从不接受到接受数据的复杂性
在传统科学看来,数据需要彻底“净化”和“集成”,计算目的是需要找出“精确答案”,而其背后的哲学是“不接受数据的复杂性”。
然而,大数据中更加强调的是数据的动态性、异构性和跨域等复杂性,开始把“复杂性”当作数据的一个固有特征来对待,组织数据生态系统的管理目标开始转向将组织处于混沌边缘状态。
在小数据时代,对于数据的存储与检索一直依赖于分类法和索引法的机制,这种机制是以预设场域为前提的。这种结构化数据库的预设场域能够卓越地展示数据的整齐排列与准确存储,与追求数据的精确性目标是完全一致的。
在数据稀缺与问题清晰的年代,这种基于预设的结构化数据库能够有效地回答人们的问题,并且这种数据库在不同的时间能够提供一致的结果。
面对大数据,数据的海量、混杂等特征会使预设的数据库系统崩溃。其实,数据的纷繁杂乱才真正呈现出世界的复杂性和不确定性特征,想要获得大数据的价值,承认混乱而不是避免混乱才是一种可行的路径。
为此,伴随着大数据的涌现,出现了非关系型数据库,它不需要预先设定记录结构,而且允许处理各种各样形形色色参差不齐的数据。
因为包容了结构的多样性,这些无须预设的非关系型数据库设计能够处理和存储更多的数据,成为大数据时代的重要应对手段。
在大数据时代,海量数据的涌现一定会增加数据的混乱性且会造成结果的不准确性,如果仍然依循准确性,那么将无法应对这个新的时代。
大数据通常都用概率说话,与数据的混杂性可能带来的结果错误性相比,数据量的扩张带给我们的新洞察、新趋势和新价值更有意义。
因此,与致力于避免错误相比,对错误的包容将会带给我们更多信息。其实,允许数据的混杂性和容许结果的不精确性才是我们拥抱大数据的正确态度,未来我们应当习惯这种思维。
对数据处理模式的新认识:从小众参与到大众协同
在传统科学中,数据的分析和挖掘都是具有很高专业素养的“企业核心员工”的事情,企业管理的重要目的是如何激励和考核这些“核心员工”。
但是,在大数据时代,基于“核心员工”的创新工作成本和风险越来越大,而基于“专家余(Pro-AmT 的大规模协作日益受到重视,正成为解决数据规模与形式化之间矛盾的重要手段。
大规模生产让数以百计的人买得起商品,但商品本身却是一模一样的。
企业面临这样一个矛盾:定制化的产品更能满足用户的需求,但却非常昂贵;与此同时,量产化的商品价格低廉,但无法完全满足用户的需求。
如果能够做到大规模定制,为大量用户定制产品和服务,则能使产品成本低,又兼具个性化,从而使企业有能力满足要求,但价格又不至于像手工制作那般让人无法承担。
因此,在企业可以负担得起大规模定制带来的高成本的前提下,要真正做到个性化产品和服务,就必须对用户需求有很好的了解,这就需要用户提前参与到产品设计中。
在大数据时代,用户不再仅仅热衷于消费,他们更乐于参与到产品的创造过程中,大数据技术让用户参与创造与分享成果的需求得到实现。
市场上传统的著名品牌越来越重视从用户的反馈中改进产品的后续设计和提高用户体验,例如,“小米”这样的新兴品牌建立了互联网用户粉丝论坛,让用户直接参与到新产品的设计过程之中,充分发挥用户丰富的想象力,企业也能直接了解他们的需求。
大众协同的另一个方面就是企业可以利用用户完成数据的采集,如实时车辆交通数据采集商 Inrix。该公司目前有一亿个手机端用户,Inrix 的软件可以帮助用户避开堵车,为用户呈现路的热量图。
提供数据并不是这个产品的特色,但值得一提的是,Inrix 并没有用交警的数据,这个软件的每位用户在使用过程中会给服务器发送实时数据,如速度和位置,这样每个用户都是探测器。使用该服务的用户越多,Inrix 获得的数据就越多,从而可以提供更好的服务。
大数据处理的基本流程:数据抽取与集成+数据分析+数据解释
大数据的数据来源广泛,应用需求和数据类型都不尽相同,但是最基本的处理流程是一致的。
整个大数据的处理流程可以定义为,在合适工具的辅助下,对广泛异构的数据源进行抽取和集成,将结果按照一定的标准进行统一存储,然后利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识,并利用恰当的方式将结果展现给终端用户。
具体来讲,大数据处理的基本流程可以分为数据抽取与集成、数据分析和数据解释等步骤。
数据抽取与集成
大数据的一个重要特点就是多样性,这就意味着数据来源极其广泛,数据类型极为繁杂。这种复杂的数据环境给大数据的处理带来极大的挑战。
要想处理大数据,首先必须对所需数据源的数据进行抽取和集成,从中提取出数据的实体和关系,经过关联和聚合之后采用统一定义的结构来存储这些数据。
在数据集成和提取时,需要对数据进行清洗,保证数据质量及可信性。同时还要特别注意大数据时代数据模式和数据的关系,大数据时代的数据往往是先有数据再有模式,并且模式是在不断的动态演化之中的。
数据抽取和集成技术并不是一项全新的技术,在传统数据库领域此问题就已经得到了比较成熟的研究。随着新的数据源的涌现,数据集成方法也在不断的发展之中。
从数据集成模型来看,现有的数据抽取与集成方式可以大致分为 4 种类型:基于物化或 ETL 方法的引擎、基于联邦数据库或中间件方法的引擎、基于数据流方法的引擎,以及基于搜索引擎的方法。
数据分析
数据分析是整个大数据处理流程的核心,大数据的价值产生于分析过程。
从异构数据源抽取和集成的数据构成了数据分析的原始数据。根据不同应用的需求可以从这些数据中选择全部或部分进行分析。
小数据时代的分析技术,如统计分析、数据挖掘和机器学习等,并不能适应大数据时代数据分析的需求,必须做出调整。大数据时代的数据分析技术面临着一些新的挑战,主要有以下几点。
数据量大并不一定意味着数据价值的增加,相反这往往意味着数据噪音的增多。
因此,在数据分析之前必须进行数据清洗等预处理工作,但是预处理如此大量的数据,对于计算资源和处理算法来讲都是非常严峻的考验。
大数据时代的算法需要进行调整。
首先,大数据的应用常常具有实时性的特点,算法的准确率不再是大数据应用的最主要指标。
在很多场景中,算法需要在处理的实时性和准确率之间取得一个平衡。其次,分布式并发计算系统是进行大数据处理的有力工具,这就要求很多算法必须做出调整以适应分布式并发的计算框架,算法需要变得具有可扩展性。
许多传统的数据挖掘算法都是线性执行的,面对海量的数据很难在合理的时间内获取所需的结果。因此需要重新把这些算法实现成可以并发执行的算法,以便完成对大数据的处理。
最后,在选择算法处理大数据时必须谨慎,当数据量增长到一定规模以后,可以从小量数据中挖掘出有效信息的算法并一定适用于大数据。
数据结果的衡量标准。
对大数据进行分析比较困难,但是对大数据分析结果好坏的衡量却是大数据时代数据分析面临的更大挑战。
大数据时代的数据量大,类型混杂,产生速度快,进行分析的时候往往对整个数据的分布特点掌握得不太清楚,从而会导致在设计衡量的方法和指标的时候遇到许多困难。
数据解释
数据分析是大数据处理的核心,但是用户往往更关心对结果的解释。如果分析的结果正确,但是没有采用适当的方法进行解释,则所得到的结果很可能让用户难以理解,极端情况下甚至会引起用户的误解。
数据解释的方法很多,比较传统的解释方式就是以文本形式输出结果或者直接在电脑终端上显示结果。这些方法在面对小数据量时是一种可行的选择。
但是大数据时代的数据分析结果往往也是海量的,同时结果之间的关联关系极其复杂,采用传统的简单解释方法几乎是不可行的。
解释大数据分析结果时,可以考虑从以下两个方面提升数据解释能力。
引入可视化技术。
可视化作为解释大量数据最有效的手段之一率先被科学与工程计算领域采用。
该方法通过将分析结果以可视化的方式向用户展示,可以使用户更易理解和接受。常见的可视化技术有标签云、历史流、空间信息流等。
让用户能够在一定程度上了解和参与具体的分析过程。
这方面既可以采用人机交互技术,利用交互式的数据分析过程来引导用户逐步地进行分析,使得用户在得到结果的同时更好地理解分析结果的过程,也可以采用数据溯源技术追溯整个数据分析的过程,帮助用户理解结果。