Ⅰ 外行人的大数据五问 带你了解大数据
外行人的大数据五问 带你了解大数据大数据是什么?是一种运营模式,是一种能力,还是一种技术,或是一种数据集合的统称?今天我们所说的“大数据”和过去传统意义上的“数据”的区别又在哪里?大数据有什么特点?来源有哪些?又应用于哪些方面等等。接下来小编带您一起了解大数据。>>>>>大数据概念"大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。 "大数据"首先是指数据体量(volumes)?大,指代大型数据集,一般在10TB?规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。接着是数据处理速度(Velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理。最后一个特点是指数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。网络知道—大数据概念大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据的4V特点:Volume、Velocity、Variety、Veracity。互联网周刊—大数据概念"大数据"的概念远不止大量的数据(TB)和处理大量数据的技术,或者所谓的"4个V"之类的简单概念,而是涵盖了人们在大规模数据的基础上可以做的事情,而这些事情在小规模数据的基础上是无法实现的。换句话说,大数据让我们以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见,最终形成变革之力研究机构Gartner—大数据概念"大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,"大数据"指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。 亚马逊网络服务(AWS)、大数据科学家JohnRauser提到一个简单的定义:大数据就是任何超过了一台计算机处理能力的庞大数据量。 研发小组对大数据的定义:"大数据是最大的宣传技术、是最时髦的技术,当这种现象出现时,定义就变得很混乱。" Kelly说:"大数据是可能不包含所有的信息,但我觉得大部分是正确的。对大数据的一部分认知在于,它是如此之大,分析它需要多个工作负载,这是AWS的定义。当你的技术达到极限时,也就是数据的极限"。 大数据不是关于如何定义,最重要的是如何使用。最大的挑战在于哪些技术能更好的使用数据以及大数据的应用情况如何。这与传统的数据库相比,开源的大数据分析工具的如Hadoop的崛起,这些非结构化的数据服务的价值在哪里。>>>>>大数据分析众所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于如此的认识,大数据分析普遍存在的方法理论有哪些呢?>>>>>大数据技术数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。数据存取:关系数据库、NOSQL、SQL等。基础架构:云存储、分布式文件存储等。数据处理:自然语言处理(NLP,NaturalLanguageProcessing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机"理解"自然语言,所以自然语言处理又叫做自然语言理解(NLU,NaturalLanguage Understanding),也称为计算语言学(Computational Linguistics。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。数据挖掘:分类 (Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)模型预测:预测模型、机器学习、建模仿真。结果呈现:云计算、标签云、关系图等。>>>>>大数据特点要理解大数据这一概念,首先要从"大"入手,"大"是指数据规模,大数据一般指在10TB(1TB=1024GB)规模以上的数据量。大数据同过去的海量数据有所区别,其基本特征可以用4个V来总结(Vol-ume、Variety、Value和Veloc-ity),即体量大、多样性、价值密度低、速度快。第一,数据体量巨大。从TB级别,跃升到PB级别。第二,数据类型繁多,如前文提到的网络日志、视频、图片、地理位置信息,等等。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。解决大数据问题的核心是大数据技术。目前所说的"大数据"不仅指数据本身的规模,也包括采集数据的工具、平台和数据分析系统。大数据研发目的是发展大数据技术并将其应用到相关领域,通过解决巨量数据处理问题促进其突破性发展。因此,大数据时代带来的挑战不仅体现在如何处理巨量数据从中获取有价值的信息,也体现在如何加强大数据技术研发,抢占时代发展的前沿。当下我国大数据研发建设应在以下四个方面着力一是建立一套运行机制。大数据建设是一项有序的、动态的、可持续发展的系统工程,必须建立良好的运行机制,以促进建设过程中各个环节的正规有序,实现统合,搞好顶层设计。二是规范一套建设标准。没有标准就没有系统。应建立面向不同主题、覆盖各个领域、不断动态更新的大数据建设标准,为实现各级各类信息系统的网络互连、信息互通、资源共享奠定基础。三是搭建一个共享平台。数据只有不断流动和充分共享,才有生命力。应在各专用数据库建设的基础上,通过数据集成,实现各级各类指挥信息系统的数据交换和数据共享。四是培养一支专业队伍。大数据建设的每个环节都需要依靠专业人员完成,因此,必须培养和造就一支懂指挥、懂技术、懂管理的大数据建设专业队伍。>>>>>大数据作用大数据时代到来,认同这一判断的人越来越多。那么大数据意味着什么,他到底会改变什么?仅仅从技术角度回答,已不足以解惑。大数据只是宾语,离开了人这个主语,它再大也没有意义。我们需要把大数据放在人的背景中加以透视,理解它作为时代变革力量的所以然。变革价值的力量未来十年,决定中国是不是有大智慧的核心意义标准(那个"思想者"),就是国民幸福。一体现在民生上,通过大数据让有意义的事变得澄明,看我们在人与人关系上,做得是否比以前更有意义;二体现在生态上,通过大数据让有意义的事变得澄明,看我们在天与人关系上,做得是否比以前更有意义。总之,让我们从前10年的意义混沌时代,进入未来10年意义澄明时代。变革经济的力量生产者是有价值的,消费者是价值的意义所在。有意义的才有价值,消费者不认同的,就卖不出去,就实现不了价值;只有消费者认同的,才卖得出去,才实现得了价值。大数据帮助我们从消费者这个源头识别意义,从而帮助生产者实现价值。这就是启动内需的原理。变革组织的力量随着具有语义网特征的数据基础设施和数据资源发展起来,组织的变革就越来越显得不可避免。大数据将推动网络结构产生无组织的组织力量。最先反映这种结构特点的,是各种各样去中心化的WEB2.0应用,如RSS、维基、博客等。大数据之所以成为时代变革力量,在于它通过追随意义而获得智慧。>>>>>大数据处理大数据处理数据时代理念的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。大数据处理的流程具体的大数据处理方法确实有很多,但是根据笔者长时间的实践,总结了一个普遍适用的大数据处理流程,并且这个流程应该能够对大家理顺大数据的处理有所帮助。整个处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析,最后是数据挖掘。大数据处理之一:采集大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。大数据处理之二:导入/预处理虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。大数据处理之三:统计/分析统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。大数据处理之四:挖掘与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。整个大数据处理的普遍流程至少应该满足这四个方面的步骤,才能算得上是一个比较完整的大数据处理。>>>>>大数据应用与案例分析大数据应用的关键,也是其必要条件,就在于"IT"与"经营"的融合,当然,这里的经营的内涵可以非常广泛,小至一个零售门店的经营,大至一个城市的经营。以下是我整理的关于各行各业,不同的组织机构在大数据方面的应用的案例,在此申明,以下案例均来源于网络,本文仅作引用,并在此基础上作简单的梳理和分类。大数据应用案例之:医疗行业[1] Seton Healthcare是采用IBM最新沃森技术医疗保健内容分析预测的首个客户。该技术允许企业找到大量病人相关的临床医疗信息,通过大数据处理,更好地分析病人的信息。[2] 在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过3000次的数据读取。通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折。[3] 它让更多的创业者更方便地开发产品,比如通过社交网络来收集数据的健康类App。也许未来数年后,它们搜集的数据能让医生给你的诊断变得更为精确,比方说不是通用的成人每日三次一次一片,而是检测到你的血液中药剂已经代谢完成会自动提醒你再次服药。大数据应用案例之:能源行业[1] 智能电网现在欧洲已经做到了终端,也就是所谓的智能电表。在德国,为了鼓励利用太阳能,会在家庭安装太阳能,除了卖电给你,当你的太阳能有多余电的时候还可以买回来。通过电网收集每隔五分钟或十分钟收集一次数据,收集来的这些数据可以用来预测客户的用电习惯等,从而推断出在未来2~3个月时间里,整个电网大概需要多少电。有了这个预测后,就可以向发电或者供电企业购买一定数量的电。因为电有点像期货一样,如果提前买就会比较便宜,买现货就比较贵。通过这个预测后,可以降低采购成本。[2] 维斯塔斯风力系统,依靠的是BigInsights软件和IBM超级计算机,然后对气象数据进行分析,找出安装风力涡轮机和整个风电场最佳的地点。利用大数据,以往需要数周的分析工作,现在仅需要不足1小时便可完成。大数据应用案例之:通信行业[1] XO Communications通过使用IBM SPSS预测分析软件,减少了将近一半的客户流失率。XO现在可以预测客户的行为,发现行为趋势,并找出存在缺陷的环节,从而帮助公司及时采取措施,保留客户。此外,IBM新的Netezza网络分析加速器,将通过提供单个端到端网络、服务、客户分析视图的可扩展平台,帮助通信企业制定更科学、合理决策。[2] 电信业者透过数以千万计的客户资料,能分析出多种使用者行为和趋势,卖给需要的企业,这是全新的资料经济。[3] 中国移动通过大数据分析,对企业运营的全业务进行针对性的监控、预警、跟踪。系统在第一时间自动捕捉市场变化,再以最快捷的方式推送给指定负责人,使他在最短时间内获知市场行情。[4] NTT docomo把手机位置信息和互联网上的信息结合起来,为顾客提供附近的餐饮店信息,接近末班车时间时,提供末班车信息服务。大数据应用案例之:零售业[1] "我们的某个客户,是一家领先的专业时装零售商,通过当地的百货商店、网络及其邮购目录业务为客户提供服务。公司希望向客户提供差异化服务,如何定位公司的差异化,他们通过从 Twitter 和 Facebook 上收集社交信息,更深入的理解化妆品的营销模式,随后他们认识到必须保留两类有价值的客户:高消费者和高影响者。希望通过接受免费化妆服务,让用户进行口碑宣传,这是交易数据与交互数据的完美结合,为业务挑战提供了解决方案。"Informatica的技术帮助这家零售商用社交平台上的数据充实了客户主数据,使他的业务服务更具有目标性。[2] 零售企业也监控客户的店内走动情况以及与商品的互动。它们将这些数据与交易记录相结合来展开分析,从而在销售哪些商品、如何摆放货品以及何时调整售价上给出意见,此类方法已经帮助某领先零售企业减少了17%的存货,同时在保持市场份额的前提下,增加了高利润率自有品牌商品的比例
Ⅱ 大数据时代的变革思维
大数据时代的变革思维信息时代,数据深刻影响着银行的未来发展。在全球庞大的人群和应用市场下,探索以大数据为基础的解决方案,深入洞察复杂且充满变化的市场成为了企业提高自身竞争力的重要手段。仅凭直观感受,任何人都能感觉到大数据时代已经来了。维克托 迈尔舍恩伯格——《大数据时代》一书作者,牛津大学网络学院互联网研究所治理与监管专业教授,英国新闻周刊《经济学人》曾经将维克托迈尔-舍恩伯格定义为大数据领域最受人尊敬的权威发言人之一。2010年,维克托 迈尔舍恩伯格就已经开始对该领域进行了系统而深入的研究,并在《经济学人》上和数据编辑肯尼思库克耶一起,发表了长达14页的大数据专题文章,成为最早洞见大数据时代发展趋势的数据科学家之一。大数据时代的思维变换维克托 迈尔舍恩伯格在《大数据时代》中最具洞见之处在于,他明确指出,大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。这颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。这本书的价值体现在三个方面:第一,关于大数据的思维变换,重在大数据变革时代的价值与观念变化;第二,关于大数据影响商业变革的三个要素:即数据、技术与创新思维之间的互动;第三,是关于大数据泛化下的治理与隐私。与中国企业相比,美国企业知道大数据价值并且能挖掘大数据的隐藏价值,从而获得最大利益,可以说他们已经建立了大数据思维,从而促使他们不断创新挖掘更好的数据。“美国收集的数据要比我们多得多,他们不光搜集可以理解的数据,他们也收集不能理解的数据,并且会花大量资源来存储这些数据,让数据一直有价值。”在维克托迈尔舍恩伯格看来,大多数企业还把大数据作为一种在市场营销手段,但是大数据还可以帮助人们改变商业模式以及盈利模式,这才是大数据最大的价值所在。“美国与中国相比,最不同一点就在于他们有大数据思维,懂得如何利用大数据的价值,但这并不代表中国无法逾越美国,中国的优势在于掌握数据量比较大,而在大数据时代‘大’也是非常重要的。”城市的发展需要大数据,没有数据的辅佐城市就不会得到最优化的发展方案,大数据能帮助政府领导者进行更好的决策,尤其是公共政策的决策。城市需要知道如何建立基础设施来收集数据,同时要利用大数据开拓思路,让数据来说话,并且借助多方力量,即便是大数据方面的专家,但是并不一定有最正确的决定或最有效的方法来利用大数据,所以政府在这方面需要多听取私人企业或机构的意见,大数据时代合作、沟通、广泛吸纳意见是非常重要的。维克托 迈尔舍恩伯格以伦敦为例谈道:“伦敦政府其实是从一家私人企业买了关于人们交通模式的数据,让政府惊讶的是人们的行动路线跟他们想象的完全不一样,所以在这一方面的帮助他们更好的优化交通,包括高速公路、停车场,以减少城市拥堵。”谁是大数据“赢家”?大数据所面临困境并不在技术方面,而是在数据流动方面。大数据时代,一个人的智慧不能帮助我们更好的利用大数据价值,所以要让数据流动起来,让不同的部门和不同的公司都参与进来,进而优化数据。“更多的人会认为大数据只是用在企业营销方面,但是如果让他们知道大数据可以帮助孩子更好的学习、更好的生活居住条件,以及能够解决城市交通、居住等问题,他们慢慢发现大数据的好处,他们就会关心大数据。”维克托迈尔舍恩伯格谈道,“一方面,人们要信任大数据,不要害怕大数据暴露隐私,需要建立完善的大数据保护。不信任就导致人们不愿意让其他机构知道数据,如果不能使用这些数据就更谈不上大数据的价值。所以只有让他们信任数据,才能挖掘大数据价值。另一方面,一定要接受大数据使用限制问题,不要赋予大数据过多的意义。”维克托 迈尔舍恩伯格理解的大数据赢家,并不是指本来就已经很成功而且在大数据时代同样成功的的公司,“我认为大数据的最大赢家应该是一些默默无闻的公司,因为大数据而发生飞跃性的变化,所以大数据时代最大赢家不可能是那些已经掌握大量数据的大公司,而是新兴创业、年轻人来工作的小公司,帮助他们在大数据时代成为非常有竞争力的企业。所以数据好比一座金山,但是数据在那里放着,这座金山就不会属于你,我们需要做的是了解并挖掘这些‘金子’,成为大数据的赢家。”维克托迈尔 舍恩伯格如是说。大数据是看待现实的新角度,不仅改变了市场营销、生产制造,同时也改变了商业模式。数据本身就是价值来源,这也就意味着新的商业机会,没有哪一个行业能对大数据产生“免疫能力”,适应大数据才能在这场变革中继续生存下去。
Ⅲ 大数据的基本概念是什么
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
Ⅳ 大数据的特征有哪些
Volume:数据量巨大。体量大是大数据区分于传统数据最显著的特征。 一般关系型数据库处理的数据量在TB级,大数据所处理的数据量通常在PB级以上。Variety:数据类型多。大数据所处理的计算机数据类型早已不是单一的文本形式或者结构化数据库中的表,它包括订单、日志、BLOG、微博、音频、视频等各种复杂结构的数据。Velocity:数据流动快。速度是大数据区分于传统数据的重要特征。 在海量数据面前,需要实时分析获取需要的信息,处理数据的效率就是组织的生命。
Ⅳ 大数据时代已经到来,什么是大数据
大数据时代已经到来,什么是大数据大数据时代已经到来,你了解吗?什么是大数据?一、大数据出现的背景进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。它已经上过《纽约时报》《华尔街日报》的专栏封面,进入美国白宫官网的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的证券公司等写进了投资推荐报告。数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然现在企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识 到数据对企业的重要性。大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。最早提出大数据时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的 挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日, 却因为近年来互联网和信息行业的发展而引起人们关注。大数据在互联网行业指的是这样一种现象:互联网公司在日常运营中生成、累积的用户网络行为数据。这些数据的规模是如此庞大,以至于不能用G或T来衡量,大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。二、什么是大数据?信息技术领域原先已经有“海量数据”、“大规模数据”等概念,但这些概念只着眼于数据规模本身,未能充分反映数据爆发背景下的数据处理与应用需求,而“大数据”这一新概念不仅指规模庞大的数据对象,也包含对这些数据对象的处理和应用活动,是数据对象、技术与应用三者的统一。1、大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据对象既可能是实际的、有限的数据集合,如某个政府部门或企业掌握的数据库,也可能是虚拟的、无限的数据集合,如微博、微信、社交网络上的全部信息。大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,“大数据”指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。亚马逊网络服务(AWS)、 大数据科学家JohnRauser提到一个简单的定义:大数据就是任何超过了一台计算机处理能力的庞大数据量。研发小组对大数据的定义:“大数据是最大的 宣传技术、是最时髦的技术,当这种现象出现时,定义就变得很混乱。”Kelly说:“大数据是可能不包含所有的 信息,但我觉得大部分是正确的。对大数据的一部分认知在于,它是如此之大,分析它需要多个工作负载,这是AWS的定义。2、大数据技术,是指从各种各样类型的大数据中,快速获得有价值信息的技术的能力,包括数据采集、存储、管理、分析挖掘、可视化等技术及其集成。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。3、大数据应用,是 指对特定的大数据集合,集成应用大数据技术,获得有价值信息的行为。对于不同领域、不同企业的不同业务,甚至同一领域不同企业的相同业务来说,由于其业务 需求、数据集合和分析挖掘目标存在差异,所运用的大数据技术和大数据信息系统也可能有着相当大的不同。惟有坚持“对象、技术、应用”三位一体同步发展,才 能充分实现大数据的价值。当你的技术达到极限时,也就是数据的极限”。大数据不是关于如何定义,最重要的是如何使用。最大的挑战在于哪些技术能更好的使用数据以及大数据的应用情况如何。这与传统的数据库相比,开源的大数据分析工具的如Hadoop的崛起,这些非结构化的数据服务的价值在哪里。三、大数据的类型和价值挖掘方法1、大数据的类型大致可分为三类:1)传统企业数据(Traditionalenterprisedata):包括 CRM systems的消费者数据,传统的ERP数据,库存数据以及账目数据等。2)机器和传感器数据(Machine-generated/sensor data):包括呼叫记录(CallDetail Records),智能仪表,工业设备传感器,设备日志(通常是Digital exhaust),交易数据等。3)社交数据(Socialdata):包括用户行为记录,反馈数据等。如Twitter,Facebook这样的社交媒体平台。2、大数据挖掘商业价值的方法主要分为四种:1)客户群体细分,然后为每个群体量定制特别的服务。2)模拟现实环境,发掘新的需求同时提高投资的回报率。3)加强部门联系,提高整条管理链条和产业链条的效率。4)降低服务成本,发现隐藏线索进行产品和服务的创新。四、大数据的特点业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。具体来说,大数据具有4个基本特征:1、是数据体量巨大数据体量(volumes)大,指代大型数据集,一般在10TB规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量; 网络资料表明,其新首页导航每天需要提供的数据超过1.5PB(1PB=1024TB),这些数据如果打印出来将超过5千亿张A4纸。有资料证实,到目前 为止,人类生产的所有印刷材料的数据量仅为200PB。2、是数据类别大和类型多样数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化 数据范畴,囊括了半结构化和非结构化数据。现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。3、是处理速度快在数据量非常庞大的情况下,也能够做到数据的实时处理。数据处理遵循“1秒定律”,可从各种类型的数据中快速获得高价值的信息。4、是价值真实性高和密度低数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。五、大数据的作用1、对大数据的处理分析正成为新一代信息技术融合应用的结点移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态,这些应用不断产生大数据。云计算为这些海量、多样化的大数据提供存储和运算平台。通过对不同来源数据的管理、处理、分析与优化,将结果反馈到上述应用中,将创造出巨大的经济和社会价值。大数据具有催生社会变革的能量。但释放这种能量,需要严谨的数据治理、富有洞见的数据分析和激发管理创新的环境(Ramayya Krishnan,卡内基·梅隆大学海因兹学院院长)。2、大数据是信息产业持续高速增长的新引擎面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。在硬件与集成设备领域,大数据将对芯片、存储产业产生重要影响,还将催生一体化数据存储处理服务器、内存计算等市场。在软件与服务领域,大数据将引发数据快速处理分析、数据挖掘技术和软件产品的发展。3、大数据利用将成为提高核心竞争力的关键因素各 行各业的决策正在从“业务驱动” 转变“数据驱动”。对大数据的分析可以使零售商实时掌握市场动态并迅速做出应对;可以为商家制定更加精准有效的营销策略提供决策支持;可以帮助企业为消费 者提供更加及时和个性化的服务;在医疗领域,可提高诊断准确性和药物有效性;在公共事业领域,大数据也开始发挥促进经济发展、维护社会稳定等方面的重要作 用。4、大数据时代科学研究的方法手段将发生重大改变例如,抽样调查是社会科学的基本研究方法。在大数据时代,可通过实时监测、跟踪研究对象在互联网上产生的海量行为数据,进行挖掘分析,揭示出规律性的东西,提出研究结论和对策。六、大数据的商业价值1、对顾客群体细分“大数据”可以对顾客群体细分,然后对每个群体量体裁衣般的采取独特的行动。瞄准特定的顾客群体来进行营销和服务是商家一直以来的追求。云存储的海量数据和“大数据”的分析技术使得对消费者的实时和极端的细分有了成本效率极高的可能。2、模拟实境运用“大数据”模拟实境,发掘新的需求和提高投入的回报率。现在越来越多的产品中都装有传感器,汽车和智能手机的普及使得可收集数据呈现爆炸性增长。Blog、Twitter、Facebook和微博等社交网络也在产生着海量的数据。云计算和“大数据”分析技术使得商家可以在成本效率较高的情况下,实时地把这些数据连同交易行为的数据进行储存和分析。交易过程、产品使用和人类行为都可以 数据化。“大数据”技术可以把这些数据整合起来进行数据挖掘,从而在某些情况下通过模型模拟来判断不同变量(比如不同地区不同促销方案)的情况下何种方案 投入回报最高。3、提高投入回报率提高“大数据”成果在各相关部门的分享程度,提高整个管理链条和产业链条的投入回报率。“大数据”能力强的部门可以通过云计算、互联网和内部搜索引擎把”大数据”成果和“大数据”能力比较薄弱的部门分享,帮助他们利用“大数据”创造商业价值。4、数据存储空间出租企业和个人有着海量信息存储的需求,只有将数据妥善存储,才有可能进一步挖掘其潜在价值。具体而言,这块业务模式又可以细分为针对个人文件存储和针对企业用 户两大类。主要是通过易于使用的API,用户可以方便地将各种数据对象放在云端,然后再像使用水、电一样按用量收费。目前已有多个公司推出相应服务,如亚 马逊、网易、诺基亚等。运营商也推出了相应的服务,如中国移动的彩云业务。5、管理客户关系客户管理应用的目的是根据客户的属性(包括自然属性和行为属性),从不同角度深层次分析客户、了解客户,以此增加新的客户、提高客户的忠诚度、降低客户流失 率、提高客户消费等。对中小客户来说,专门的CRM显然大而贵。不少中小商家将飞信作为初级CRM来使用。比如把老客户加到飞信群里,在群朋友圈里发布新 产品预告、特价销售通知,完成售前售后服务等。6、个性化精准推荐在运营商内部,根据用户喜好推荐各类业务或应用是常见的,比如应用商店软件推荐、IPTV视频节目推荐等,而通过关联算法、文本摘要抽取、情感分析等智能分 析算法后,可以将之延伸到商用化服务,利用数据挖掘技术帮助客户进行精准营销,今后盈利可以来自于客户增值部分的分成。以日常的“垃圾短信”为例,信息并不都是“垃圾”,因为收到的人并不需要而被视为垃圾。通过用户行为数据进行分析后,可以给需要的人发送需要的信息,这样“垃圾短信”就成了有价值的信息。在日本的麦当劳,用户在手机上下载优惠券,再去餐厅用运营商DoCoMo的手机钱包优惠支付。运营商和麦当劳搜集相关消费信息,例如经常买什么汉堡,去哪个店消费,消费频次多少,然后精准推送优惠券给用户。7、数据搜索数据搜索是一个并不新鲜的应用,随着“大数据”时代的到来,实时性、全范围搜索的需求也就变得越来越强烈。我们需要能搜索各种社交网络、用户行为等数据。其商业应用价值是将实时的数据处理与分析和广告联系起来,即实时广告业务和应用内移动广告的社交服务。运营商掌握的用户网上行为信息,使得所获取的数据“具备更全面维度”,更具商业价值。典型应用如中国移动的“盘古搜索”。七、大数据对经济社会的重要影响1、能够推动实现巨大经济效益比如对中国零售业净利润增长的贡献,降低制造业产品开发、组装成本等。预计2013年全球大数据直接和间接拉动信息技术支出将达1200亿美元。2、能够推动增强社会管理水平大数据在公共服务领域的应用,可有效推动相关工作开展,提高相关部门的决策水平、服务效率和社会管理水平,产生巨大社会价值。欧洲多个城市通过分析实时采集的交通流量数据,指导驾车出行者选择最佳路径,从而改善城市交通状况。3、如果没有高性能的分析工具,大数据的价值就得不到释放对大数据应用必须保持清醒认识,既不能迷信其分析结果,也不能因为其不完全准确而否定其重要作用。1) 由于各种原因,所分析处理的数据对象中不可避免地会包括各种错误数据、无用数据,加之作为大数据技术核心的数据分析、人工智能等技术尚未完全成熟,所以对 计算机完成的大数据分析处理的结果,无法要求其完全准确。例如,谷歌通过分析亿万用户搜索内容能够比专业机构更快地预测流感暴发,但由于微博上无用信息的 干扰,这种预测也曾多次出现不准确的情况。2)必须清楚定位的是,大数据作用与价值的重点在于能够引导和启发大数据应用者的创新思维,辅助决策。简单而言,若是处理一个问题,通常人能够想到一种方法,而大数据能够提供十种参考方法,哪怕其中只有三种可行,也将解决问题的思路拓展了三倍。所以,客观认识和发挥大数据的作用,不夸大、不缩小,是准确认知和应用大数据的前提。八、总结不管大数据的核心价值是不是预测,但是基于大数据形成决策的模式已经为不少的企业带来了盈利和声誉。1、从大数据的价值链条来分析,存在三种模式:1)手握大数据,但是没有利用好;比较典型的是金融机构,电信行业,政府机构等。2)没有数据,但是知道如何帮助有数据的人利用它;比较典型的是IT咨询和服务企业,比如,埃森哲,IBM,Oracle等。3)既有数据,又有大数据思维;比较典型的是Google,Amazon,Mastercard等。2、未来在大数据领域最具有价值的是两种事物:1)拥有大数据思维的人,这种人可以将大数据的潜在价值转化为实际利益;2)还未有被大数据触及过的业务领域。这些是还未被挖掘的油井,金矿,是所谓的蓝海。大 数据是信息技术与专业技术、信息技术产业与各行业领域紧密融合的典型领域,有着旺盛的应用需求、广阔的应用前景。为把握这一新兴领域带来的新机遇,需要不 断跟踪研究大数据,不断提升对大数据的认知和理解,坚持技术创新与应用创新的协同共进,加快经济社会各领域的大数据开发与利用,推动国家、行业、企业对于 数据的应用需求和应用水平进入新的阶段。
Ⅵ 大数据时代带来更理性、更可靠的决策
大数据时代带来更理性、更可靠的决策_数据分析师考试
究竟是什么魔力,让“大数据”这一概念得到全球各国的普遍关注?到底什么是“大数据”?它能够在多大程度上改变我们的生活?在我们寻求对这些重要问题的解答时,牛津大学网络学院互联网研究所教授维克托·迈尔-舍恩伯格出现在我们的视野中;希望我们对他的采访,可以帮助读者们找到这些疑问的答案。
最近一段时间,“大数据”的热潮席卷全球,正如美国《福布斯》杂志所说的那样,如今,在浏览新闻网站或者参加行业会议时,想看不见或听不到“大数据”这个词几乎不可能。去年,美国6个联邦政府部门宣布将启动“大数据研发计划”,投资超过2亿美元以改进从海量和复杂的数据中获取知识的能力。同时,我国科技部发布的“‘十二五’国家科技计划信息技术领域2013年度备选项目征集指南”也把大数据研究列在首位。眼下召开的全国“两会”上,有全国人大代表提出要把发展“大数据”上升为国家战略。
究竟是什么魔力,让“大数据”这一概念得到全球各国的普遍关注?到底什么是“大数据”?它能够在多大程度上改变我们的生活?眼前对“大数据”的关注度是否已经过高了呢?在我们寻求对这些重要问题的解答时,英国牛津大学网络学院互连网研究所教授维克托·迈尔-舍恩伯格(Viktor Mayer-Schonberger)出现在我们的视野中,讨论“大数据”,他如果不是最合适的人选,也起码是合适人选之一。
20多年来,维克托一直致力于网络经济、信息与创新、信息监管、网络规范与战略管理的研究。还在“大数据”这一概念众说纷纭时,维克托就已进行了系统深入的研究,2010年,他在英国《经济学人》杂志上和数据编辑肯尼思·库克耶一起,发表了长达14页的大数据专题文章。称他为最早洞见大数据时代发展趋势的数据科学家之一,并不为过。
《经济学人》说,在大数据领域,维克托是最受人尊敬的全方位发言人之一;美国《科学》杂志说,若要发起一场关于这个问题的深入讨论,没有比他更好的发起者了。
除了理论研究以外,维克托还非常接近实战世界,早在上大学期间,他就先后成立了两家数据安全和制作反病毒软件的公司,而在他写就的《大数据时代》一书中,那些最前沿、最崭新的大数据应用案例,都得益于他多年来紧跟企业与商业应用的步伐。他的咨询客户中,不乏微软、惠普、IBM、亚马逊、脸书、推特、VISA等大数据先锋们。
目前,维克托还是欧盟互联网官方政策背后的重要制定者与参与者,尤为重要的是,他还任职过新加坡商务部、文莱国防部、科威特商务部等部门,特别熟悉亚洲信息产业的发展与战略布局。
希望我们通过电子邮件对维克托的采访,可以帮助读者们找到这些疑问的答案。
失去微观层面上的精确度,为的是获取宏观层面上的洞察力
文汇报:今天,“大数据”已经成为全球炙手可热的词汇,您是从何时开始关注它的?
迈尔-舍恩伯格:多年来,我一直致力于研究数据在信息经济的发展中所扮演的重要角色,我与肯尼思·库克耶(Kenneth Cukier,我的合著者)一起发布了一系列相关研究报告。大约三年前,在我自己组织的一次会议上,我俩都意识到“大数据”的存在已经不仅仅是一种炒作或者什么宏大的宣言了,而将实实在在地改变我们的工作、生活以及整个社会,于是,我们决定就此专题写一本书。
文汇报:那么在您看来,究竟什么是大数据时代?它和传统数据时代到底有什么差别?我们知道,像沃尔玛这样的公司早在多年前,就已经将大数据运用到了商业实践中。
迈尔-舍恩伯格:事实上,过去几个世纪以来,数据已经在科学家们制定决策的过程中扮演了一定的角色,而过去几十年间,这一做法又延伸到了一些公司的决策制定过程。但在大数据时代之前,数据是非常匮乏的,我们拥有的数据非常少。因此,我们的决策、我们构建的制度都是建立在这样一种数据匮乏的基础上。今天,一切变得非常不同,它体现在三个不同的方面,我们称之为“更多”、“更乱”和“相关性”。
文汇报:这三个特征也是您在《大数据时代》一书中非常强调的,它们甚至会颠覆我们过去的整个思维方式。您能否具体描述一下这到底是怎样的过程?
迈尔-舍恩伯格:好的。我所说的“更多”,是指围绕任何一个我们想要调查的特定问题,或者是需要我们回答的疑问,我们都可以比过去任何时候获取更多的数据。在大数据时代,我们可以利用海量的数据得到非常详尽的见解,这是传统方法所不能做到的。
可以这么说,大数据时代和传统数据时代的区别,就像分辨率在200万像素的旧数码照片,一下子提高到2400万像素那样。后者是一个非常非常大的文件,它可以提供更多细节。它可以让我们不断放大,看清楚小到颗粒状的细部,而具有较低分辨率的图像在这些细节方面就会非常模糊。
基因信息就是一个很好的例子。美国有一家叫23andMe的新公司提供个人的DNA测试分析,以发现一些疾病征兆。它的成本只有两三百美元,并提醒客户关注会发展成严重疾病的个人癖好。但是公司并不对每个客户的全基因组进行测序,而是针对已知特征的位点(经研究得知因某种疾病存在,而可能会出问题的DNA片段)进行比对。这意味着,当一个新的特征被研究发现时,23andMe公司就不得不再次对客户的DNA进行测序并建立更完整的档案。
苹果公司的史蒂夫·乔布斯尝试了非常不同的方法。他得了癌症后,就有了自己全部的基因密码,数十亿的碱基对测序。这花费了他超过10万美元的成本,但这可以让医生完整地洞察他的基因密码。每当药物由于乔布斯的癌症病变而失去有效性,他们就可以根据乔布斯特定的基因信息,寻找到有效的替代药物。遗憾的是,这也没有保住乔布斯的命,但是在这一过程中获得的数据,已经延长了他的生命。
由于技术创新,现在收集大量信息的成本变得越来越低。数年前,史蒂夫·乔布斯花费了六位数的金额才做到的事情,今天,不到1000美元就可以获得同样的服务了。
而“更乱”指的是,在小数据时代,因为数据是如此稀少,我们可以确保自己收集的每一个数据点都是非常准确的。相比较而言,大数据往往是凌乱和质量参差不齐的。但是,相比以高额代价来保证测量和收集少量数据的精确性,在大数据时代,我们将接受这种杂乱,因为我们通常需要的只是一个大方向,而不是努力了解一种现象的细枝末节。我们并不是要完全放弃精确性,我们只是放弃对精确性的热衷。我们失去微观层面上的精确度,为的是获取在宏观层面上的洞察力。
电脑翻译就是其中一个例子。1990年代,IBM的研究人员使用了一套非常精确的文件(加拿大议会记录的法语和英语版)来训练计算机。尽管计算机完全按照规则行事,但基于此的翻译质量却非常低。然后,谷歌在2006年开始介入这一领域,他们没有使用来自加拿大政府的几百万句标准翻译,而是使用随手可得的任何语言。他们在整个互联网上,利用数十亿页质量参差不齐的翻译,这些翻译不怎么标准——但是,这是一个小的权衡——他们能够使用的数据大大增加了,结果翻译质量反而提高了。与更少、更标准的数据相比,更多凌乱的资料完胜了。
“更多”和“更乱”组合到一起,产生了第三个特点,“相关性”,这也是大数据带给我们的最根本性的转变。我们的思维将从因果关系转向相关关系。至今为止的整个人类历史里,全世界的人们都在寻找事件发生的原因,探寻“为什么”。但我们对原因的执着探索往往带领我们走向错误的方向。所以,我们建议,在大数据时代,在许多情况下,我们可以仅仅寻找“是什么”,而不必完全理解“为什么”。例如,对于大数据的分析中,我们可以发现机器震动中一些非常微小的变化,这些变化表明机器将很快损坏。这使我们能够在部分机器零件报废前更换它们,这被称为“预测性维护”,它可以节省不少钱。但除了提高消费效率,“相关性”还可以做更多的事情。
比如对早产儿而言,即使他们长大成人,这些小宝宝仍旧是非常脆弱的,哪怕是遇上很小的感染。医生卡罗琳·麦格雷戈研究如何给这些婴儿最好的生存机会。使用大数据分析,每分钟可以搜集这些婴儿超过一千个数据点,麦格雷戈发现一个令人震惊的事实:每当这些早产儿出现非常稳定的标志时,他们的身体其实并不稳定,正在准备发病。有了这方面的知识,她就能在一个非常早期的阶段,确定婴儿是否需要药物治疗,从而挽救更多孩子的生命。
这是典型的大数据应用:医生麦格雷戈通过更全面的传感器,可以比以往搜集到更多的数据。她也接受,在这种情况下,并不是所有的数据都是准确的,从而也会导致她分析中存在不精确的可能。她把“为什么”这个问题放在一边,而用一种更务实的方式来提供帮助,她寻找“是什么”,这才是一个更好的预见感染的办法。
我们应该记住:大数据也可以挽救生命。
正确使用大数据,可以改善医疗、教育水平,促进人类发展
文汇报:大数据时代的到来,是否将会引领新一轮的产业革命?我们应该怎样客观地看待它的价值?
迈尔-舍恩伯格:大数据将会极大地改变社会生活的方方面面,但是它的价值能否等同于工业革命,这个问题目前还不好说。我个人猜想可能不能,原因是在19世纪初工业革命刚刚开始的时候,经济发展还处于非常低的水平上,所以相对来说,当时的人们从工业化过程中所能获得的生活水平的提升是非常巨大的,今天则非常不一样了。
我们真正想强调的是,大数据时代将推动我们从根本上改变企业的运作方式,以及我们在社会中的生活方式。大数据可以提高人类制定决策的能力,这种提高将是大幅度的。有了大数据,我们不是简单地提高经济效率,而是将挽救人类生命,延长我们自己的寿命。我们还将改善教育,促进发展。同样的道理,我们必须要小心。大数据同样也有“阴暗面”,正如我们在书中讨论的那样。如果应用错误,大数据也可能会化为一个强有力的武器。因此,我们必须确保正确使用大数据。
文汇报:您提到了大数据时代的“阴暗面”,它的到来会加深数字化鸿沟吗?
迈尔-舍恩伯格:大数据是一个强大的工具。因此,如果我们使用了错误的方式,它就可能会加深数字鸿沟。但是,如果我们用得好,相信大数据就可能会改善我们的生活,尤其是对那些不那么幸运的人而言。在这一点上,你可以把它想像成火、电或是抗生素等等。
文汇报:也就是说,您对大数据的价值认知,是基于一个更长时段的历史发展。
迈尔-舍恩伯格:如果以非常广阔的视角来看人类历史,我认为,人类一直想要理解世界。起初,许多人的“知识”是基于迷信和预感。知识的发展非常慢,人们需要非常深层次的思考,再通过实践进行检验,以确保知识是可用的。
但即使如此,我们的知识仍旧不是百分之百可靠的。例如,19世纪,路易·巴斯德一直在研究狂犬病疫苗,当时有一个被狗严重咬伤而染上狂犬病的小孩,父母担心孩子会死去,恳求巴斯德试试他的试验性疫苗。巴斯德照做了,孩子活了下来。随后的庆祝活动上,巴斯德以一个英雄的身份出现,他挽救了年轻孩子的性命。但是事实的确如此吗?今天,通过更深入的研究,我们知道,在被类似病狗咬到的儿童中,只有25%会感染狂犬病。所以75%的儿童哪怕使用了无效的疫苗,仍旧可以存活下来。这个故事告诉我们,我们以为自己生活在非常科学的世界中,但其实,我们拥有的数据非常少。一种新的治疗方法在被证明安全之前,需要做几十个甚至几百个医学实验来进行测试。但这仍旧太少,人们还是会受到伤害,因为我们依靠的数据太少。在大数据时代,我们可以告别数据匮乏,做出的决策将更理性,更基于事实,当然也更可靠。这是大数据时代带给我们的希望——更好的决策将会代替我们过往那些可疑的迷信和不可靠的人类预感。
文汇报:我们看到,麦肯锡公司2011年就发布报告推测,如果把大数据用于美国的医疗保健,一年可产生潜在价值3000亿美元,用于欧洲的公共管理可获得年度潜在价值2500亿欧元;服务提供商利用个人位置数据可获得潜在的消费者年度盈余6000亿美元;利用大数据分析,零售商可增加运营利润60%,制造业设备装配成本会减少50%。“数据创造价值”的预测已经非常振奋人心。在您看来,大数据是否只是一门价值不菲的生意?
迈尔-舍恩伯格:不,大数据可以做更多。医疗方面,我们前面已经提过,只是分析一些重要的征兆,早产婴儿的感染出现明显症状的数小时前,医生就可以预见其生病。
同样,通过大数据分析,我们也可以找出学校教科书中的哪一部分对学生而言效果最好,也可以找出效果不好的部分。到现在为止,我们只能按照人类的预感,即教师自己判断学生在理解特定课程时是否会有疑问;但在大数据时代,我们有实际的数据可以参考,例如数据显示,电子书籍的某些页面被看过许多遍,因为它让学生感觉费解,据此可以调整我们的教材。这将从根本上改变教育。
或者举公共政策为例:Inrix是为智能手机提供导航软件的公司,它还提供实时的交通数据。之所以能做到这一点,是因为每个用户本身都成为了交通流量状况的传感器,把位置和速度信息都发回Inrix公司。这样一来,就可以给行进在交通堵塞路段周围的客户提供良好服务。Inrix公司有一大堆人们的活动数据,这还将有助于城市规划者了解大家的通勤模式,人们从哪里出发去工作,然后返回,并建设基础设施,如道路和铁路。这是最有效的应用。节省钱的同时,也有利于整个社会的管理。
文汇报:大数据对于商业决策、学术研究乃至国家治理的作用是显而易见的;但是对日常生活中的普通人而言,他们一定会从中受益吗?为什么在大数据时代,还是有不少人主张远离过载的信息和数据、返璞归真回到传统的社群生活之中呢?个人生活空间一定得从“简单平面”转变到“多维存在”才有意义吗?
迈尔-舍恩伯格:千百年来,人类已经经历的世界,都是在少量数据的基础上产生很多想法的世界。海员们结束长途航行后回来,地图才会在这一次经验的基础上进行重新绘制。这显然不会很精确。经过试验和犯错的周而复始,人类发展得非常缓慢。但是,当我们只有非常少的数据时,这是理所当然的结果。今天,我们有这么多的数据,难怪人类会不堪重负。但是,现在大数据可以提供帮助。如果人类不太善于消化这些过多的信息,大数据分析可以帮助我们将信息进行过滤,并进一步可视化,使我们能够轻松地加以使用。
人们尚未普遍具备与大数据时代相匹配的思维和技能
文汇报:有专家认为,大数据的未来是数据的APP(加速并行处理)而非基础构架;也就是说,仅仅有数据平台和基础构架是无法创造长期价值的。对此您怎么看?
迈尔-舍恩伯格:我们认为,大数据时代将至少需要和过去时代一样多的人的独创性。同时,巨大的资源才是未来时代的金矿,那些拥有这些数据资源的人将获得的回报是不可想像的。
文汇报:大数据时代,数据都是透明的,我们如何在保护个人隐私、商业机密和国家安全之间取得平衡?您所谓的“互联网遗忘运动”会是最佳药方吗?
迈尔-舍恩伯格:大数据时代所面临的挑战是,我们发现了隐藏在数据背后的价值,所以,保留这些数据,然后一遍遍地重复使用数据,往往成为一种明智的选择。同时,现行的保护个人隐私的法律,特别在西方,针对的是一个传统数据的世界,而不是一个大数据世界。这就需要我们在保护隐私的规则方面作出调整。我们建议,可以通过调整相关保护规则来实现这一目标,正像你所提到的,我们可以在一定时间以后,选择遗忘这些数据。
文汇报:大数据时代是一个海量数据有待处理的时代,同时又是一个海量无用信息需要删除的时代。这是否就是您在《删除》一书中强调我们要有所取舍的原因所在?
迈尔-舍恩伯格:是。在某种程度上,大数据本身也可以加强隐私的保护。因为如果有一百万个数据点,一个单独的数据点就不再那么重要了,这和传统数据时代非常不一样。随着时间的推移,忘记其中一些数据,并不会破坏整个大数据的运行和使用。
文汇报:大数据现在在全球究竟发展到了什么阶段?处理大数据的技术是否已经在全世界范围内普及?
迈尔-舍恩伯格:管理和处理大数据的技术都已经存在了,而且并不是非常昂贵。但是,有一样东西目前仍旧非常缺乏,那就是我们的思维——以理解数据背后所隐藏的巨大价值,以及提取这种价值的专门技能。今天,全球范围内,人们还没有普遍具备这种思维和技能,但是我相信,在未来,这种情况会发生改变。我们预计,世界各地的许多大学将提供针对大数据分析的课程,来培训大数据时代所需要的技能。
文汇报:历次产业技术革命,中国似乎都是学习者和模仿者;和上几轮产业技术革命不同的是,大数据时代,中国几乎和欧美发达国家同时开始技术研发,中国人口又居世界首位,将会成为产生数据量最多的国家。您看好中国在新时代的发展前景吗?中国在大数据时代是否有创新和领先的可能?
迈尔-舍恩伯格:是的,我们对此非常乐观。中国很可能成为大数据这一领域的先驱。在大数据时代,中国有很多优势:中国人都受过良好的教育,特别是在数学和统计方面(这是非常重要的)。中国是一个巨大的多元化社会,这会创造大量机会来创造大数据这一资源,并建立大数据应用。同样的道理,对于大数据的蓬勃发展,我们还需要相匹配的思维方式,有尝试新事物和持续创新的愿望,以实证事实来作为我们决策的依据。因此,和许多其他社会一样,大数据时代的确也会给中国带来非常大的变化。
以上是小编为大家分享的关于大数据时代带来更理性、更可靠的决策的相关内容,更多信息可以关注环球青藤分享更多干货
Ⅶ 大数据时代发展历程是什么
可按照时间点划分大数据的发展历程。
Ⅷ 大数据定义、思维方式及架构模式
大数据定义、思维方式及架构模式 一、大数据何以为大数据现在是个热点词汇,关于有了大数据,如何发挥大数据的价值,议论纷纷,而笔者以为,似乎这有点搞错了原因与结果,就象关联关系,有A的时候,B与之关联,而有B的时候,A却未必关联,笔者还是从通常的4个V来描述一下我所认为的大数据思维。1、大数据的量,数据量足够大,达到了统计性意义,才有价值。笔者看过的一个典型的案例就是,例如传统的,收集几千条数据,很难发现血缘关系对遗传病的影响,而一旦达到2万条以上,那么发现这种影响就会非常明显。那么对于我们在收集问题时,是为了发现隐藏的知识去收集数据,还是不管有没有价值地收集,这还是值得商榷的。其实收集数据,对于数据本身,还是可以划分出一些标准,确立出层级,结合需求、目标来收集,当然有人会说,这样的话,将会导致巨大的偏差,例如说丧失了数据的完整性,有一定的主观偏向,但是笔者以为,这样至少可以让收集到的数据的价值相对较高。2、大数据的种类,也可以说成数据的维度,对于一个对象,采取标签化的方式,进行标记,针对需求进行种类的扩充,和数据的量一样,笔者认为同样是建议根据需求来确立,但是对于标签,有一个通常采取的策略,那就是推荐标签和自定义标签的问题,分类法其实是人类文明的一大创举,采取推荐标签的方式,可以大幅度降低标签的总量,而减少后期的规约工作,数据收集时扩充量、扩充维度,但是在数据进入应用状态时,我们是希望处理的是小数据、少维度,而通过这种推荐、可选择的方式,可以在标准化基础上的自定义,而不是毫无规则的扩展,甚至用户的自定义标签给予一定的限制,这样可以使维度的价值更为显现。3、关于时效性,现在进入了读秒时代,那么在很短的时间进行问题分析、关联推荐、决策等等,需要的数据量和数据种类相比以前,往往更多,换个说法,因为现在时效性要求高了,所以处理数据的方式变了,以前可能多人处理,多次处理,现在必须变得单人处理、单次处理,那么相应的信息系统、工作方式、甚至企业的组织模式,管理绩效都需要改变,例如笔者曾经工作的企业,上了ERP系统,设计师意见很大,说一个典型案例,以往发一张变更单,发出去工作结束,而上了ERP系统以后,就必须为这张变更单设定物料代码,设置需要查询物料的存储,而这些是以前设计师不管的,又没有为设计师为这些增加的工作支付奖励,甚至因为物料的缺少而导致变更单不能发出,以至于设计师工作没有完成,导致被处罚。但是我们从把工作一次就做完,提升企业的工作效率角度,这样的设计变更与物料集成的方式显然是必须的。那么作为一个工作人员,如何让自己的工作更全面,更完整,避免王府,让整个企业工作更具有时间的竞争力,提高数据的数量、种类、处理能力是必须的。4、关于大数据价值,一种说法是大数据有大价值,还有一种是相对于以往的结构化数据、少量数据,现在是大数据了,所以大数据的单位价值下降。笔者以为这两种说法都正确,这是一个从总体价值来看,一个从单元数据价值来看的问题。而笔者提出一个新的关于大数据价值的观点,那就是真正发挥大数据的价值的另外一个思路。这个思路就是针对企业的问题,首先要说什么是问题,笔者说的问题不是一般意义上的问题,因为一说问题,大家都以为不好、错误等等,而笔者的问题的定义是指状态与其期望状态的差异,包括三种模式,1)通常意义的问题,例如失火了,必须立即扑救,其实这是三种模式中最少的一种;2)希望保持状态,3)期望的状态,这是比原来的状态高一个层级的。我们针对问题,提出一系列解决方案,这些解决方案往往有多种,例如员工的培训,例如设备的改进,例如组织的方式的变化,当然解决方案包括信息化手段、大数据手段,我们一样需要权衡大数据的方法是不是一种相对较优的方法,如果是,那么用这种手段去解决,那么也就是有价值了。例如笔者知道的一个案例,一个企业某产品部件偶尔会出现问题,企业经历数次后决定针对设备上了一套工控系统,记录材料的温度,结果又一次出现问题时,进行分析认为,如果工人正常上班操作,不应该有这样的数据记录,而经过与值班工人的质询,值班工人承认其上晚班时睡觉,没有及时处理。再往后,同样的问题再没有再次发生。总结起来,笔者以为大数据思维的核心还是要落实到价值上,面向问题,收集足够量的数据,足够维度的数据,达到具有统计学意义,也可以满足企业生产、客户需求、甚至竞争的时效要求,而不是一味为了大数据而大数据,这样才是一种务实、有效的正确思维方式,是一线大数据的有效的项目推进方式,在这样的思维模式基础上,采取滚雪球方式,把大数据逐步展开,才真正赢来大数据百花齐放的春天。二、大数据思维方式大数据研究专家舍恩伯格指出,大数据时代,人们对待数据的思维方式会发生如下三个变化:1)人们处理的数据从样本数据变成全部数据;2)由于是全样本数据,人们不得不接受数据的混杂性,而放弃对精确性的追求;3)人类通过对大数据的处理,放弃对因果关系的渴求,转而关注相关关系。事实上,大数据时代带给人们的思维方式的深刻转变远不止上述三个方面。笔者认为,大数据思维最关键的转变在于从自然思维转向智能思维,使得大数据像具有生命力一样,获得类似于“人脑”的智能,甚至智慧。1、总体思维社会科学研究社会现象的总体特征,以往采样一直是主要数据获取手段,这是人类在无法获得总体数据信息条件下的无奈选择。在大数据时代,人们可以获得与分析更多的数据,甚至是与之相关的所有数据,而不再依赖于采样,从而可以带来更全面的认识,可以更清楚地发现样本无法揭示的细节信息。正如舍恩伯格总结道:“我们总是习惯把统计抽样看作文明得以建立的牢固基石,就如同几何学定理和万有引力定律一样。但是,统计抽样其实只是为了在技术受限的特定时期,解决当时存在的一些特定问题而产生的,其历史不足一百年。如今,技术环境已经有了很大的改善。在大数据时代进行抽样分析就像是在汽车时代骑马一样。在某些特定的情况下,我们依然可以使用样本分析法,但这不再是我们分析数据的主要方式。”也就是说,在大数据时代,随着数据收集、存储、分析技术的突破性发展,我们可以更加方便、快捷、动态地获得研究对象有关的所有数据,而不再因诸多限制不得不采用样本研究方法,相应地,思维方式也应该从样本思维转向总体思维,从而能够更加全面、立体、系统地认识总体状况。2、容错思维在小数据时代,由于收集的样本信息量比较少,所以必须确保记录下来的数据尽量结构化、精确化,否则,分析得出的结论在推及总体上就会“南辕北辙”,因此,就必须十分注重精确思维。然而,在大数据时代,得益于大数据技术的突破,大量的非结构化、异构化的数据能够得到储存和分析,这一方面提升了我们从数据中获取知识和洞见的能力,另一方面也对传统的精确思维造成了挑战。舍恩伯格指出,“执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下95%的非结构化数据都无法利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户”。也就是说,在大数据时代,思维方式要从精确思维转向容错思维,当拥有海量即时数据时,绝对的精准不再是追求的主要目标,适当忽略微观层面上的精确度,容许一定程度的错误与混杂,反而可以在宏观层面拥有更好的知识和洞察力。3、相关思维在小数据世界中,人们往往执着于现象背后的因果关系,试图通过有限样本数据来剖析其中的内在机理。小数据的另一个缺陷就是有限的样本数据无法反映出事物之间的普遍性的相关关系。而在大数据时代,人们可以通过大数据技术挖掘出事物之间隐蔽的相关关系,获得更多的认知与洞见,运用这些认知与洞见就可以帮助我们捕捉现在和预测未来,而建立在相关关系分析基础上的预测正是大数据的核心议题。通过关注线性的相关关系,以及复杂的非线性相关关系,可以帮助人们看到很多以前不曾注意的联系,还可以掌握以前无法理解的复杂技术和社会动态,相关关系甚至可以超越因果关系,成为我们了解这个世界的更好视角。舍恩伯格指出,大数据的出现让人们放弃了对因果关系的渴求,转而关注相关关系,人们只需知道“是什么”,而不用知道“为什么”。我们不必非得知道事物或现象背后的复杂深层原因,而只需要通过大数据分析获知“是什么”就意义非凡,这会给我们提供非常新颖且有价值的观点、信息和知识。也就是说,在大数据时代,思维方式要从因果思维转向相关思维,努力颠覆千百年来人类形成的传统思维模式和固有偏见,才能更好地分享大数据带来的深刻洞见。4、智能思维不断提高机器的自动化、智能化水平始终是人类社会长期不懈努力的方向。计算机的出现极大地推动了自动控制、人工智能和机器学习等新技术的发展,“机器人”研发也取得了突飞猛进的成果并开始一定应用。应该说,自进入到信息社会以来,人类社会的自动化、智能化水平已得到明显提升,但始终面临瓶颈而无法取得突破性进展,机器的思维方式仍属于线性、简单、物理的自然思维,智能水平仍不尽如人意。但是,大数据时代的到来,可以为提升机器智能带来契机,因为大数据将有效推进机器思维方式由自然思维转向智能思维,这才是大数据思维转变的关键所在、核心内容。众所周知,人脑之所以具有智能、智慧,就在于它能够对周遭的数据信息进行全面收集、逻辑判断和归纳总结,获得有关事物或现象的认识与见解。同样,在大数据时代,随着物联网、云计算、社会计算、可视技术等的突破发展,大数据系统也能够自动地搜索所有相关的数据信息,并进而类似“人脑”一样主动、立体、逻辑地分析数据、做出判断、提供洞见,那么,无疑也就具有了类似人类的智能思维能力和预测未来的能力。“智能、智慧”是大数据时代的显著特征,大数据时代的思维方式也要求从自然思维转向智能思维,不断提升机器或系统的社会计算能力和智能化水平,从而获得具有洞察力和新价值的东西,甚至类似于人类的“智慧”。舍恩伯格指出,“大数据开启了一个重大的时代转型。就像望远镜让我们感受宇宙,显微镜让我们能够观测到微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发”。大数据时代将带来深刻的思维转变,大数据不仅将改变每个人的日常生活和工作方式,改变商业组织和社会组织的运行方式,而且将从根本上奠定国家和社会治理的基础数据,彻底改变长期以来国家与社会诸多领域存在的“不可治理”状况,使得国家和社会治理更加透明、有效和智慧。
Ⅸ 什么是大数据大数据具体有什么用大数据到底能干什么
什么是大数据?
一句话快答:一是大数据是一个很大的海量的数据集;二是指版的新型处理权海量数据的技术体系。
大数据是一个抽象的概念,可以简单理解为"大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。
大数据有什么价值?
一句话快答:将海量数据价值化。
大数据的核心作用是数据价值化,简单地说就是大数据让数据产生各种“价值”,这个将数据价值化的过程就是大数据要做的主要事情。
大数据有哪些作用?
一句话快答:给人类提供辅助服务,为智能体提供决策服务。
大数据不仅包括企业内部应用系统的数据分析,还包括与行业、产业的深度融合。具体场景包括:互联网行业、政府行业、金融行业、传统企业中的地产、医疗、能源、制造、电信行业等等。通俗地讲“大数据就像互联网+,可以应用在各行各业",如电信、金融、教育、医疗、军事、电子商务甚至政府决策等。
对企业而言,大数据可提高工作效率,降低企业成本,精准营销带来更多客户。
对政府而言,可以利用大数进行统筹分析、提高管理效率、管理抓获犯罪分子等。
对个人而言,可以利用大数据更了解自己等。加米谷大数据培训。