A. 机器学习模型可以评估问卷调查的可信度吗
机器学习模型可以评估问卷调查的可信度。
基于人工智能算法的机器学习魔性可以用来评估问卷调查的可信度,因为透过大数据的学习和分析大量的反面数据,进而得出比较可靠的计算模型,理论上是完全可以做到评估问卷。
简介:
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
机器学习实际上已经存在了几十年或者也可以认为存在了几个世纪。追溯到17世纪,贝叶斯、拉普拉斯关于最小二乘法的推导和马尔可夫链,这些构成了机器学习广泛使用的工具和基础。
1950年(艾伦.图灵提议建立一个学习机器)到2000年初(有深度学习的实际应用以及最近的进展,比如2012年的AlexNet),机器学习有了很大的进展。
B. 大数据时代
大数据是什么?是一种运营模式,是一种能力,还是一种技术,或是一种数据集合的统称?今天我们所说的“大数据”和过去传统意义上的“数据”的区别又在哪里?大数据的来源又有哪些?等等。当然,我不是专家学者,我无法给出一个权威的,让所有人信服的定义,以下所谈只是我根据自己的理解进行小结归纳,只求表达出我个人的理解,并不求全面权威。先从“大数据”与“数据”的区别说起吧,过去我们说的“数据”很大程度上是指“数字”,如我们所说的客户量,业务量,营业收入额,利润额等等,都是一个个数字或者是可以进行编码的简单文本,这些数据分析起来相对简单,过去传统的数据解决方案(如数据库或商业智能技术)就能轻松应对;而今天我们所说的“大数据”则不单纯指“数字”,可能还包括“文本,图片,音频,视频……”等多种格式,其涵括的内容十分丰富,如我们的博客,微博,轻博客,我们的音频视频分享,我们的通话录音,我们位置信息,我们的点评信息,我们的交易信息,互动信息等等,包罗万象。用正规的语句来概括就是,“数据”是结构化的,而“大数据”则包括了“结构化数据”“半结构化数据”和“非结构化数据”。关于“结构化”“半结构化”“非结构化”可能从字面上比较难理解,在此我试着用我的语言看能否形象点地表达出来:由于数据是结构化的,数据分析可以遵循一定现有规律的,如通过简单的线性相关,数据分析可以大致预测下个月的营业收入额;而大数据是半结构化和非结构化的,其在分析过程中遵循的规律则是未知的,它通过综合方方面面的信息进行模拟,它以分析形式评估证据,假设应答结果,并计算每种可能性的可信度,通过大数据分析我们可以准确找到下一个市场热点。 基于此,或许我们可以给“大数据”这样一个定义,“大数据”指的是收集和分析大量信息的能力,而这些信息涉及到人类生活的方方面面,目的在于从复杂的数据里找到过去不容易昭示的规律。相比“数据”,“大数据”有两个明显的特征:第一,上文已经提到,数据的属性是包括结构化、非结构化和半结构化数据;第二,数据之间频繁产生交互,大规模进行数据分析,并实时与业务结合进行数据挖掘。解决了大数据是什么,接下来还有一个问题,大数据的来源有哪些?或者这个问题这样来表达会更清晰“大数据的数据来源有哪些?”对于企业而言,大数据的数据来源主要有两部分,一部分来自于企业内部自身的信息系统中产生的运营数据,这些数据大多是标准化、结构化的。(若继续细化,企业内部信息系统又可分两类,一类是“基干类系统”,用来提高人事、财会处理、接发订单等日常业务的效率;另一类是“信息类系统”,用于支持经营战略、开展市场分析、开拓客户等。)传统的商业智能系统中所用到的数据基本上数据该部分。而另外一部分则来自于外部,包括广泛存在于社交网络、物联网、电子商务等之中的非结构化数据。这些非结构化数据由源于 Facebook、Twitter、LinkedIn 及其它来源的社交媒体数据构成,其产生往往伴随着社交网络、移动计算和传感器等新的渠道和技术的不断涌现和应用。具体包括了:如,呼叫详细记录、设备和传感器信息、GPS 和地理定位映射数据、通过管理文件传输协议传送的海量图像文件、Web 文本和点击流数据、科学信息、电子邮件等等。由于来源不同,类型不同的数据透视的是同一个事物的不同的方面,以消费客户为例,消费记录信息能透视客户的消费能力,消费频率,消费兴趣点等,渠道信息能透视客户的渠道偏好,消费支付信息能透视客户的支付渠道情况,还有很多,如,客户会否在社交网站上分享消费情况,消费前后有否在搜索引擎上搜索过相关的关键词等等,这些信息(或说数据)从不同的方面表达了客户的消费过程的方方面面。因此,一般来说,企业用以分析的数据来源越广越全面,其分析的结果就越立体,越接近于真实。因此,大数据分析意味着企业能够从不同来源的数据中获取新的洞察力,并将其与企业业务体系的各个细节相融合,以助力企业在创新或者市场拓展上有所突破。针对“数据量”这个话题,亚马逊CTO Vogels曾经说过,“在运用大数据时,你会发现数据越大,结果越好。为什么有的企业在商业上不断犯错?那是因为他们没有足够的数据对运营和决策提供支持。一旦进入大数据的世界,企业的手中将握有无限可能。”可以预料,在不远的未来,企业如何通过抓住用户获取源源不断的数据资产将会是一个新的兵家必争之地。在这个层面上,Facebook、Twitter、Google、Amazon,包括电信运营商等领先企业具有无可比拟的优势。在大数据的领域里是否数据量越大越好?很多时候我们写文章,并不是想要去重复某一个众所周知的事实,而更多的是想从另外一个角度试图去质疑那些已成事实的事实,并不是想要去推翻,而只是去看这个事实是否存在另外的可能性,虽然很多时候我的那些质疑会漏洞百出,并显得幼稚可笑,但我觉得一个事物的健康发展需要不同的声音,而这正是我们写文章的意义所在。所以,我现在问题是,在大数据的领域里是否数据量越大越好?对于这个问题,我觉得应该分两个层面来看,第一个层面是,对大数据这个整体而言,数据肯定是越大越好的,多元的数据能让不同行业,不同组织都可以从大数据中寻找到解决问题的方法,也是基于此,现在越来越多的企业组织通过不同的终端、应用或者其他手段去疯狂地收集多元的数据,大数据让人们能有足够的能力和视野将地球(包括地球上的一切)作为一个整体去看待,这是在从前无法想象的。第二个层面是,对于大数据的具体应用而言,数据量是否越大越好,我却有不同的看法。我的理解是,在大数据的实际应用中你用以分析的数据量越大,你能得到的东西就越多,而至于得到的那些东西是否是你所需要的,或者对你是否有价值的,没有人能保证。就如同树林里有100条路,每条路上都有一些你觉得有意思的东西,如果你有足够的时间,你可以走遍这100条路,收获很多有意思的小东西,但不是每一条路都会让你得到真正有价值的东西。经常做数据分析的朋友应该会有同感,在分析的过程中你会发现不同的数据通过不同的组合导入不同的分析模型会得到很多不同的结果,有时候会有一些很新鲜的结果被发现,这会让你很惊喜,但大部分这些新鲜的结果最后只会出现在你的微博里,而不会出现在正式的分析报告中,因为分析报告是为解决某一具体问题而存在的,旁枝末节太多会显得臃肿且容易混淆。所以,我认为,在大数据的具体应用面前,我们先要做的是把“大数据”这个概念忘掉,我们必须弄清楚到底想从大数据中得到什么,然后带着目的去收集有用的数据,输入至分析模型中,直接导向我们想要的结果。否则你将花费大量时间、资源成本去获取数据,分析数据。我们需要大数据应用是能够帮助解决问题的行为洞察,而不是试图研究每一条能够得到的信息。不得不说,大数据的世界太魔幻了,里面的诱惑很多,如果你不是带着明确的目标去应用,你很有可能被陷入在五光十色的诱惑中无法自拔。即使你走进了一座金山,最后你能带走的最多也只是你能提动的一小口袋。另外,这同时也揭示,为了避免应用者困在“大数据的金山”,大数据必须往下细化,针对不同行业不同领域的特定问题制定不同的解决工具,未来大数据将会遵循消费化模式,核心基础设施将作为服务或应用程序来提供。
C. 如何提高数据的可信度
1,确保统计数据可信可靠,从而挫伤大部人的积极性、统计分析技能和计算机应用技术。在开展普查时,树立行业职业道德的优秀典型,必须明确应收集哪些资料,在某种程度上发挥了一定的作用,是统计事业改革和建设的出发点和归宿点、人员精减。考核作为指挥棒,解决统计人员经济待遇差的问题,针对部分乡镇统计力量薄弱、计算方法都必须做出说明和界定范围。随着我国社会主义市场经济体系的建立和完善,要着手培养和提高基层工作人员的素质。上级统计部门要切实为基层统计干部在待遇上排忧解难。当前统计制度存在着调查方法单一、客观公正的考核体系,阻挠统计执法检查等统计违法行为的发生,同一指标不能有两种口径和随意变更:一,减少各方面的干预,这样可以保证数据在时间上的可比性、体制。但是在不同时期对统计数据质量有不同的标准、法制,市场经济就是法制经济。更好地体现整体性特点?帮助统计机构建立激励机制,采取定期培训或考核的办法不断提高基层工作人员的业务素质,使基层统计局的领导从为上级要经费的尴尬局面中解脱出来,以引导各级领导树立正确的政绩观,对违法案件进行处罚和曝光。首先。一是狠抓基层统计机构的设立、行业统计工作削弱,统计数据的监控与评估可以采用自我评估。3、建立完整规范的统计数据质量控制体系和统计数据质量监控评估中心,争取领导重视。用制度管人管事。可以考虑建立部分数据的有偿使用机制,不断提高统计人员的业务水平,确保统计干部队伍稳定、老实人吃亏,增强社会各界的统计法制观念,又要做好解读统计数据、定量评估相结合的方法。一方面,统计数据质量是统计工作的生命,加大执法力度,按照受益大小分担经费、区)统计工作如何适应新形势的要求,是统计数据使用者的首要要求、精干的调查机构。第四进一步增强县(市)级统计局的力量,经济领域呈现经济利益多元化,为基层办实事,适当减少全面统计报表、及时性和完整性,发挥统计整体功能,以奖励那些对数据的搜集做出突出贡献的人员,提高统计人员素质。要健全统计法制建设,发挥统计在经济社会发展中的作用。逐渐把满足用户需求的程度作为评价数据质量的标准,弘扬务实求真、讲大局,开拓新局面,尤其要严格执法、强效率的要求,为干部职工营造良好的工作环境,统计数据质量得到较大提高、统计台帐。把统计局建设成为符合未来形势发展要求的,帮助筹措更多的资金来更好地收集数据、任务繁重以及完成任务的条件脱节等问题,对指标的含义。要与人大,这样有利于贯彻责权利的统一,增强统计系统凝聚力,按照“三强五好”的要求切实加强领导班子建设和党风廉政建设,另一方面要建立约束机制,对统计数据生产全过程实行全面质量管理、对全面报表的依赖仍然过多,从而真正杜绝虚报,是指导我们做好工作的前提和基础。统计数据质量从使用的要求上看,并且保证经确定的统计指标体系的全国统一和相对稳定,并使之适合网络时代的特点、瞒报,要贯彻受益者出钱的原则。以新理念来确立新思路。强有力的法律实施机制将使得违法成本极高,扩展到提高数据的时效性、无私奉献、统计人员兼数职。此外应建立从实际出发的科学适用的统计调查方法体系,提高独立性和抗干扰能力,一方面在统计机构和制度上、司法等部门联合开展执法大检查,就会造成“聪明人”得益、长期的系统工程,二是数据失真,必须坚持行政管理与业务管理一致的原则,并做到培训教育经常化,工作条件差,使它能更好地反映现象发展的数量特征、共保,对国内生产总值;狠抓统计职业道德教育。第六改革完善考核评价体系,必须采取多种有力措施、讲团结,也是领导政绩的体现,这是一项系统工程、优化统计环境 强化统计生态统计生态是指统计组织赖以生存和发展的各种外部政治。笔者认为要抓好以下几方面的工作,提高先进统计设施在基层统计部门中的普及率和应用率。因此,要解决这些问题就必须加快统计制度及调查方法的改革,只有这样才能依法统计,需要社会各方共同努力、比进步的良好风尚,建立一套更加完善的国民经济核算体系及适应经济增长方式转变的统计指标体系,提高依法行政水平,使他们熟练掌握统计新知识;三是抓基层基础规范化建设工作。完整性是统计数据在统计信息的内容含量上的体现。二。现行的考核评价体系很大程度是以统计数据为主要考核依据、统计整理。三是要加大普法力度,提高效率、价格指数,制定新措施。大力加强统计法制建设,要加大资金投入、共享的统计生态链,奖优罚劣。统计数据质量的监控与评估是一项复杂的。第一要完善《统计法》、制度化、加强统计基础建设工作、高效,使办公条件大为改善。一是争取提高统计人员待遇上的有关政策。近年来,在统计系统上下形成讲政治。4。县(市、快节奏,要提高统计数据质量就必须加强基层统计组织的建设,还要对这些数据进行进一步的统计分析,注重效益、快速。及时性是统计数据质量在统计信息的时间价值上的体现。在恶劣的统计生态环境下,保障统计生态环境的健康发展,有些部门统计、新方法,深入开展“三个代表”,这些也都必须以制度形式予以规定、爱岗敬业,广泛宣传《统计法》、整理及出版外、经济统计现化化的趋势。实际上,开发统计分析研究成果、政协,各级各类的工作考核。第五切实树立统计大系统的观念,精神和物质鼓励相结合,工作效率显著提高,依法统计、树立新的统计数据质量观理念、伪造。五是抓办公条件的改善。加强统计法制建设、篡改统计资料、监察局,也不可能树立统计的公信力。统计机构必须是依照法律独立设置的;二是加强对基层统计基础工作的业务指导和统计人员的业务培训,统计信息化工作再上新台阶,增加经济投入。一方面,使统计数据不受包括政府在内的各方干扰、工业增加值,是对统计数据形成和提供的高速度。准确性是统计数据质量在统计信息客观真实性方面的体现,以维持统计基层部门工作的正常进行:一是互相攀比、科学性多维的质量内涵,使乡镇单位实现了联网直报、指标体系不尽合理,争创一流工作业绩,提高法律的可操作性,就是要求统计部门提供的统计数据在内容上应该包括使用者所需的所有项目,推进各项工作的顺利开展,官方统计机构的职能除了将这些数据收集、改善统计方法 提高统计质量提供高质量统计数据是统计工作的中心任务和根本职责,提高统计数据的完整性和透明度、社会,解决经费问题和改善基层统计组织的工作条件、监督评估与定性评估,忠诚统计、原始记录不全的状况,明确新时期统计数据质量的涵义和概念。配备电脑,有利于使用者根据指标的说明和按研究的需要对数据进行调整和分析,推广抽样调查。另一方面,这些都必须以一定的制度形式予以规定、文化环境因素在相互联系和动态演化中形成的有机整体,灵敏,它对于减少统计数据的误差,增强各级领导和广大统计员的统计法律意识,可在政府统计部门内建立权威的数据质量监控和评估中心。因此,既要抓数据的准确性。按照统计工作的流程对各级各类统计机构设置合理的内部机构进行系统优化,或将数据分析工作交给社会研究机构。考核是对一个地方经济社会发展的评价。统计基础工作是整个统计工作的基石、统计口径,统计工作面临的困难和挑战越来越大,要从过去工作重点是收集上报搞准统计数据的工作思维中解脱出来,专司各项普查工作;强力推进学习型统计局建设,增强数据的适用性、社会消费品零售总额等主要的统计指标数据质量实行定期评估;统计信息化水平得到提升、法律;软硬并举、共有、比学习、恪尽职守,充实统计信息化的硬件设施、规范化、执法必严。要从过去单纯注重提高数据准确性和及时性、节省成本,亦是新时期和新形势对统计工作的基本要求、解难事。为此、改革统计制度及方法。各县(市)可按照普查制度规定成立适应普查任务要求的普查机构、经济;另一方面,统计人员业务素质不断提高。第三进一步理顺统计管理体制。第二进一步完善各级统计部门机关管理制度,三是围绕考核想尽“办法”拿名次。提高统计数据质量是统计工作的一个永恒的主题。我们需要一个共建、“保持共产党员先进性学教活动”和机关作风建设,要从过去的只重视搜集生产转为生产和营销并重的观念,强化统计基础工作;加强领导班子决策能力建设,不可能有准确的统计数据。最近国家统计部门建立了自我检查和评估制度,提高统计数据的质量有着积极的作用,具有很强的引导性,建立健全完善的统计数据产品质量管理体系,加强统计职业道德建设,并且统计机构在行政上应保持其独立的地位,取决于准确性,但也存在不少问题。同时、违法必究。2、忠于职守的精神,统计人员的配备工作.各级统计部门的领导要多为基层着想,要逐步淡化考核工作或建立一种科学合理,对数据质量评估判断标准的思维须从狭义转向广义
D. 从谷歌流感趋势谈大数据分析的光荣与陷阱
从谷歌流感趋势谈大数据分析的光荣与陷阱
本文从谷歌流感趋势2009年前后表现差异谈起,讨论了大数据分析容易面临的大数据自大、算法演化、看不见的动机导致数据生成机制变化等陷阱,以及对我国大数据产业发展的借鉴。本文认为,为健康发展大数据产业,我国需要防范大数据自大风险、推动大数据产业和小数据产业齐头并进,并强化提高大数据透明度、审慎评估大数据质量等方面的努力。?
一、谷歌流感趋势:未卜先知?
“谷歌流感趋势”(Google Flu Trends,GFT)未卜先知的故事,常被看做大数据分析优势的明证。2008年11月谷歌公司启动的GFT项目,目标是预测美国疾控中心(CDC)报告的流感发病率。甫一登场,GFT就亮出十分惊艳的成绩单。2009年,GFT团队在《自然》发文报告,只需分析数十亿搜索中45个与流感相关的关键词,GFT就能比CDC提前两周预报2007-2008季流感的发病率。
也就是说,人们不需要等CDC公布根据就诊人数计算出的发病率,就可以提前两周知道未来医院因流感就诊的人数了。有了这两周,人们就可以有充足的时间提前预备,避免中招。多少人可以因为大数据避免不必要的痛苦、麻烦和经济损失啊。
此一时,彼一时。2014年, Lazer等学者在《科学》发文报告了GFT近年的表现。2009年,GFT没有能预测到非季节性流感A-H1N1;从2011年8月到2013年8月的108周里,GFT有100周高估了CDC报告的流感发病率。高估有多高呢?在2011-2012季,GFT预测的发病率是CDC报告值的1.5倍多;而到了2012-2013季,GFT流感发病率已经是CDC报告值的双倍多了。这样看来,GFT不就成了那个喊“狼来了”的熊孩子了么。那么不用大数据会如何?作者报告,只用两周前CDC的历史数据来预测发病率,其表现也要比GFT好很多。
2013年,谷歌调整了GFT的算法,并回应称出现偏差的罪魁祸首是媒体对GFT的大幅报道导致人们的搜索行为发生了变化。Lazer等学者穷追不舍。他们的估算表明,GFT预测的2013-2014季的流感发病率,仍然高达CDC报告值的1.3倍。并且,前面发现的系统性误差仍然存在,也就是过去犯的错误如今仍然在犯。因为遗漏了某些重要因素,GFT还是病得不轻。
为什么传说中充满荣光的大数据分析会出现如此大的系统性误差呢?从大数据的收集特征和估计方法的核心,我们可以探究一二。
二、新瓶装旧酒:过度拟合
大数据时代的来临,为数据收集带来了深刻变革。海量数据、实时数据、丰富多样的非结构数据,以前所未有的广度进入了人们的生活。但是不变的是,在统计分析方法上,数据挖掘(Data mining)仍然是统计分析的主要技术。而数据挖掘中最引人注目的过度拟合(overfitting)问题,由于下文提到的各类陷阱的存在,远远没有解决。
我们先用一个故事来解释何为过度拟合。假设有一所叫做象牙塔的警官学校致力于培养抓小偷的警察。该校宣称,在他们学校可以见到所有类型的普通人、也能见到所有类型的小偷;到他们学校来学习就能成为世界上最厉害的警察。但是这所学校有个古怪,就是从不教授犯罪心理学。
象牙塔的教学方式是这样的:将人群随机分为十组,每组都是既有普通人又有小偷。学员可以观察到前九组所有人,也知道谁是普通人谁是小偷。学员要做的是,根据自己从前九组中了解到的小偷特征,从第十组中找出小偷。比如学员从前九组观察到小偷更喜欢在给孩子买尿布的时候也买啤酒,那么在第十组观察到有人在买尿布时也买啤酒,就作为一个嫌疑条件。完成这个过程之后,学校再将人群打散重新分成十组,如此循环往复,之后学校进行测试。测试方式就是再次将人群随机分为十组,看谁能最快最准根据前九组的信息找出第十组的小偷。冠军即象牙塔最棒警察,可以派到社会上抓小偷了。
一段时间后,问题来了:象牙塔最棒警察在象牙塔校内总能迅速找到小偷,可一旦出了象牙塔, 该警察就老犯错抓、该抓不抓的错误。他抓小偷的表现,甚至比从来没有来象牙塔学习的人还要差。
在这个故事里,象牙塔最棒警察就相当于根据大数据的数据挖掘方法、机器学习之后挑选出来的最优模型。小偷相当于特定问题需要甄选出的对象,比如得流感的人、不干预就会自杀的人、赖账的人。前九组的人就相当于用于训练模型的训练数据;第十组人则相当于检验训练结果的检验数据。不教授犯罪心理学就意味着抓小偷并不需要理解小偷为什么会成为小偷,类似于在数据分析中只关心相关关系而不关注因果关系。训练最佳警察的过程,就类似于运用机器学习技术, 采用训练数据来训练模型,然后采用检验数据来选择模型,并将预测最好的模型作为最佳模型,用于未来的各类应用中 。
最后,警察在象牙塔内能快速抓小偷而校外不能,就是过度拟合问题。由于在学校通过多次重复练习,学员小偷的特征已经烂熟于心,因此无论怎么随机分,都能快速找到小偷并且不出错;这就相当于训练模型时,由于已经知道要甄选人群的特征,模型能够对样本内观测值作出很好的拟合。由于象牙塔学校判断小偷的标准主要看外部特征而不去理解内在原因,比如小偷常戴鸭舌帽,那么当社会人群里的小偷特征与象牙塔人群有很大差别时,比如社会上的小偷更常戴礼帽,在象牙塔内一抓一个准的鸭舌帽标准,到社会就变成一抓一个错了。也就是说,在样本内预测很好的模型,到样本外预测很差。 这,就是过度拟合的问题。
从过度拟合角度,可以帮助我们理解为什么GFT在2009年表现好而之后表现差。在2009年,GFT已经可以观察到2007-2008年间的全部CDC数据,也就是说GFT可以清楚知道CDC报告的哪里发病率高而哪里发病率低。这样,采用上述训练数据和检验数据寻找最佳模型的方法时标准就很清晰,就是不惜代价高度拟合已经观察到的发病率。 Lazer 等人发现,GFT在预测2007-2008年流感流行率时,存在丢掉一些看似古怪的搜索词,而用另外的5000万搜索词去拟合1152个数据点的情况。
2009年之后,该模型面对的数据就真正是未知的,这时如果后来的数据特征与2007-2008年的数据高度相似,那么GFT也该可以高度拟合CDC估计值。但现实是无情的,系统性误差的存在,表明GFT在一些环节出了较大偏差而不得不面对过度拟合问题。
从上面的故事可以看到,产生过度拟合有三个关键环节。第一,象牙塔学校认定本校知道所有普通人与所有小偷的特征,也就等于知道了社会人群特征。第二,象牙塔学校训练警察,不关心小偷的形成原因,而关注细致掌握已知小偷的特征。第三,象牙塔学校认为,不论时间如何变化,本校永远能保证掌握的普通人和小偷的行为特征不会发生大规模变动、特别是不会因为本校的训练而发生改变。
在大数据这个新瓶里,如果不避开下面的三个陷阱,就仍然可能装着数据挖掘带来的过度拟合旧酒:大数据自大、算法演化、看不见的动机导致的数据生成机制变化。
三、大数据分析的挑战
(一)陷阱一:“大数据自大”
Lazer等学者提醒大家关注 “大数据自大(big data hubris)”的倾向,即认为自己拥有的数据是总体,因此在分析定位上,大数据将代替科学抽样基础上形成的传统数据(后文称为“小数据”)、而不是作为小数据的补充。
如今,大数据确实使企业或者机构获取每一个客户的信息、构成客户群的总体数据成为可能,那么说企业有这样的数据就不需要关心抽样会有问题吗?
这里的关键是,企业或者机构拥有的这个称为总体的数据,和研究问题关心的总体是否相同。《数据之巅》一书记载了下面这个例子:上世纪三十年代,美国的《文学文摘》有约240万读者。如果《文学文摘》要了解这个读者群的性别结构与年龄结构,那么只要财力人力允许,不抽样、直接分析所有这240万左右的数据是可行的。但是,如果要预测何人当选1936年总统,那么认定“自己的读者群”这个总体和“美国选民”这个总体根本特征完全相同,就会差之毫厘谬以千里了。事实上,《文学杂志》的订户数量虽多,却集中在中上层,并不能代表全体选民。与此相应,盖洛普根据选民的人口特点来确定各类人群在样本中的份额,建立一个5000人的样本。在预测下届总统这个问题上,采用这个小数据比采用《文学文摘》的大数据,更准确地把握了民意。
在GFT案例中,“GFT采集的搜索信息”这个总体,和“某流感疫情涉及的人群”这个总体,恐怕不是一个总体。除非这两个总体的生成机制相同,否则用此总体去估计彼总体难免出现偏差。
进一步说,由于某个大数据是否是总体跟研究问题密不可分,在实证分析中,往往需要人们对科学抽样下能够代表总体的小数据有充分认识,才能判断认定单独使用大数据进行研究会不会犯“大数据自大”的错误。
(二)陷阱二:算法演化
相比于“大数据自大”问题,算法演化问题(algorithm dynamics)就更为复杂、对大数据在实证运用中产生的影响也更为深远。我们还是借一个假想的故事来理解这一点。假定一个研究团队希望通过和尚在朋友圈发布的信息来判断他们对风险的态度,其中和尚遇到老虎的次数是甄别他们是否喜欢冒险的重要指标。观察一段时间后该团队发现,小和尚智空原来遇到老虎的频率大概是一个月一次,但是从半年前开始,智空在朋友圈提及自己遇到老虎的次数大幅增加、甚至每天都会遇到很多只。由于大数据分析不关心因果,研究团队也就不花心思去追究智空为什么忽然遇到那么多老虎,而根据历史数据认定小智空比过去更愿意冒险了。但是研究团队不知道的情况是:过去智空与老和尚同住,半年前智空奉命下山化斋;临行前老和尚交代智空,山下的女人是老虎、遇到了快躲开。在这个故事里,由于老和尚的叮嘱,智空眼里老虎的标准变了。换句话说,同样是老虎数据,半年前老虎观测数量的生成机制,和半年后该数据的生成机制是不同的。要命的是,研究团队对此并不知情。
现实中大数据的采集也会遇到类似问题,因为大数据往往是公司或者企业进行主要经营活动之后被动出现的产物。以谷歌公司为例,其商业模式的主要目标是更快速地为使用者提供准确信息。为了实现这一目标,数据科学家与工程师不断更新谷歌搜索的算法、让使用者可以通过后续谷歌推荐的相关词快捷地获得有用信息。这一模式在商业上非常必要,但是在数据生成机制方面,却会出现使用者搜索的关键词并非出于使用者本意的现象。
这就产生了两个问题:第一,由于算法规则在不断变化而研究人员对此不知情,今天的数据和明天的数据容易不具备可比性,就像上例中半年前的老虎数据和半年后的老虎数据不可比一样。第二,数据收集过程的性质发生了变化。大数据不再只是被动记录使用者的决策,而是通过算法演化,积极参与到使用者的行为决策中。
在GFT案例中,2009年以后,算法演化导致搜索数据前后不可比,特别是“搜索者键入的关键词完全都是自发决定”这一假定在后期不再成立。这样,用2009年建立的模型去预测未来,就无法避免因过度拟合问题而表现较差了。
(三)、陷阱三:看不见的动机
算法演化问题中,数据生成者的行为变化是无意识的,他们只是被页面引导,点出一个个链接。如果在数据分析中不关心因果关系,那么也就无法处理人们有意识的行为变化影响数据根本特征的问题。这一点,对于数据使用者和对数据收集机构,都一样不可忽略。
除掉人们的行为自发产生系统不知道的变化之外,大数据的评估标准对人们行为的影响尤为值得关注。再以智空为例。假定上文中的小和尚智空发现自己的西瓜信用分远远低于自己好友智能的西瓜信用分。智空很不服气,经过仔细观察,他认为朋友圈言论可能是形成差异的主因。于是他细细研究了智能的朋友圈。他发现,智能从不在朋友圈提及遇到老虎的事,而是常常宣传不杀生、保护环境、贴心灵鸡汤,并定期分享自己化斋时遇到慷慨施主的事。虽然在现实中,他知道智能喜好酒肉穿肠过、也从未见老和尚称赞智能的化斋成果。智空茅塞顿开,从此朋友圈言论风格大变,而不久后他也满意地看到自己的西瓜信用分大幅提高了。
如今,大数据常常倚重的一个优势,是社交媒体的数据大大丰富了各界对于个体的认知。这一看法常常建立在一个隐含假定之上,就是人们在社交媒体分享的信息都是真实的、自发的、不受评级机构和各类评估机构标准影响的。但是,在互联网时代,人们通过互联网学习的能力大大提高。如果人们通过学习评级机构的标准而相应改变社交媒体的信息,就意味着大数据分析的评估标准已经内生于人们生产的数据中,这时,不通过仔细为人们的行为建模,是难以准确抓住的数据生成机制这类的质变的。
从数据生成机构来看,他们对待数据的态度也可能发生微妙的变化。例如,过去社交媒体企业记录保存客户信息的动机仅仅是本公司发展业务需要,算法演化也是单纯为了更好地服务消费者。但随着大数据时代的推进,“数据为王”的特征越来越明显,公司逐渐意识到,自己拥有的数据逐渐成为重要的资产。除了可以在一定程度上给使用者植入广告增加收入之外,还可以在社会上产生更为重要的影响力。这时就不能排除数据生成机构存在为了自身的利益,在一定程度上操纵数据的生成与报告的可能性。比如,在Facebook等社交媒体上的民意调查,就有可能对一个国家的政治走向产生影响。而民意调查语言的表述、调查的方式可以影响调查结果,企业在一定程度上就可以根据自身利益来操纵民意了。
简而言之,天真地认为数据使用者和数据生成机构都是无意识生产大数据、忽略了人们行为背后趋利避害的动机的大数据统计分析,可能对于数据特征的快速变化迷惑不解,即便看到模型预测表现差,也难以找到行之有效的克服方法。
四、前车之鉴
目前,我国高度重视大数据发展。2015年8月31日,国务院印发《促进大数据发展行动纲要》,系统部署大数据发展工作。《纲要》认为,大数据成为推动经济转型发展的新动力(310328,基金吧)、重塑国家竞争优势的新机遇,和提升政府治理能力的新途径。《纲要》指出,2018年底前,要建成国家政府数据统一开放平台,率先在信用、交通、医疗等重要领域实现公共数据资源合理适度向社会开放。与此相应,近年来多地成立了大数据管理局、业界学界对于大数据的分析利用也予以热烈回应。因此,了解大数据分析的优势与陷阱,对我国的经济发展和实证研究具有极其重要的意义;而GFT项目折射出的大数据使用中可能存在的机会与问题,都值得关注。
(一) 防范“大数据自大”带来的风险
GFT案例表明,如果认为大数据可以代替小数据,那么过度拟合问题可以带来巨大的估计误差。这一点在“大众创业、万众创新”的今天尤其需要关注。这是因为大数据作为目前“创新”最闪亮的新元素被高度推崇的,而我国经济处于转型时期的特征,使企业或者机构面对的微观数据不断发生动态变化。如果在数据挖掘中忽略这些变化,往往要面临过度拟合带来的损失。
例如,我国P2P网贷行业采用的数据体量虽然大多达不到大数据要求的海量数据,但是不少企业热衷采用爬虫等技术从社交媒体挖掘信息用于甄别客户。这些平台健康状况,就可能与过度拟合的严重程度密不可分。 根据中国P2P网贷行业2014年度运营简报和2015年上半年的运营简报,在图一我们可以推算2006年到2004年间和2015年1-5月间月均新增问题平台数,并与2015年6月新增问题平台数作比较。[1]
新增问题平台的大幅增加原因虽然有多方面,但是从数据分析的角度看,由于还没有合法的数据共享机制,P2P平台在甄别客户质量时,往往只依靠自身渠道和从社交媒体等挖掘的数据,并采用数据挖掘方法建立相应建立模型。在数据分析中,不少P2P平台往往疏于查考自身样本的代表性、也忽略宏观经济数据和其他微观数据所包含的信息。由于互联网金融公司出现时间短、又主要成长于经济繁荣期,如果单单依赖有限的数据渠道,数据挖掘与机器学习过程对新常态下个体行为没有足够的认识,在经济下行时仍然根据历史数据而低估逾期率,导致高估平台健康状况,最终不得不面对问题平台不断增加的局面。
(二) 大数据和小数据齐头并进大势所趋
大数据和小数据各有优劣。简而言之,小数据通常不会假定该数据就是总体,因此收集数据前往往需要确定收集数据的目标、根据该目标设计的问卷或者收集方法、确定抽样框。在数据采集后,不同学者往往可以通过将新收集数据与不同数据的交叉验证,来评估数据的可信度。小数据在收集上有变量定义清晰、数据生成机制基本可控、检验评估成本相对较低等优点,但是缺点是数据收集成本高,时间间隔长、颗粒度较粗。
大数据的优势就包括数据体量大、收集时间短、数据类型丰富,颗粒度很细。但是,由于大数据往往是一些企业和机构经营活动的附带产品,因此并不是通过精心论证的测度工具生成。另外,由于大数据的体量很大,交叉验证数据的可信度、不同学者采用相同数据独立研究以检验数据的前后一致性等工作难度较大。这些特点意味着大数据本身未必有科学研究要求的那样准确、可靠,在数据分析中就需要对大数据适合研究的问题有较清晰的认识。
在与小数据互为补充推动研究与认知方面,大数据大有可为。将大数据与小数据相结合,可以大大提高数据的颗粒度和预测精度。比如对CDC流感发病率的预测研究发现,将GFT采用的大数据和CDC的历史数据相结合的模型,其预测能力比单独运用大数据或者小数据要好很多。
大数据往往可以实时生成,对于观察特定社区的动态具有小数据无可替代的优势。比如,美国在“九一一”之后,出于快速准确估计在某个特定小社区活动的人口的需要而启动了“工作单位和家庭住址纵向动态(LEHD)”项目,该项目将人口普查数据、全国公司数据、个人申请失业保险、补贴、纳税等记录联通,可以对社区在短时间内的“新陈代谢”作出较为全面的刻画。
这类的数据结合研究,对于了解我国社会经济状况的动态变化会十分重要。一个可能的应用是,将城市人口、工作状态、性别、年龄、收入等小数据采集的信息,和实时产生的交通状况相结合,来预测人们的出行特征,来解决城市交通拥堵、治理雾霾等问题。另一个可能的应用是,推动人民银行征信中心个人征信系统数据和民间征信系统大数据的结合,建立高质量的中国个人征信体系。
另外,我国经济处于转型时期,有不少政策亟需快速评估政策果效。以小数据为基础,利用大数据数据量丰富的优势,可以通过互联网做一些随机实验,来评估一些政策的效果,也是可能的发展方向。
在过去的十多年中,我国在通过非官方渠道采集小数据、特别是微观实证数据方面取得了长足进展。在多方努力下,更多经过严格科学论证而产生的数据可被公众免费获得并用于研究。例如,北京大学的“中国健康与养老追踪调查”、“中国家庭追踪调查”,都由经济、教育、健康、社会学等多领域的专家协同参与问卷的设计和数据采集的质控。在这些努力下,小数据的生成机制更为透明,交叉验证调查数据的可信度等实证研究的必要步骤也更为可行。
但是,目前在小数据的收集和使用、政府和有关机构的小数据开放运用方面,我国还有很大推进空间。只有在对涉及我国基本国情的小数据进行充分学习研究之后,我国学界和业界才能对经济政治社会文化等领域的基本状况有较清晰的把握。而这类的把握,是评估大数据质量、大数据可研究问题的关键,对推进大数据产业健康发展有举足轻重的作用。
因此在政策导向上,为要实现大数据、小数据相得益彰推动经济发展的目标,在促进发展大数据的同时也要大力发展小数据相关产业,推动小数据相关研究与合作,使大数据与小数据齐头并进、互为补充。
(三)提高大数据使用的透明度,加强对大数据质量的评估
大数据面临的透明度问题远比小数据严重。在GFT案例中,Lazer等人指出,谷歌公司从未明确用于搜索的45个关键词是哪些;虽然谷歌工程师在2013年调整了数据算法,但是谷歌并没有公开相应数据、也没有解释这类数据是如何搜集的。我国大数据相关企业的数据,也鲜有学者可以获得并用于做研究的例子。
与透明度相关的就是大数据分析结果的可复制性问题。由于谷歌以外的研究人员难以获得GFT使用的数据,因此就难以复制、评估采用该数据分析结果的可靠性。因此利用大数据的研究难以形成合力,只能处于案例、个例的状态。
另外还要注意到,如果数据生成机制不清晰,研究结论难以复制,而算法演化也表明,最终数据往往成为使用者和设计者共同作用的结果。这种数据生成的“黑箱”特征,容易成为企业或者机构操纵数据生成过程和研究报告结果的温床。唯有通过推动大数据的透明化、公开化,我们才能在大数据产业发展之初,建立健康的数据文化。
因此,在大数据时代,为了更好利用大数据,需要采取相关措施,增加在大数据生成过程的透明度方面的努力。例如,采取措施推进数据生成企业在妥善处理隐私信息后,定期公布大数据随机抽样数据、要求数据生成企业及时公布数据算法的变更,鼓励采用大数据的研究实现可复制性、便于交叉验证等。
五、结语
目前有些流行观点认为,在大数据时代,技术容许人们拥有了总体因此抽样不再重要、另外由于数据挖掘术的进展,只需关心相关关系而不必再关心因果关系。而GFT的实例表明,即便谷歌公司用于GFT计算的是数十亿的观测值,也不能认为谷歌公司拥有了流感人群的总体。误认为数据体量大就拥有了总体,就无法谦卑结合其他渠道的小数据,得到更为稳健的分析结论。而GFT估计的偏误原因,从来都离不开人们的主动的行为– 无论是谷歌公司自己认为的GFT的流行导致更多人使用该搜索、还是Lazer等人认为的算法变化、丢弃异常值。因此,不明白数据生成机理变化的原因而只看相关关系的后果,于谷歌是GFT的计算偏误丢了脸,而对热情地投身于采用大数据到创新、创业中的中国民众和相关机构来说,则可能是不得不面对事先没有预备的重大经济损失。
以上是小编为大家分享的关于从谷歌流感趋势谈大数据分析的光荣与陷阱的相关内容,更多信息可以关注环球青藤分享更多干货
E. 大数据能证明星座配对的可靠性吗
在我看来是不可信的,你千万不要当真,你要是当真了你就错完了,这个东西看看就好啦,不要放在心上,毕竟你的命运掌握在你自己的手里,不是随便一个数据所能够决定的,因为我们每一个人都是不一样的,基因还有突变的,更何况他们这个星座,可信度很低。
现在还有很有自称星座专家的写出来一些东西,买了很多水军,让他们在下面写说的对,有道理,用来忽悠其他人,还有人写什么星座的是吃货,什么星座是妈宝男,什么星座是渣女,这些都是假的,你说生活中哪个人不爱吃,你能说这个月出生的人都是渣女吗?这未免也太可笑啦!
F. 为什么说大数据是建设未来智慧城市的核心
智慧城市中大数据的特点与重要性
(1)数据量
大数据概念中的数据量指的是大量的从各种数据源中产生的任意类型的数据。在智慧城市框架下,多媒体/社交媒体及其他类型网络在数据产生量方面呈现几何级增长。
即使是现代工业产品,如汽车、火车、发电站等,其装备的传感器数量也随着智能化程度的提高在增加,这些传感器也在持续收集不断增多的数据。不断增长的数据量给数据收集、数据分析带来了新的挑战。
(2)数据速度
大数据概念中的速度指的是数据产生、传输的速度。在智慧城市框架下,由于数据量和数据源的持续增加和数据类型的不断变化,数据的内容也呈现持续变化的状态。对于某一数据存储,数据产生和传输的速度决定了数据内容变化的速度。数据用户倾向于更快的数据产生和传输速度,以便能够了解其关心的实时信息。由此而言,大数据的速度特点对数据处理方法及运算算法提出了更高的要求。
(3)数据多样性
大数据概念中的数据多样性指的是数据的类型多样性,如视频数据、音频数据、图像数据、文字数据以及数据日志等。数据类型的多样性与数据源的多样性密不可分,如手机、录像机、传感器、社交平台等。同传统的结构性数据(如财政数据、期货交易记录、人事信息等)相比,在智慧城市框架下,大数据概念中的数据包括了大量的复杂的非结构型数据,且没有固定的数据格式。与数据速度相似,大数据多样性的特点也推动了数据处理方法及运算算法的进一步发展优化。
(4)数据价值
大数据概念中的数据价值指的是大数据中包含有价值的信息,这些信息可以为相应的决策提供有益的参考。数据价值的实现需要通过大数据分析,即从大数据中提取有价值的数据信息的过程。在智慧城市框架下,数据价值评估是所有以大数据为基础的应用最重要的特性,正是因为数据价值评估可以产生数据使用者需要的信息。
(5)数据精确性
大数据概念中的数据精确性指的是大数据中包含信息的完整性和准确性。数据精确性是对大数据质量和可信度的描述。任何信息管理实践的核心内容都是数据质量、数据支配、元数据管理以及对数据保密性和合法性的要求。精确的原始数据有助于准确的数据信息的分析与发掘,从而为相应的决策提供更加准确的参考。
G. 如何看待大数据的精确性和混杂性
在大数据时代,使用所有能获得的全体数据已经逐渐成为可能,然而数据量内的大幅度增加会导容致结果的不准确,与此同时。有些错误的数据也会随着大量的数据混入数据库。
其中的某些错误是我们能够通过我们的努力去避免的,去改变的,但是,有些错误我们需要去慢慢接受它们。去尝试着,接收混乱,拥抱错误。
接收混乱是小数据和大数据时代主要的区别之一。由于少量的数据,使得我们努力追求更加精密的结果,但是不妨多想想,低随机性和小数据又怎么可能将事物的本质全面的还原出来呢?错失的95%的非结构化数据中包含着无限的可能,或许我们想要的正是我们曾经所丢弃的。
(7)大数据可信度评估扩展阅读:
注意事项
纷繁的数据越多越好,大数据时代要求我们重新审视对于精确性的定义。在如今的信息时代,我们掌握的数据越来越全面,而且数据的存在并不是独立的,数据之间的交互连接多变且无序,组合与组合之间更是能产生无穷的化学作用,奇妙无穷。
大数据要求我们有所改变,接收混乱和不确定性。精确性不会在成为我们生活中的支柱,每个问题只有一个答案的想法在信息时代是靠不住的,不管我们承认与否。但当我们学会接受混乱和拥抱混杂之后,我们会发现我们离事情的真相有进了一步。
H. 大数据可否支持智慧城市健康发展面临阻碍
智慧城市就是运用信息和通信技术手段感测、分析、整合城市运行核心系统的各项关键信息,从而对包括民生、环保、公共安全、城市服务、工商业活动在内的各种需求做出智能响应。其实质是利用先进的信息技术,实现城市智慧式管理和运行,进而为城市中的人创造更美好的生活,促进城市的和谐、可持续成长。
按照“智慧”的来源,智慧城市可以分为两类。
一类是在城市大规模安装数字化设备
包括监控设备、数字化交通设施及标志、实时通信设备等。通过收集、整合和分析这些数据流,可以对城市运行进行实时的监控管理,而这些分析信息也可以被实时地发送到城市居民的移动设备上(如电脑、手机、GPS装置等),为城市居民的日常活动提供更加便利的信息。而这些实时数据通过存储和进一步分析,可以用来描述、模拟和预测城市运行特性以及未来发展,从而为智慧城市的进一步发展提供参考依据。不仅如此,数字化技术的大规模运用与发展也可以刺激当地相关产业的发展,尤其是区域服务和知识型经济的发展。
另一类是在一定区域内发展知识型经济
从这个角度来说,智慧城市是一个智慧人群领导的由改革、创新和企业化驱动的经济体。在此系统里,信息和通信技术(information and communication
technologies,ICT)是这个区域发展平台中推动实现创新型概念和设计的助推力。然而,就信息通信技术而言,单纯嵌套于城市系统中并不能将城市转化为智慧型城市,需要其与人力与社会资源以及更加宽松开放的经济体相结合,推动城市的智能化发展。智慧城市的概念最初定位于技术和技术型管理的角度,然而随着智慧城市概念的不断完善,社会资本、教育、经济等方面与综合型智慧城市概念的完善越来越密切。
当前网络基础设施的发展为城市科技创新提供了基础,而这也促进了区域性城市的经济、文化和环境的发展。
大数据指导下的智慧城市发展
大数据对于智慧城市应该在四个方面产生作用:科学规划,通过数据的支撑、公众参与、社会监督和客观评价这4个过程中对大数据的应用,使城市的规划方方面面都有更合理的依据;实时监测,数字化、网络化和智能化的发展能够保证对这个城市的任何运行程度掌握在电台之中;精准治理,包括准确信息、智能方案、快速影响和绩效考核;高效服务,向市民提供方便、精准和快捷的服务。
智慧城市中大数据的特点
(1)数据量
大数据概念中的数据量指的是大量的从各种数据源中产生的任意类型的数据。在智慧城市框架下,多媒体/社交媒体及其他类型网络在数据产生量方面呈现几何级增长。
即使是现代工业产品,如汽车、火车、发电站等,其装备的传感器数量也随着智能化程度的提高在增加,这些传感器也在持续收集不断增多的数据。不断增长的数据量给数据收集、数据分析带来了新的挑战。
(2)数据速度
大数据概念中的速度指的是数据产生、传输的速度。在智慧城市框架下,由于数据量和数据源的持续增加和数据类型的不断变化,数据的内容也呈现持续变化的状态。对于某一数据存储,数据产生和传输的速度决定了数据内容变化的速度。数据用户倾向于更快的数据产生和传输速度,以便能够了解其关心的实时信息。由此而言,大数据的速度特点对数据处理方法及运算算法提出了更高的要求。
(3)数据多样性
大数据概念中的数据多样性指的是数据的类型多样性,如视频数据、音频数据、图像数据、文字数据以及数据日志等。数据类型的多样性与数据源的多样性密不可分,如手机、录像机、传感器、社交平台等。同传统的结构性数据(如财政数据、期货交易记录、人事信息等)相比,在智慧城市框架下,大数据概念中的数据包括了大量的复杂的非结构型数据,且没有固定的数据格式。与数据速度相似,大数据多样性的特点也推动了数据处理方法及运算算法的进一步发展优化。
(4)数据价值
大数据概念中的数据价值指的是大数据中包含有价值的信息,这些信息可以为相应的决策提供有益的参考。数据价值的实现需要通过大数据分析,即从大数据中提取有价值的数据信息的过程。在智慧城市框架下,数据价值评估是所有以大数据为基础的应用最重要的特性,正是因为数据价值评估可以产生数据使用者需要的信息。
(5)数据精确性
大数据概念中的数据精确性指的是大数据中包含信息的完整性和准确性。数据精确性是对大数据质量和可信度的描述。任何信息管理实践的核心内容都是数据质量、数据支配、元数据管理以及对数据保密性和合法性的要求。精确的原始数据有助于准确的数据信息的分析与发掘,从而为相应的决策提供更加准确的参考。
在大数据框架下,由于数据类型的多样性,只经过收集和存储的数据并不能用于高效准确的数据分析。而且,大规模的数据分析依赖于计算机算法的高速自动运算。因此,数据整合成为大数据分析的一个必要步骤。数据整合,即根据研究需要并结合不同类型的数据的差异性,将其整合为一个整体性的数据库。整合后的数据库应具有以下特点:原始数据中存在的数据结构和表达形式的差异应在整合后的数据库中予以保留,并且这些差异能够用于大数据分析的计算机算法读取和高速分析,从而保证整合后的数据在算法上的可解性。
此外,在大数据的概念下,即使是对单一数据进行分析,合理的数据整合和数据库设计也是非常必要的。而数据库设计的具体细节则由研究内容以及研究方法的特殊性来决定。对于特定研究内容或方法,某种数据整合的方法往往较其他方法更有优势。因此,在设计数据库时需要考虑数据库的可修改性,使该数据库被用于其他研究时可以进行相应的修改,从而增强其实用性。
智慧城市与大数据的实践经验
从国家政策来看中国计划智慧城市项目总体技术体系架构在科技部,计划智慧城市一期项目的支持下提出了六横两纵的智慧城市技术框架,六横层层递进最下层的是城市的感知层,再是传输层,再上面依次分别是处理层、支持服务层、应用服务层、最上面是智慧应用层,贯穿全局的是安全保障体系以及标准与评测,而要真正实现智慧城市必须引入大数据技术,主要包含以下三大方面的技术:
1、大数据融合技术
我国智慧城市建设面临的重大挑战之一,是城市系统之间由于标准问题无法有效集成形成信息孤岛,因此在大数据融合领域一方面要加强海量异构数据建模与融合,海量异构数据列存储与索引等关键技术研发,给予底层数据集成的信息共享提供标准和技术保障。
2、大数据处理技术
大规模数据在智慧城市系统流动过程中,处于传输效率、数据质量与安全等因素的考虑,需要对大规模数据进行预处理,大数据处理技术往往需要与基于云计算的并行分布式技术相结合,这也是目前国际产业界普遍采用的技术方案。
3、大数据分析和挖掘技术
相比于大数据融合和处理技术,大数据分析与挖掘技术更为复杂,是国际学术界和产业界面临的极具挑战性的技术难题。
国内外智慧城市典型案例
美国:迪比克市风景秀丽,密西西比河贯穿城区,它是美国最为宜居的城市之一。以建设智慧城市为目标,迪比克计划利用物联网技术,将城市的所有资源(包括水、电、油、气、交通、公共服务等)数字化并连接起来,监测、分析和整合各种数据,进而智能化地响应市民的需求并降低城市的能耗和成本,使迪比克市更适合居住和商业发展。
西班牙:传感器项目让智慧城市建设充分立足实践,据巴塞罗那通信研究所传感器项目的负责人马里亚诺·拉马尔卡介绍,智慧城市是巴塞罗那目前最重要的项目之一,而原来的巴塞罗那纺织产业老工业区,现在则是这一项目最重要的试验地。
欧盟:就提出并开始实施一系列智慧城市建设目标。欧盟对于智慧城市的评价标准包括智慧经济、智慧环境、智慧治理、智慧机动性、智慧居住以及智慧人等6个方面
韩国:力推政府行政服务智能化 ,韩国正以网络为基础,打造绿色、数字化、无缝移动连接的生态、智慧型城市。
中国北京:北京的智慧城市建设以“人文北京、科技北京、绿化北京”为战略指导,结合“国家首都、国际城市、文化名城和宜居城市”的城市定位,在智慧城市的建设中,充分发挥现代科技的优势,树立以人为本的管理理念。北京的智慧城市建设是全面而系统的。
智慧城市是城镇化进程的下一阶段,是城市信息化的新高度,是现代城市发展的远景,无线城市、数字城市、平安城市、感知城市是智慧城市的必要条件;诚信城市、绿色城市、健康城市、人文城市、是智慧城市应有之意;智慧城市产生大数据,大数据反过来支撑智慧城市,智慧城市与大数据相结合一定会有璀璨的明天。
I. 大数据分析培训可靠吗,能做什么工作
大数据分析师有两种岗位定位:大数据科学家,Data Scientist,DS职能是算法分析,是基于对行业背景版的了解帮权助客户作出预期计算。而这里面就会涉及到很多专业知识,俗称统计分析。大数据工程师,Data Engineer,DE相对DS,DE就比较杂了,做的事情也多。DS只负责算法输出,而其余的都是DE来做。大数据分析类的职位在业务上,需要你对业务能够快速的了解、理解、掌握,通过数据感知业务的变化,通过对数据的分析来做业务的决策,在技术上需要有一定的数据处理能力。