Ⅰ “大数据杀熟”为何会引发集体焦虑
3月28日报道,3月23日,网友@EricTsui在微博发布消息称,使用“滴滴打车”时发现从相同的出发地到目的地,不同用户显示的价格不一样。同日晚间6时,“滴滴出行”官方微博发出了CTO张博在企业内网的公开信截图,称“滴滴从未有过任何‘大数据杀熟’行为,以前没有,以后也不会有”。据介绍,“预估价”和“实付车费”是不同概念,客户定位、实时路况、优惠券、客户网络环境等对价格也有影响。该回应虽然缓解了一些质疑,但网民追问仍在继续。
伴随大数据兴起,算法越来越高级,信息定制化足可以满足人们多元化、个性化的需求。大数据可以通过采集社交数据和行为数据为网民进行精准画像,从而降低用户获取信息成本,为生活增添便利。但从另一方面,精准的用户画像也局限了信息接收的范围,让用户沉迷于他们最初想看的内容,无形间强化了用户的偏见和嗜好,从而形成“信息茧房”。“杀熟”的前提是平台要掌握个人信息、行为习惯等数据。据报道,专家表示,大数据杀熟”在技术上很容易,没有什么难度。大数据技术可以实现“千人千面”,对不同会员等级用户定价在2013年左右就实现了,现在只不过还不够精细化。
平台与用户之间围绕数据的争议,说到底反映了用户面对互联网超级平台的担忧。一些互联网企业随着市场份额的增大,面对政府监管的博弈能力越来越强;而用户和消费者面对互联网企业的博弈能力却不见增长,难以达到相互制约的社会平衡。
Ⅱ 如何看待大数据“杀熟”
大数据“杀熟”成为舆论关注焦点,媒体对2008名受访者调研发现,51.3%的受访者遇到过互联网企业利用大数据“杀熟”的情况。所谓大数据“杀熟”,指的是订房、打车等互联网平台利用收集的用户数据信息,对个别用户进行歧视性提价从中获利。
过去,我们可能遇到在酒店入住同样的房间,价格差别50%以上,此时尚可自我辩解说订房渠道不同。现在,只是换自己不同的账号登录这些软件,价格就会出现一定的差别。对比之下,难免觉得受到歧视、感到愤怒:我们的数据竟然被用来歧视我们?
但是,互联网上的服务交易平台如果想“作恶”就会隐蔽很多、成本也低很多,且几乎毫无约束。以打车为例,每一次打车都是独特的,消费者无法判断是否被歧视定价。让事情更糟的是,在这种场景中,可能作恶的是平台,它可以盘剥消费者和服务提供者司机两方,而让自身获得收益。
此时,纯从市场角度来讲,对平台的唯一约束就是一个长期约束,它如果作恶被发现,可能损失非常巨大———小则声誉受到影响,大则平台交易生态崩塌。互联网基础性平台具有很强的社会性与公共性,基础性平台往往承担多重角色,平台越大,对平台的中立性、公平性、道德性要求越高。就以上我们讨论的场景看,如何形成一个平衡的、有制约、多方受益的生态,路还很远。大数据“杀熟”把歧视性提价展示在所有人面前,告诉我们这是一个有待解决的问题。
Ⅲ 且慢说“大数据”的无所不能
且慢说“大数据”的无所不能“大数据”是个好东西,是科学的前沿,值得我们认真积极关注、推介和参与,但它绝不是哈利波特,不会“一抓就灵”,不能包打天下和无所不能。 回头看看这些年的所谓产业“浪潮”新理念、新理论和新技术,一旦引入我国后,常是泡沫翻腾,真经并不多。去年是“云计算”,今年是“大数据”,官员、学者或媒体人嘴上不常换点国际流行的新词,都不好意思开口。 其实,“大数据”很简单,不神秘,以前无法处理的海量数据或没当做数据的东西(如你在超市逛逛或对那个营业员笑一笑),因计算机计算能力如“云计算”的进步,都可以分析出个子丑寅卯了,如很多人逛超市的路径与购物之间有数据关系,据此调整布局有利于销售,美国有超市把影碟与尿布放在一起,就是通过“大数据”分析发现,来为孩子买尿布的父母喜欢为自己带盘碟子。 但把“大数据”用做解决世界上最难处理的问题的全能办法,从管理城市到消除贫困,从制止恐怖袭击、疾病流行到拯救地球环境等,以为有了“大数据”,就没有解决不了的问题,这也是一种误解。人类的思想、个人的文化和行为模式、不同国家及社会的存在发展都非常复杂、曲折和独特,显然不能全部由计算机来“数字自己说话”。比如,近来欧美有人提倡用“大数据”分析人的日常行为模式和习惯,判断谁将要犯罪,以此帮助预防未来的犯罪,就引起了很大的争议和质疑,公众担心因司法程序缺失而受到莫名威胁。 其实,企图用一行行的代码和庞大数据库的“大数据”来解释和指导世间万物万象,很像此前企图用基因等生物密码来解释和调控人类的行为模式,看起来是客观中立的,但说到底,“大数据”再“大”,也不会“自己说话”,还是设计者、分析者和使用者在说了算。所以,“大数据”并不能使人们完全摆脱曲解、隔阂和错误的成见。 而且,数据的采集也会使“大数据”不中立和不全面,以至于不公正,如目前社交媒体等即时通讯是“大数据”分析的一个普遍信息源,那里无疑有许多信息可以挖掘,国外神话“大数据”的范例几乎都来源于此。但至少在我国现在和未来一段时间里,以此途径反映民情的某些“大数据”可能会忽视了“沉默的大多数”而失准。过分依赖和迷信“大数据”,难以避免对某一群体的“数据歧视”,可能会依据错误的成见作出重大的公共政策和商业决定。 更需指出的是,“大数据”的潜在负面效应不可忽视。无处不在的“大数据”使个人隐私无处藏身,甚至会引发更多问题。例如,最近,“大数据”被用来预测脸谱网用户极其敏感的个人信息,如性取向、种族、宗教和政治观点、性格特征、智力水平、快乐与否、成瘾药物使用、父母婚姻状况、年龄及性别等。这些高度敏感信息很可能会被雇主、房东、政府部门、教育机构及私营组织用来对个人实施歧视。 “大数据时代”的作者维克托说,大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型。这话很有道理。但他认为,大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。歌颂者说,这是维克托颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。可我们有疑:不问或不知“为什么”,我们还是人吗? 其实,维克托又新写了一本叫“删除”的书,讲述了大数据时代的信息取舍,说遗忘是一种美德。说白了,就是该记的记,该忘的忘。这就更加说明,无论到何时,其实都还是人在思考和“说话”,即使在“大数据时代”可以通过数据形式来部分表达。所以,把“大数据”提高到不恰当的高度,甚至魔幻化或泡沫化,对推广“大数据”技术及应用不仅无益,还会弄成一些新的神话,或许还有笑话。
Ⅳ 中消协点名大数据杀熟,商家究竟是怎样利用大数据杀熟的
频频发生的“大数据杀熟”问题引发中国消费者协会关注。1月7日,中国消费者协会召开“网络消费领域算法规制与消费者保护座谈会”,呼吁网络经营者的算法应用坚持公平公正,反对利用消费者个人数据画像实施价格歧视,并建议在个人信息保护法、反垄断法等相关法律中,增加算法应用的相关规定。
中消协指出,有些经营者利用算法进行价格歧视,包括对新老用户制定不同价格,会员用户反而比普通用户价格更贵;对不同地区的消费者制定不同价格;多次浏览页面的用户可能面临价格上涨;利用繁复促销规则和算法,实行价格混淆设置,吸引计算真实价格困难的消费者。“这类算法造成选择性目标伤害。”
Ⅳ 互联网技术在争议解决领域可以有哪些作为
在开幕环节,林志炜秘书长代表北仲进行了致辞。林志炜秘书长的致辞围绕大数据与互联网技术对于仲裁及争议解决的推动作用展开。他认为,通过大数据对于法律行业的知识积累、检索具有积极的意义,能够有助于裁判者在裁决时能够掌握更充分的信息。同时,他也指出,在互联网技术应用的背景下,目前争议解决等法律服务行业仍然未能与产业真正融合,特别是在互联网金融领域,由于其基本上属于无纸化的线上操作,那么在争议解决仍然主要在线下进行的情况下,如何打通这种技术上的差异仍然需要行业的研究。林志炜秘书长认为,在互联网领域,争议解决应当坚持以人为本,与企业密切联合,积极回应用户提出的新的需求,努力推动互联网技术在争议解决领域更深入的应用。林志炜秘书长也表达了北仲愿意立足于实际,与广大企业一起推动互联网及相关领域争议解决的研究与发展的愿景。 林志炜秘书长致辞 在当天下午进行的“多元化争议解决方式:企业应诉技巧与商事仲裁”的主体沙龙讨论中,北仲立案室负责人王瑞华以“从争议解决视角看企业法律风险防范及应对”为题进行了分享。她认为,产生法律争议是经营管理中各种风险的最后表现形式,从争议解决的视角回溯企业风险管理对于企业风险管理体系的构建具有重要的意义。她指出,企业在进行合同谈判时缺乏设计争议解决条款的意识、对解决争议缺乏积极应对的心态、选择律师时欠缺理性评估以及在争议解决中对于各项应对策略欠缺灵活把握的能力都会使得企业在面临争议时产生巨大的风险。对此,她建议企业应当将争议解决作为一项有效的风险管理手段充分重视、深入研究、积极应对。首先,企业应当将争议解决风险管理常态化、树立立体的争议解决观念,除了诉讼之外,应当从争议本身特点出发,灵活运用谈判、争议评审、调解、仲裁等多元化的争议解决方式解决争议。同时,企业应当注重争议解决条款的设计,注重争议解决体系设置,灵活安排包括仲裁地、仲裁机构、仲裁语言、仲裁规则、适用法等多种要素组合进行争议解决条款的谈判与安排。同时,企业还应当了解争议解决机构最新实践及发展理念,熟悉争议解决机构的规则,了解常用争议解决机构的主要观点。最后,她指出,北仲始终坚持追求“质量+效率+保障+监督”于一体的更优仲裁服务,不断强化仲裁员实务技能训练及仲裁秘书队伍多元化培养,旨在多措并举保障争议解决质量与效率,不断回应用户的关切。
Ⅵ 大数据杀熟冲上热搜,这算不算“精准挖坑”
其实不得不说的是,大数据杀熟现象确实在生活中真实存在,也正是因为如此引发人们的关注,从某些意义上来讲,大数据平台利用大数据分析来对消费者进行人物画像,也正是因为如此利用大数据杀熟,来获取更大的权益,不可否认的是这种行为严重侵犯了用户的隐私,而且给用户带来了巨大的损失,所以只是因为如此,更应该通过法律的途径,健全市场监管机制,切实维护消费者权益,所以可以从下几个方面出来思考问题。
3,不得不说的是有关市场监督部门更应该加大对这些平台的监督力度,切实维护消费者权益,避免不对等消费,给用户带来利益损失。
不得不说是随着品牌的发展以及一些品牌肆意的定价,导致很多消费者利益受损,而且出现大数据分析现象,也确实给一些老用户带来很大利益损失,所以更应该加强市场的监管,切实建立健全监督体制,切实保护用户的隐私安全,防止大数据杀熟,导致用户利益受损。
其实不得不说的是,大数据杀熟登上热搜,也从说明说明人们对大数据杀熟的争议,而对于我们来说这种现象确实真实存在,而且一些平台利用大数据来谋取更大的利益,对我们来说这种行为严重影响了用户的体验,所以这是因为如此没有必要加强市场的监管,确实保障用户的权益,避免不必要的损失。
Ⅶ 大数据征信的“是与非”
大数据征信的“是与非”传统信用评估模型是根据一个人的借贷历史和还款表现,通过逻辑回归的方式来判断这个人的信用情况。而大数据征信的数据源则十分广泛,包括电子商务、社交网络和搜索行为等都产生了大量的数据。大数据征信可以通过我们在互联网上留下的这些“足迹”清晰地描绘出一个人,但如何把控数据源的“量”与“度”,各家机构还在不断尝试。更重要的是,最终绘制出的人物“肖像”与个人信用究竟有多大的关联度,至今仍存有争议。此前亦有接近监管部门人士对《第一财经日报》记者表示,个人征信牌照迟迟未能落地,其原因之一也在于监管部门对于大数据征信的商业化应用存有疑虑。尤其,以人脸识别为代表的关键技术的可靠性还有待进一步检验。此外,“另一个更重要的症结在于行政化监管与商业化发展之间的矛盾。”该人士表示,现在个人征信市场的参与者越来越多,远不止申请牌照的八家机构,如果该市场要商业化发展,那么监管方式就要改进。何为大数据征信在FICO中国区总裁陈建看来,征信的本质就是采集和记录信用信息并在整理加工后提供给决策者,而如今,得益于大数据、云计算、人脸识别、深度算法等技术的进步,征信有了更广泛的意义和用途。“只要对消费者的特征描绘和风险判断有显著作用的就可以叫征信。”陈建认为,现在一切信息皆可以成为信用数据,经过分析后用于证明一个人或企业的信用状况。因为数据覆盖广、维度多,因此形成了广义的征信,也就是大数据征信。陈建表示,有价值的大数据具备几个因素:第一要覆盖面广,用户足够多,例如银联、电信的数据;第二维度要有效,能够有效转为结构化的数据,例如电商的数据;第三信息要稳定。不过,对于这种日益崛起的征信新业态,今年7月在上海外滩举办的“2015上海新金融年会”上,央行[微博]征信中心副主任王晓蕾直截了当地提出了疑问,“我不知道你们说的‘征信’是什么”?央行的征信系统是一个“放贷人之间的信息共享数据库”,主要采集的数据为身份信息、信贷信息、非金融负债信息三类,以及部分公共信息。因此,王晓蕾对于征信的基本定义为,“从放贷人那里采集借款人信息”。而另一个“纠结”的概念在于,王晓蕾认为,放贷机构之“征信”是放贷机构基于内部信息的风险管理过程,而征信行业之“征信”是为放贷机构的风险管理提供外部信息支持的活动,征信机构应该是一个纯粹的独立第三方。如果按照这个界定,我们现在所谈到的大数据征信跳脱了传统“征信”范畴内。不再局限于金融属性的信息,并且也打破了“采集者与信息产生没有任何关系”的独立第三方原则。例如芝麻信用、前海征信、腾讯征信,一方面它们的数据来源目前还主要来自母公司阿里、平安、腾讯,而另一方面,它们的兄弟公司又涉足放贷业务,例如阿里小贷。尽管有关大数据征信的定义和效用仍争议不断,但对于既无法接入央行征信系统又面临快速发展的互联网金融行业而言,利用大数据来帮助判定风险、开拓业务已是必然的选择。从应用范围来看,目前大数据征信已从金融业务向生活服务蔓延。其中,最核心的两个价值就是:防范欺诈风险和信用风险。简单来说就是:既要证明“你是你”,还要描述出“你是什么样的人”。如何证明“你是你”无论是在传统金融领域,还是互联网金融领域,给客户做信用评估的前提是必须知道这个人就是他自己。所以,如何利用证明“你是你”是大数据征信首先要解决的问题。尤其,随着越来越多的金融业务互联网化,“反欺诈”面临的挑战也日益增大。“身份认证”的重要性在各项监管文件中反复被强调,而各家机构也在不断探索如何利用新的技术在网上实现身份的核实。其中,在指纹、虹膜、人脸识别等一系列生物识别技术中,人脸识别因技术的成熟度和准确率较高,以及其使用的便捷性而被进一步普及。包括腾讯征信、芝麻征信在内的多家个人征信机构都有组建自己的人脸识别技术团队。此前,在腾讯征信的北京媒体沟通会上,为腾讯财付通、微众银行、腾讯征信等提供图像和模式识别技术支持的优图团队也向大家展示了“人脸识别”在“反欺诈”方面的应用,即如何证明“你是你”。根据现场的演示,在上传身份证照片、自拍照片并与公安部的信息进行比对之后,“人脸识别”的另一关键步骤是活体检测,通过读取随机的数字串,分析声音和唇语等信息来防范有人用视频、照片等方式仿冒用户。据了解,在今年国际权威的人脸识别数据库LFW上,腾讯优图团队在人脸验证测试中达到了99.65%的准确率。目前,微信的“人脸识别”技术已经在腾讯征信、微众银行、微证券开户等场景中开始试用。尽管人脸识别的准确率已经达到较高水平,但该项技术的商业化应用才刚刚起步,它的有效性和安全性仍备受质疑。优图团队研发总监黄飞跃也表示,该技术现在还不能说100%地成熟,而是适用于某些特定的应用环境中。其中,金融领域的身份核实条件较好,由于用户往往是为了通过验证所以比较配合。芝麻信用首席科学家俞吴杰表示,整个的反欺诈产品从身份认证到信息验证再到网络关联,每一步的技术含量非常高。以身份认证为例,现在已有很多的途径,比如信息交叉比对、人脸识别技术、KBA问答认证等。他以网络关联技术为例说明:它能把所有出现过违约行为的身份、手机、设备等关键点都在风险库里面分门别类地保留下来,我们可以通过一层或者多层关联找出所有的风险点供合作伙伴参考,这对技术和硬件要求都非常高。争议大数据征信解决了“身份认证”的问题,接下来就要评估你的信用,即描述出“你是什么样的人”。在关于大数据征信的文章中,我们经常可以看到一些案例,如经常半夜上网的用户可能被认为没有稳定的工作而降低信用评分,买双开门冰箱的用户可能因为有家庭而信用评分较高,微博更新频繁的用户可能因为社交活跃而信用评分较高等。“这些考量因素被过度放大了,也许这只是用户个人习惯而已。但每一个因素与个人信用的相关性有多大?我们还无法完全解释,尤其当数据源不足够丰富时,这些评判便存在欠缺。”芝麻信用的技术专家景艺亮表示。冰鉴科技CEO顾凌云在回国前曾领导并开发了ZestFinance前四代风控模型,在他看来,大数据征信的核心并不是对某个变量极其依赖,而是把很多个都只有微小影响的变量通过非线性的算法整合在一起,从而使模型的整体表现更好。“大数据其实并不一定就是数据量本身大,我们讲求的是变量涵盖的信息维度要多和均衡,然后才是能够通过浅度学习和深度学习等多种复杂的算法把这些变量更有效地糅合在一起。”他表示。王晓蕾认为,互联网记录了借款人以前不可记录的行为,获得了以前无法获取或获取成本很高的数据,为放贷人了解借款人是谁、有没有还款能力和还款意愿提供了新的渠道和方法。但是,相关的信息究竟如何使用有待进一步研究验证。王晓蕾引用2014年美国政策与经济研究委员会(PERC)的一项研究结果称,非金融信息在信贷决策中的作用有限。例如,社交信息对于判断借款人的还款意愿和能力暂无预测力。“诸如水、电、煤、有线电视、手机等非金融信息纳入征信系统,显著地提高了薄信用档案人群的信贷获得能力,但对于厚信用档案人群而言,边际作用不大。”她表示。“只有好样本,没有坏样本是无法建立有效的信用评估机制的。”宜信至诚征信的董事总经理赵卉表示,电商、支付、社交等数据只能作为信贷审核的参考值,而贷后数据才是强参数。对于这种论断,互联网公司们或是不赞同的。腾讯征信总经理吴丹告诉记者,从这段时间内测的结果来看,在模型中加入社交数据以后,对它的风控能力有20%~25%的提升,尤其在小额贷款领域。因为,通常一笔几百块的借款,违约发生的原因不在于借款人的还款能力而是意愿。俞吴杰表示,通过大量的研究证明,人的行为数据和他的信用有直接关联,因为行为很难撒谎。从这段时间公测的结果来看,用户的芝麻分越高,其贷款的违约率越低,二者呈单调、线性的关系,这也证明了芝麻分在信用评估上的有效性。不过,仅仅依靠互联网上的数据并不足以建立一个强大的信用评估体系。显然,所有大数据征信的市场参与者都深知这一点。“在未来,把传统数据和创新数据结合到一起,一定是我们要到达的终点。”芝麻信用的总经理胡滔如此总结到。顾凌云告诉记者,风控模型本质上还是对一个人金融还贷能力的预测和评估,所以,尽管ZestFinance大量采用非传统的信用数据,但在大部分的风险评估模型中,传统的信用数据(银行信贷数据)依然占有一定的比重,平均也在40%左右。
Ⅷ 大数据分析工具面临哪些挑战
大数据分析工具面临哪些挑战在大数据时代,传统的智能BI和报表工具已经很难承担大数据的市场应用任务。新一代的大数据处理工具将取代传统的数据处理软件,并引领新时代的数据挖掘浪潮。那么,在信息时代背景下,大数据分析工具又将会面临哪些挑战呢? 数据搜集与兼容数据的搜集与整合是数据处理的第一步,在数据源充足的情况下,如何更好更快的检索并搜集到足够的数据成为数据分析过程的关键。对于大数据分析工具来说,有时甚至要面对数十种格式的数据源或数据库,能否快速兼容就成了关键。新时代的大数据分析工具必须拥有强大的数据兼容能力,包括对非结构化数据的处理。即使在数据量庞大而杂乱的情况下,大数据分析工具也要能快速反应,整合与甄别数据,为接下来的数据分析工作打好基础。大数据坏境下的数据分析速率数据分析效率直接反映大数据分析工具的性能优劣,新时代的大数据分析工具在面对海量数据时不仅要能快速分析、快速得出结果,还要能保证数据分析结果的准确与客观(基于数据)。而传统的数据分析工具因为软件设计架构的落后已难以胜任大数据分析工作。传统的技术架构不能满足大数据分析工具的性能要求,在众多大数据解决方案中,国云数据开发的大数据魔镜采用新颖的“三层架构”模式,将大数据分析工具的功能选项做进一步细分,不得不说是一种大胆的尝试与创新。数据分析方法的革新与传统的数据处理流程相比,因为数据量的庞大和非结构化数据的增加,大数据分析工具必须具有更强的并行处理能力。以便查询、分解及数据分析进行分布式处理,将处理任务分配到不同的处理节点,提高数据处理深度与宽度。在数据分析过程中,数据分析模型扮演着分析“路径”的角色。大数据分析工具必须内嵌有多种数据分析模型才能满足不同目的的数据分析需求。这个要求从技术层面上来说问题不大,关键是随着大数据应用范畴的拓展,大数据分析工具能否赶上市场需求的步伐。数据可视化技术(末端展示)数据可视化可谓是新时代数据分析工具必备的功能了。数据可视化就是将数据或者数据分析结果以图表的形式展示在各种平台上。这要求大数据分析工具有着强大的数据图表渲染功能,并且要内置丰富的可视化效果,以满足用户的不同展示需求。除了末端展示的需要,数据可视化也是数据分析时不可或缺的一部分,即返回数据时的二次分析。大数据魔镜仅可视化效果就有数百种,能为客户提供完美的数据可视化解决方案,可见数据可视化技术已成为主流大数据分析工具的“标配”。时代在变化中发展,科技在争议中进步。大数据分析工具作为重要的大数据应用技术而影响着未来大数据产业的发展,可谓举足轻重。但只要顺应时代发展和社会需求,大数据分析工具的前途还是一片明朗的。
Ⅸ 大数据带来的隐患 数据垄断
大数据带来的隐患:数据垄断在信息爆炸的社会,受众面对海量信息,往往需要花费大量的时间和精力进行筛选。但借助来自移动互联网和社会化媒体所提供的丰富数据资源(例如用户的地理位置、关系网、兴趣图谱等信息),以及日臻精确的挖掘和分析技术,媒体可以了解受众的心理、 需求以及行为习惯等,并以此为基础提供更符合受众需要的、个性化的内容服务与广告营销。这样的精准传播会加深受众好感,提高用户忠诚度。 以往触不可及的梦想在大数据时代实现了。而最深刻的革命其实不在外界,而在人类的思维领域。 人类思维的转向:人类的态度、情绪、行为等都可以变为数据进行分析和预测 人类内心深处隐秘的欲望、需求、情感是可以洞悉并预测的吗?这是一个长久以来盘亘在心理学家、行为学家、哲学家心中的困惑,而大数据时代的统计学家、数据挖掘专家则做出了肯定而乐观的回答。现在,“情感分析”、“预测模型”的应用已经渐入佳境,企业和媒体已经可以通过“情感分析”来确定社交媒体上用户群的态度,而推特(Twitter)甚至在2012年美国大选时对用户每天推文和评论的关键词进行量化跟踪,计算出“政治指数”来判断民心所向。 大数据技术使得人类的态度、情绪、行为等以往认为难以测量的方面,都可以变为数据来进行分析和预测。日常生活里的可量化维度从未得到如此淋漓尽致的挖掘与利用,而数学模型也在更广泛的领域里得到了重视。以往的统计分析强调的是因果关系,而现在的大数据研究更注重相关关系。因果关系的讨论时常不够全面,而对相关关系的把握更能够产生效用。从对“为什么”的疑问到对“是什么”的追寻,这体现了人类对世界的探索和理解有了更丰富的思路。 也许最极端的结论来自全球复杂网络研究权威艾伯特-拉斯洛·巴拉巴西。在一书中,他宣称人类行为93%是可以预测的:“当我们将生活数字化、公式化以及模型化的时候,我们会发现其实大家都非常相似。我们都具有爆发式,而且非常规律。看上去很随意、很偶然,但却极其容易被预测。”“爆发”即指人们的工作、娱乐及其他种种活动都有间歇性,会在短期内突然爆发,然后又几乎陷入沉寂。人类行为并非随机的小概率事件,而是在意向作用下非常规的突变行为。 不论巴拉巴西的理论是否赢得主流的共识,这些发现至少表明,在技术以外,大数据时代向人类昭示出越来越多富有启发意义的世界观和历史观。 大数据时代的隐忧:数据垄断的困境 首先,数据的可接近性并不就使得其使用合乎伦理。大数据为监测和预示人们的生活提供了极大的方便,然而个人隐私也随之暴露在无形的“第三只眼”之下。无论是电子商务、搜索引擎还是微博等互联网服务商都对用户行为数据进行了挖掘和分析,以获得商业利益,这一过程中不可避免地威胁到普通人的隐私。以往人们认为网络的匿名化可以避免个人信息的泄露,然而大数据时代里,数据的交叉检验会使得匿名化失效。许多数据在收集时并非具有目的性,但随着技术的快速进步,这些数据最终被开发出新的用途,而个人并不知情。不仅如此,运用大数据还可能预测并控制人类的潜在行为,在缺乏有效伦理机制下有可能造成对公平、自由、尊严等人性价值的践踏。 其次,越大的数据并非总是越好的数据。对数据的盲目依赖会导致思维和决策的僵化。当越来越多的事物被量化,人们也更加容易陷入只看重数据的误区里。关于数据在何时何地有意义的争议,已经不再局限于“标准化考试是否能够衡量学生素质”之类的讨论,而是拓展到更加广阔的领域。另一方面,如果企业甚至政府在决策过程中滥用数据资料或者出现分析失误,将会严重损害民众的安全和利益。如何避免成为数据的奴隶,已经成为迫在眉睫的问题。 第三,大数据的有限接入产生新的垄断和数码沟。面对大数据,谁能接入?为何目的?在何种情境下?受到怎样的限制?数据大量积累的同时,却也出现了数据垄断的困境。一些企业或国家为了维护自己的利益而拒绝信息的流动,这不仅浪费了数据资源,而且会阻碍创新的实现。与互联网时代的数码沟问题一样,大数据的应用同样存在着接入和技能的双重鸿沟。对于数据的挖掘和使用主要限于那些具有计算机开发和使用背景的专业人士,这也就意味着谁将占据优势、谁会败下阵来,以及由此而来的面对“谁更有权力”的拷问。 进入大数据时代,数据的掌握者们是否会平等地交换数据,促进数据分析的标准化,在数据公开的同时如何与知识产权的保护相结合,不仅涉及到政府的政策,也与企业的未来规划息息相关。
Ⅹ 你需要知道的7个大数据定义
你需要知道的7个大数据定义
大数据究竟是什么?很多人可能仍然有些混淆,本文让我们来看看大数据的一些主要的定义。首先要注意的是,行业内的所有人都普遍认同,大数据不只是更多的数据。
(1)最初的大数据
大数据的特征可以用很多词来描述。2001年Doug Laney最先提出“3V”模型, 包括数量 (Volume)、速度(Velocity)和种类(Variety)。在那以后,业界很多人把3V扩展到了11V,还包括有效性、真实性、价值和可见性等。
(2)大数据:技术
为什么12年前的老术语突然被放在聚光灯下?这不仅是因为我们现在拥有比十年前更多的数量、速度和种类。而是因为大数据受到新技术的推动,特别是快速发展的开源技术,例如Hadoop和其他存储和处理数据的NoSQL方式。
这些新技术的用户需要一个术语来将它们区别于以前的技术,于是大数据成了他们的最佳选择。如果你去参加大数据会议,你肯定会发现,涉及关系型数据库的会议会很少,无论他们鼓吹多少个V。
(3)大数据与数据的区别
大数据技术的问题是,大数据有些含糊不清,以至于行业中的每个供应商都可以跳进来声称自己的技术是大数据技术。以下是两种很好的方法来帮助企业理解现在的大数据与过去单纯的大数据的区别。
交易、交互和观察:这是由Hortonworks公司负责企业战略的副总裁Shaun Connolly提出的。交易是我们过去收集、存储和分析的主要数据。交互是人们点击网页等操作得到的数据。观察是自动收集的数据。
过程介导数据、人类产生的信息以及机器生成的数据。
(4)大数据:信号
SAP公司的Steve Lucas认为,应该根据意图和时机来划分这个世界,而不是根据数据的类型。“旧世界”主要是关于交易,当这些交易被记录时,我们已经无法对它们采取任何行动:企业都在不断管理“失效的数据”。而在“新世界”,企业可以使用新的“信号”数据来预测将会发生什么,并进行干预来改善情况。
相关的案例有,追踪社交媒体上人们对品牌的态度,以及预测性维护(用复杂的算法帮助你决定何时需要更换零部件)。
(5)大数据:机会
这是来自451 Research的Matt Aslett,他将大数据定位为“之前因为技术限制而被忽略的数据”。(虽然在技术上,Matt使用了“暗数据”,而不是大数据,但已经非常接近)。这是笔者最喜欢的定义,因为它符合大部分文章和讨论中的说法。
(6)大数据:隐喻
Rick Smolan在其书中写道,大数据是“帮助这个星球生成神经系统的过程,其中我们人类只是另一种类型的传感器”。很深奥吧?
(7)大数据:新瓶装旧酒
很多项目基本上是使用以前的技术,这些过去被称为BI或者分析的技术突然跳入大数据的行列中。
底线:尽管大家对大数据的定义有很多争议,但所有人都同意这个事实:大数据是一个大事件,在未来几年将带来巨大的机遇。
以上是小编为大家分享的关于你需要知道的7个大数据定义的相关内容,更多信息可以关注环球青藤分享更多干货