搜索
大数据中国 首页 大数据技术 数据挖掘 查看内容
数据驱动型社会,数字面包屑的预测能力
2013-10-18 13:02 |原作者: 周涛|来自: 互联网| 查看: 2602| 评论: 0

数据面包

我们每天留下的数字痕迹所揭示的事情远比我们所知的要多。这会成为一个隐私噩梦——亦或成就一个健康、繁荣的世界。

————亚历克斯·桑迪·彭特兰

19世纪中叶,由工业革命所带动的城市的迅猛发展引发了亟待解决的社会和环境问题。城市开始通过建立集中式网络来提供清洁饮用水、清洁能源和安全食品;启动电子商务,提供便利交通和维持秩序;提供医疗保健和能源。如今,这些历经百年之久的方案越来越不足以解决我们所面临的问题。许多城市都存在交通堵塞的现象。我们的政治制度也陷入了一种僵局。此外,我们还面临着一系列新的挑战——最值得注意的是,我们要安置并养活20亿的新增人口,同时还要防止全球变暖所带来的最坏影响。

这是21世纪特有的问题,因此我们要站在21世纪的角度上去思考这些问题。然而,许多经济学家和社会科学家仍然在用启蒙时代的概念——如市场和经济——来看待社会体系这一问题。虽然这些简化的概念减少了社会规则或运算,但是却忽视了人类的个体行为。我们需要更深入地去考量社会互动的细节。大数据这一工具为我们提供了这一便利。

数字技术使我们能了解到十几亿个体在思想、金钱、物品或八卦信息上如何互通有无。我在麻省理工学院建立了一个研究实验室,研究员们一直都在用电脑观测这些交流数据之间的数学模式。我们发现,我们逐渐开始具备解释一些现象的能力,如金融崩溃、政治动荡、流感,而在以前,这些现象对我们来说都很神秘。数据分析有助于金融体系保持稳定、政府正常运作、医疗保健行业提高效率,等等。但首先,我们需要充分领会大数据的潜力,并应建立一个框架以正确使用这种方法。就像普罗米修斯之火一样,跟踪、预测和控制个体和群体行为的能力也是一把双刃剑。

数字面包屑的预测能力

在日常生活中,我们会留下虚拟面包屑——这种数字面包屑会记录下我们访问的人、我们去过的地方、我们吃过的东西及我们购买的产品。与其他披露我们日常生活的工具相比,数字面包屑能为我们讲述一个更准确的故事。Facebook每天都会更新状态,Tweet也会传递一些我们所选择的事情,这些事情都是根据当天的标准进行编辑的。与之相对,数字面包屑不会选择,而是忠实记录下我们的真实行为。

今天,我们的城市和政府运作的方式仍然遵循两个世纪前,产业结构刚开始发生演变时的原则。要解决21世纪的问题,如人口爆炸和气候变化,我们需要注入新的思维。

大数据可以为我们提供这种思维。日常生活中,我们会留下数字面包屑,与以前的方法相比,它能够揭示更多关于我们的事情。在解决社会问题时,数字面包屑能为我们提供一种强大的工具。然而,这势必会使我们产生这样一种担忧——信息滥用。在数据挖掘为我们创建更健康、更繁荣的社会之前,我们需要制定一个数据新政,以赋予个体更多的掌控力。

 

团体动力学

通过利用带有传感器的ID徽章或手机数据来追踪社交活动,我们能够让一个团体的动态行为可视化,使得团队成员可以看到他们是如何一起工作的[1]。正如下文描述的情况一样,笔者和他的研究小组对一个八人头脑风暴团体进行了追踪,在每天工作结束时,我们给每个成员发了一张有关团队活动的图表。每个成员周围的圆圈大小代表其与团队沟通的次数;团队成员之间连线的宽度,代表这两个人之间进行沟通的次数。他们通过这一图表来诊断团队的薄弱环节,这样一来,团队就变得更加积极,工作也更有成效。

36大数据

作为一种社会性动物,我们的行为从来都不会像我们想象中那样是独一无二的。那些与你通话的人,你通过短信联系的人及那些与你共同消磨时光的人——甚至是你周围的邻居,虽然你们从未正式见过对方,可能在许多方面都与你相似。仅凭你通常会在哪家餐厅就餐及你通常与哪些人交往,我和我的学生就能知道你患糖尿病的可能性。我们还可以使用相同的数据来预测你通常会购买哪种衣服以及你偿还贷款的倾向。我们的心绪发生改变时(例如当我们厌倦某些活动),我们的行为也会发生变化——我们去不同的地方,买不同的东西,跟不同的人联系,在网络上寻找不同的物品。现在,使用数据分析,我们就可能制作一个不断更新的地图,实时预测一个城市的居民最有可能在什么时候患上流感。

 

大数据的数学模式使我们洞悉社会的运转,其中包括人与人之间思想和信息的流动。我们可以通过学习社会互动模式(面对面的交谈、电话呼叫、社交媒体信息交流)、通过量度个人消费模式中表现出来的探索新商品的特征(如信用卡数据)或通过研究人类移动模式(如GPS数据所示)来了解这种信息流动。要想了解社会,关键是要了解思想的流动,因为信息的及时性对系统的高效性来说是一种至关重要的因素,而且思想的传播和结合是创新的基础。那些与社会隔离的社区会遭遇停滞的危险。

我和我的学生们发现了许多惊人的事情,其中最令人惊讶的是,思想流动模式(用购买行为、物理流动性或通信来量化)与生产力的增长和创造性输出有着直接关系。个人、组织、城市,乃至整个社会,如果它们自身经常参与到内部互动中,并且喜欢探索外部的世界,那么通常具备更高的生产力,更大的创造性输出,甚至更持久、更健康的生活。我们会在各种社会物种身上看到这种模式变化,甚至蜜蜂也会有这种变化。这样看来,思想的流动对社会健康来说至关重要。

因此,在对企业和政府机构进行分析时,将它们视为思想机器将有利于我们的分析。这些机器主要是通过个体的互动来收获和传播思想的。以下两种数学模式就是一种健康的思想流。首先是参与度,我们将其定义为一个工作组内人与人之间日常交流的比例。参与度和生产力之间的关系非常简单:不管工作组的工作性质是什么,也不管工作组成员的个性如何,参与度越高,生产力也就越高。第二个因素是探索能力——这是一种数学量,用以测量工作组成员从外部引进新思想的能力。探索能力是预测创新和创造性输出的不二之选。

在对世界各地的公司进行实地实验时,通过给员工配备社会计量ID徽章——一种跟踪人与人之间相互作用的电子设备,我和我的学生们对员工的参与度和探索能力进行了测量。我们发现,团队参与度的提高可以极大地提高生产力,同时还能减轻压力。例如,在了解到呼叫中心通常会安排茶歇,使得任何给定的时间内只有一个人在休息后,我说服美国银行呼叫中心的经理调整茶歇时间以便让员工们同时休息。单单就这一种变化就使每年的生产率提高了1500万美元。

我们发现,在对创新和创造性输出进行预测时,探索(在人与人之间建立新的连接)是一个不错的指标。丰富的沟通渠道,尤其是面对面的互动,要比电子通讯渠道重要得多。换句话说,电子邮件永远也不会完全取代会议和谈话。

我们还发现了一种在团队内部参与和向外探索间转换的振荡模式(在这种模式中,人们首先在团队内部互动,然后去寻找新的信息,把新信息带回团队,再接着重复这一过程)与创造输出始终密切相关。在建立这个研究机构时,我的同事一直在通过面对面的互动来测量这种模式,并使用这些测量结果来准确地确定研究人员的顶级创意期。这一方法同样适用于虚拟团队,其成员分布在许多场所。

类似的信息流模式能够预测整个城市和地区的生产输出。社区内参与和社区外探索的模式甚至还能够用来预测出一些社会变量,如寿命、犯罪率和婴儿死亡率。信息贫乏的街区就像物质世界中的贫民区一样,相反,那些与周边社区相互关联的街区则会更加健康和繁荣。

36大数据

最大化思想流

大数据能够诊断问题并预测成功率。然而更令人兴奋的是,我们还可以使用大数据来对组织、城市和政府进行设计,以使它们更好地运作。

我们最容易在企业内部看到这种潜力。通过测量思想流,我们通常可以找到能够提高生产效率和创造性输出的简单改变。举例来说,一家德国银行的广告部在新产品推行过程中遇到了许多严重的问题,他们想知道哪个环节出了错。在通过社会计量ID徽章对这些问题进行研究时,我们发现,当组织内的群体在交换大量的电子邮件时,几乎没有人跟客户服务部门的员工交谈。原因很简单:客户服务部门设在另一楼层。这种配置导致了许多重大的问题。不可避免的是,广告部最终会放弃那些服务部门无法提供支持的广告设计。当管理层看到图中我们描绘的这个断裂的信息流图表时,他们立刻意识到,他们应该将客户服务与其他团队设在同一楼层上。这一问题就解决了。

提高参与度并不像“魔术子弹”那样具有强大的威力。事实上,如果只提高参与度而不提高探索能力同样也会造成很多问题。举例来说,我和我的博士后学生Yaniv Altshuler对eToro金融贸易商社交网络内的信息流进行了观察,我们发现,在某一点上,人与人之间的关系会变得极其密切,那一刻的思想流主要受反馈环路控制[2]。当然,每个人都在交流自己的想法——但在这样的反馈回路中,每个人传输的都是同样的想法。因此,金融贸易商就像是在回声室中工作一样。当反馈回路开始控制这些贸易商时,就会出现金融泡沫。这也解释了为什么聪明人都被说服相信Pets.com是本世纪最有价值的股票[3]。

幸运的是,我们发现,我们可以通过为个体提供小额奖励或刺激,来管理人与人之间的思想流。一些奖励可以刺激那些孤立的人去参与到其他人的活动中,其他人也可以鼓励深陷在群体思维的人去探索他们的接触圈以外的世界。我们曾做过一个这样一个实验,在实验中,我们选取了270万小型eToro个体投资者作为受试者,通过给这些贸易商发放折扣券,鼓励他们去探索其他贸易商的想法——这样我们有目的的修改了网络的结构。结果表明,整个网络系统呈现出一种“群集智慧”,而且一直都保持着健康的运行状态。更加值得注意的是,虽然我们只对少数贸易商采取了激励措施,我们最终却将所有社会贸易商的盈利能力提高了6%。

对思想流进行设计也可以帮助解决公地悲剧[4]这一问题——少数个别行为就能使所有人受到影响,但是,由于个体承担的后果太微不足道,所以人们就缺乏动力来解决这一问题。医疗保险业就是一个很好的例子。那些不按要求吃药,不进行锻炼或饮食不合理的人会支付较高的医疗费用,从而带动了整个医疗保险业价格的抬高。同样,当税收征管过于集中时,地方政府就不能确保每个人都会按规定纳税,结果,骗税就会成为一种常态。

通常的解决办法是:找出违规者,为他们设计一种激励机制或罚款,以使他们改正不良的行为。这种方法代价很高,而且几乎没有什么效果。然而,我和我的研究生Ankur Mani通过实验表明,通过增加人与人之间的接触,可以最大限度地减少这些情况的发生。关键是要向那些与违规者互动最多的人提供小额现金奖励。要奖励这些互动者,而不是那些违规者。在现实情况中,可以鼓励健康的行为,或鼓励人们去节约能源,我们发现,这种基于社会压力的方法能达到传统方法效果的四倍。

这种方法同样也可用于社会动员——比方说,在紧急情况或特殊的情况中,我们需要协调努力来达到某一共同目的。举例来说,2009年,美国国防高级研究规划局(DARPA)设计了一个实验来庆祝互联网40周年生日。这个试验旨在表明社会媒体和互联网在紧急动员美国人时发挥的作用。参赛者须尽快确定分布在美国各地的10只红色气球的具体方位,冠军得主可获得高达4万美元的奖金。大约有4000个团队报名参加了这个大赛,几乎所有团队都采取最简单的办法——为那些找到气球的人提供奖励。然而,我的研究团队采取了不同的策略。我们将这笔奖金分摊给各个团队成员,他们利用社交网络来寻找那些找到气球的人[5]。就概念意义而言,这种方案与解决公地悲剧所使用的社会压力方法一样,都是鼓励人们尽可能地利用他们的社交网络。我们在9个小时内就成功地定位了所有10个气球,赢得了这场比赛。

数据新政

为了实现数据驱动型社会,我们需要制定一种数据新政——这是一种行之有效的担保,可以保证公共物品所需的数据都是现成的,而同时又能对公民进行保护。数据新政的关键是把个人数据视为一种财产;个人对与之相关的数据享有所有权。“拥有”自己的数据意味着什么呢?2007年,针对英国普通法的占有、使用和处置的原则,我提出了这样一个比喻:

你有权利拥有与你相关的数据。不论哪个实体对这些数据进行了收集,这些数据都属于你,你可以随时访问这些数据。数据收集者则类似于银行,他们是在代表他们的“客户”对数据进行管理。

你对你的数据的使用享有完全控制权。使用条款必须通俗易懂。如果你对某个公司使用你的数据的方式不满意,你可以删除这些数据——正如当你对银行提供的服务不满意时,你会关闭你的账户一样。

在过去的五年间,在世界经济论坛上,跨国公司的CEO们,以及美国、欧盟和世界各地的公共宣传团体一直对这些基本原理争论不休。结果表明,美国、欧盟和其他国家已做出了相关规定(如新的美国消费者隐私权利法案),赋予个体支配自己的数据的权力,同时也鼓励在公共和私营领域增加透明度和洞察力。

生活实验室[6]

我们能够更好地观察到我们在建立社会制度中发挥的作用,这是有生以来的首次突破。大数据有望引发一场与发明印刷术或互联网比肩的跨越式发展。

当然,数据驱动的社会对我们来说将会是一个挑战。在这个充满着无限数据的世界中,甚至连我们通常使用的科学方法也不管用了——潜在的联系太多,我们的标准统计工具往往会产生一些毫无意义的结果。当假设得以证实且具备数据来回答这个问题时,标准的科学方法会产生良好的结果。然而,当遇到错综复杂的大型社会制度时,我们往往会提出各种各样的合理假设;迅速进行数据匹配是不可能的。因此,在这个新时代,我们需要采取一种新的方式来管理我们的社会。与之前相比,我们必须要更早、更频繁地来测试现实世界中的联系。我们需要建立一个“生活实验室”,在实验室中,我们可以对那些有关构建数据驱动型社会的思想进行测试。

例如,在市政府、意大利电信、西班牙电信、研究型大学Fon­dazione Bruno Kessler和数据驱动设计研究所的支持下,我们近期在特伦托和意大利推出了开放式数据城市。这个项目旨在促进特伦托内部的思想流。许多软件工具都实施了这一数据新政,如我们的开放式个人数据存储(PDS)系统,通过控制信息的流动方向和用途,使得个体能够安全地分享个人数据(如他们的健康信息和孩子的资料)。例如,开放式个人数据存储(PDS)应用程序会鼓励有小孩的家庭共享他们的最佳实践。其他家庭是如何支配金钱的呢?他们经常参加社交吗?他们和哪些幼托机构或医生呆的时间最长呢?一旦个体授予权限,就可以对这些数据进行收集,经过匿名处理后,就可以通过开放式个人数据存储程序自动分享给有小孩的家庭,这一过程很安全。

我们相信,那些类似于我们在特伦托开展的实验都会证明,数据驱动的社会的潜在回报是值得我们付出努力的——其风险也是如此。试想一下:我们可以预测并化解金融崩溃,检测并防止传染性疾病,明智地使用我们的自然资源,并鼓励创造力的蓬勃发展。如果我们能掌控潜在的危险的话,这种想象可能很快就会成为现实——这是一个属于我们的现实。

延伸阅读

社会神经系统:建立有效的政府、能源和公共健康系统。IEEE计算机学会:亚历克斯·彭特兰(Alex Pentland);2013年1月。

建立伟大团队的新科学。“哈佛商业评论”,亚历克斯·彭特兰;2012年4月。

个人资料:新资产类别的出现:www.weforum.org/reports/personal-data-emergence-new-asset-class

你可以在科学美国人在线频道观看桑迪·彭特兰(Sandy Pentland)的采访视频,网址为:ScientificAmerican.com/oct2013/pentland

[1] Pentland小组主要关注团体对内对外的沟通互动,团体自身的稳定性与含时变化,可以参考Vicsek小组的研究报道:[G. Palla, A.-L. Barabási, T. Vicsek, Quantifying social groupevolution, Nature 446 (2007) 664-667]——译者注。

[2]作者此处的反馈指的是正反馈,就好像麦克风里面的声音通过音响放大,放大的声音再通过麦克风进入音响,然后再放大,直至形成啸叫。一般而言,正反馈主导的系统不稳定,负反馈主导的系统稳定——译者注。

[3]这是一家曾经受到很多人追捧的网上宠物零售店,2000年2月上市,仅9个月,就宣布破产——译者注。

[4]公地作为一项资源或财产有许多拥有者,他们中的每一个都有使用权,但没有权利阻止其他人使用,从而造成资源过度使用和枯竭。过度砍伐的森林、过度捕捞的渔业资源及污染严重的河流和空气,都是“公地悲剧”的典型例子。之所以叫悲剧,是因为每个当事人都知道资源将由于过度使用而枯竭,但每个人对阻止事态的继续恶化都感到无能为力。而且都抱着“及时捞一把”的心态加剧事态的恶化。请参考:[G. Hardin, The Tragedy of the Commons, Science 162 (1968) 1243–1248]——译者注。

[5]这是一种新颖的众包模式,其中找到气球的人获得相应奖金的50%,介绍这个找到气球的人获得25%,介绍“介绍这个找到气球的人”获得12.5%,以此类推。可以参考Pentland小组论文:[G. Pickard, W. Pan, I. Rahwan, M. Cebrian, R. Crane, A. Madan, A.Pentland, Time-critical social mobilization, Science 334 (2011) 509-512]。Pentland等人提出的机制已经商业化,最近由“数联寻英”所推出的一款名为“人才雷达”的产品就使用同样的方法鼓励为公司找到新员工的内部人员。

[6]原文为living labs,除了包含“以人群的日常生活为实验对象”这一层含义,另外也有能够实时给出反应的活的社会实验室的意思。由于中文不好对应翻译,故简译为“生活实验室”——译者注。

作者Pentland原发表于《科学美国人》,译文将在《环球科学》刊出,转自周涛博士科学网博客。

免责声明: 除非特别声明,文章均为投稿或网络转载,仅代表作者观点,与大数据中国网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。如果本文内容有侵犯你的权益,请发送信息至ab12-120@163.com,我们会及时删除

最新评论

关闭

站长推荐上一条 /1 下一条

 
 
大数据行业交流
大数据行业交流
大数据求职招聘
大数据求职招聘
站长电话:
15010106923
微信联系:
hb-0310
站长邮箱:
ab12-120@163.com
大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-4-20 14:17 , Processed in 0.138276 second(s), 23 queries .

返回顶部