搜索
大数据中国 首页 行业资讯 查看内容
包罗万象的数据:大数据与数据挖掘
2013-9-30 01:39 |原作者: 网络转载| 查看: 10060| 评论: 0

大数据盯着“#bigdata”(意为大数据)。这些是在推特上发布过“bigdata”的用户之间的连接,用户图标的尺寸代表了其粉丝数多寡。蓝线表示一次回复或者提及,绿线表示一个用户是另一个的粉丝。 图片来源:Marc Smith

一个主要的兴趣点是“水军”,费拉拉说:协调一致的造势运动本应来自草根阶层,但实际上是由“热衷传播虚假信息的个人和组织”发起的。

2012年美国大选期间,一系列推文声称共和党总统候选人米特·罗姆尼(Mitt Romney)在脸谱网上获得了可疑的大批粉丝。“调查者发现共和党人和民主党人皆与此事无关。”费拉拉说,“幕后另有主使。这是一次旨在令人们相信罗姆尼在买粉从而抹黑他的造势运动。”

水军的造势运动通常很有特点,费拉拉说。“要想发起一场大规模的抹黑运动,你需要很多推特账号,”包括由程序自动运行、反复发布选定信息的假账号。“我们通过分析推文的特征,能够辨别出这种自动行为。”

推文的数量年复一年地倍增,有什么能够保证线上政治的透明呢?“我们这个项目的目的是让技术掌握一点这样的信息。”费拉拉说,“找到一切是不可能的,但哪怕我们能够发现一点,也比没有强。”

头脑里的大数据

人脑是终极的计算机器,也是终极的大数据困境,因为在独立的神经元之间有无数可能的连接。人类连接组项目是一项雄心勃勃地试图绘制出不同脑区之间相互作用的计划。

除了连接组,还有很多充满数据的“组”:

基因组:由DNA编码的,或者由RNA编码的(比如病毒)——全部基因信息

转录组:由一个有机体的DNA产生的全套RNA“读数”

蛋白质组:所有可以用基因表达的蛋白质

代谢组:一个有机体新陈代谢过程中的所有小分子,包括中间产物和最终产物

连接组项目的目标是“从1,200位神经健康的人身上收集先进的神经影像数据,以及认知、行为和人口数据”,圣路易斯市华盛顿大学的连接组项目办事处的信息学主任丹尼尔·马库斯(Daniel Marcus)说。

项目使用三种磁共振造影观察脑的结构、功能和连接。根据马库斯的预期,两年之后数据收集工作完成之时,连接组研究人员将埋首于大约100万G数据。

20名健康人类受试者处于休息状态下接受核磁共振扫描,得到的大脑皮层不同区域间新陈代谢活动的关联关系,并用不同的颜色表现出来。黄色和红色区域在功能上与右半脑顶叶中的“种子”位置(右上角黄斑)相关。绿色和蓝色区域则与之关联较弱或者根本没有关联。图片来源:M.F.Glasser and S.M.Smith

绘制脑区分布图的“分区”是一项关键的任务,这些脑区最早于两到三世纪之前通过对少量大脑染色被识别出来。“我们将拥有1,200个人的数据,”马库斯说,“因此我们可以观察个人之间脑区分布的差别,以及脑区之间是如何关联的。”

为了识别脑区之间的连接,马库斯说,“我们在受试者休息时获取的扫描图中,观察脑中的自发活动在不同区域之间有何关联。”比如,如果区域A和区域B自发地以每秒18个周期的频率产生脑波,“这就说明它们处于同一网络中。”马库斯说。“我们将利用整个大脑中的这些关联数据创建一个表现出脑中的每一个点如何与其他每一个点关联的矩阵。”(这些点将比磁共振成像无法“看到”的细胞大得多。)

星系动物园:把天空转包给大众

星系动物园项目打破了大数据的规矩:它没有对数据进行大规模的计算机数据挖掘,而是把图像交给活跃的志愿者,由他们对星系做基础性的分类。该项目2007年启动于英国牛津,当时天文学家凯文·沙文斯基(Kevin Schawinski)刚刚蹬着眼睛瞧完了斯隆数字巡天计划拍摄的5万张图片。

阿拉巴马大学天文学教授、星系动物园科学团队成员威廉·基尔(William Keel)说,沙文斯基的导师建议他完成95万张图像。“他的眼睛累得快要掉出眼窝了,便去了一家酒馆。他在那里遇到了克里斯·林托特(Chris Lintott)。两人以经典的方式,在一张餐巾的背面画出了星系动物园的网络结构。”

星系是一个经典的大数据问题:一台最先进的望远镜扫描整个天空,可能会看到2000亿个这样的恒星世界。然而,“一系列与宇宙学和星系统计学相关的问题可以通过让许多人做相当简单的分类工作得以解决。”基尔说,“五分钟的辅导过后,分类便是一项琐碎的工作,直到今日也并不适合以算法实现。”

星系动物园的启动相当成功,用户流量让一台服务器瘫痪了,基尔说。

斯隆巡天的全部95万张图片平均每张被看过60次之后,动物园的管理者们转向了更大规模的巡天数据。科学受益匪浅,基尔说。“我的很多重要成果都来自人们发现的奇怪物体,”包括背光星系。

免责声明: 除非特别声明,文章均为投稿或网络转载,仅代表作者观点,与大数据中国网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。如果本文内容有侵犯你的权益,请发送信息至ab12-120@163.com,我们会及时删除

最新评论

关闭

站长推荐上一条 /1 下一条

 
 
大数据行业交流
大数据行业交流
大数据求职招聘
大数据求职招聘
站长电话:
15010106923
微信联系:
hb-0310
站长邮箱:
ab12-120@163.com
大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-5-16 06:22 , Processed in 0.047731 second(s), 23 queries .

返回顶部