包罗万象的数据：大数据与数据挖掘-行业资讯

包罗万象的数据：大数据与数据挖掘

2013-9-30 01:39 |原作者: 网络转载| 查看: 10613| 评论: 0

这是星系动物园志愿者们发现的差不多2000个背光星系之一。它被其后方的另一个星系照亮。来自背后的光令前景星系中的尘埃清晰可辨。星际尘埃在恒星的形成中扮演了关键的角色，但它本身也是由恒星制造的，因此检测其数量和位置对于了解星系的历史至关重要。图片来源：WIYN 望远镜, Anna Manning, Chris Lintott, William Keel

星系动物园依赖统计学、众多观察者以及处理、检查数据的逻辑。假如观察某个特定星系的人增加时，而认为它是椭圆星系的人数比例保持不变，这个星系就不必再被观察了。

然而，对一些稀有的物体，基尔说，“你可能需要40至50名观察者。”

大众科学正在发展自己的法则，基尔补充道。志愿者们的工作“已经对一个真实存在的重大问题做出了贡献，是现存的任何软件都无法实现的。鼠标的点击不该被浪费。”

这种动物园方法在zooniverse.org 网站上得到了复制和优化。这是一个运行着大约20项目的机构，这些项目的处理对象包括热带气旋、火星表面和船只航行日志上的气象数据。

最终，软件可能会取代志愿者，基尔说。但是计算机和人类之间的界线是可互换的。比如说超新星动物园项目在软件学会了任务之后就关闭了。

我们惊讶地得知志愿者们积累的庞大数据是计算机学习分类的理想材料。“一些星系动物园用户真的很反感这一点。”基尔说，“他们对于自己的点击被用来训练软件表达出明显的怨恨。但是我们说，不要浪费点击。如果某人带来了同样有效的新算法，人们就不必做那些事情了。”

学习的渴望

人们长久以来改进对图像和语音的模式识别的努力已经受益于更多的训练，威斯康星大学麦迪逊分校的克拉考尔说。“它不仅仅是有所改善，更是有了实际的效果。5到10年之前，iPhone上的Siri是个想都不敢想的点子，语音识别一塌糊涂。现在我们拥有了这样一批庞大的数据来训练算法，忽然之间它们就管用了。”

随着数据及通讯价格持续下跌，新的思路和方法应运而生。如果你想了解你家中每一件设备消耗了多少水和能量，麦克阿瑟奖获得者西瓦塔克·帕特尔（Shwetak Patel）有个解决方案：用无线传感器识别每一台设备的唯一数字签名。帕特尔的智能算法配合外挂传感器，以低廉的成本找到耗电多的电器。位于加利福尼亚州海沃德市的这个家庭惊讶地得知，录像机消耗了他们家11%的电力。图片来源：Peter Menzel/ The Human Face of Big Data

等到处理能力一次相对较小的改变令结果出现突破性的进展，克拉考尔补充道，大数据的应用可能会经历一次“相变”。

“大数据”是一个相对的说法，不是绝对的，克拉考尔指出。“大数据可以被视作一种比率—我们能计算的数据比上我们必须计算的数据。大数据一直存在。如果你想一下收集行星位置数据的丹麦天文学家第谷·布拉赫（Tycho Brahe，1546 - 1601），当时还没有解释行星运动的开普勒理论，因此这个比率是歪曲的。这是那个年代的大数据。”

大数据成为问题“是在技术允许我们收集和存储的数据超过了我们对系统精推细研的能力之后。”克拉考尔说。

我们好奇，当软件继续在大到无法想象的数据库上执行复杂计算，以此为基础在科学、商业和安全领域制定决策，我们是不是把过多的权力交给了机器。在我们无法觑探之处，决策在没人理解输入与输出、数据与决策之间的关系的情况下被自动做出。“这正是我所从事的领域，”克拉考尔回应道，“我的研究对象是宇宙中的智能演化，从大爆炸到大脑。我毫不怀疑你说的。”

免责声明：除非特别声明，文章均为投稿或网络转载，仅代表作者观点，与大数据中国网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。如果本文内容有侵犯你的权益，请发送信息至ab12-120@163.com，我们会及时删除

1 2 34 / 4 页

收藏分享邀请

上一篇：Facebook引入人工智能：深度分析用户内容 下一篇：沈浩老师：如何实现数据的地理信息呈现