搜索
大数据中国 首页 大数据技术 查看内容
微软即将开源REEF大数据框架
2013-8-13 23:37 |原作者: 佚名|来自: 互联网| 查看: 2057| 评论: 0

微软开发出一套名为REEF(即可保留评估执行框架的简称)的大数据框架,并有意在一个月之内将其推向开源。REEF在设计上以下一代Hadoop资源管理器YARN为运行基础,尤其适合完成机器学习类任务。

微软公司技术研究员兼信息服务部门CTO Raghu Ramakrishnan在本周一上午于芝加哥举办的知识发掘与数据发现国际大会上,以主题演讲的形式介绍了REEF项目与微软的开源规划。

YARN是一款资源管理器,最初作为Apache Hadoop项目的组成部分开发而来,旨在帮助用户在由多台物理设备构成的同一套集群内运行并管理多种任务类型(例如批量MapReduce、与Storm及/或图形处理包共同实现流处理等)。这项新机制不仅能够缩减机构所需管理的系统数量,而且能在同一位置以同一批数据为基础执行不同类型的分析工作。在某些情况下,全部数据工作流甚至可以完全在同一套设备集群内进行处理。

微软即将开源REEF大数据框架

不过根据Ramakrishnan的解释,某些工作类型(例如机器学习)对于YARN类框架并不适合,因为它们对于数据移动、任务监控以及前续结果集迭代(以避免多次重启)等功能存在特殊要求。针对REEF,Ramakrishnan表示这是一套运行在YARN之上的库;虽然他并未深入探讨其具体运作机制,但宣称REEF能在一定程度上解决上述问题。

但他曾明确解释称,REEF被分为两大主要部分:首先是作为容纳REEF服务的YARN容器——Evaluator;然后是使用户代码运行在Evaluator当中的Activity。他还为我们带来一段工作流演示,即在YARN当中启动Evaluator,并以Evaluator为容器实现Activity代码运行直到结束。值得一提的是,同一Evaluator还可以再次启动并维持其初始状态,这样其它Activity进程也可以针对初始数据实现运行。据推测,微软很可能是利用某种SQL查询或者其它机器学习算法来实现这样的效果。

微软即将开源REEF大数据框架

REEF组件与功能演示资料

从理论上讲,REEF是一种非常有趣的技术。它希望解决企业在尝试对数据进行进一步分析时所面对的遗留问题。我们期待微软正式发布REEF之后,再从实际使用中获取更多效果信息。尽管目前尚未实践证明,但REEF仍然值得关注——这是因为微软已经对Hadoop(YARN即为Hadoop的重要组成部分)及开源社区表现出高度关注。就在几年前,微软还在寻找Hadoop的替代方案及专有平台。如今,软件巨头已经开始在Hadoop技术社区中倾注心力,希望借开源之力助自己更上一层楼。

免责声明: 除非特别声明,文章均为投稿或网络转载,仅代表作者观点,与大数据中国网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。如果本文内容有侵犯你的权益,请发送信息至ab12-120@163.com,我们会及时删除

最新评论

关闭

站长推荐上一条 /1 下一条

 
 
大数据行业交流
大数据行业交流
大数据求职招聘
大数据求职招聘
站长电话:
15010106923
微信联系:
hb-0310
站长邮箱:
ab12-120@163.com
大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-4-20 15:16 , Processed in 0.050882 second(s), 23 queries .

返回顶部