搜索
查看: 1249|回复: 0

AWS Elastic MapReduce开始支持Hive 13

[复制链接]

142

主题

3

回帖

492

积分

版主

积分
492
发表于 2014-9-26 14:11:48 | 显示全部楼层 |阅读模式

AWS官方博客宣布Elastic MapReduce开始支持Hive 13。Hive是创建和检索大数据集的主要工具,它与一些强大的工具一起支持ETL(Extract/Transform/Load)过程,并为存储在HDFS中的EMR集群或Amazon S3提供访问权限。Hive提供的编程和特殊查询利用了MapReduce模型的大规模并行样式。

Hive 13版本特征

HIVE 13包括了各种实用并炫酷的新特性:

矢量化的查询执行

这个特性可为扫描、过滤、聚合和连接等查询方式降低CPU使用率。取代一行一行的查询过程,矢量化的查询执行以可同时执行1024行数据为特点,降低了内部开销并允许在紧密高效的循环中处理数据列存储。要利用这一特性,就必须以ORC (Optimized Row Columnaer)格式存储数据,可通过ORC: An Intelligent Big Data file format for Hadoop and Hive 了解更多ORC格式及其优势。

加速序列化计划

序列化一个查询计划的过程(将复杂的Java对象转换成XML)变得更快了,加速了查询计划到工作节点的传输并优化了所有的Hive性能。

支持decimal和char数据类型

新的DECIMAL数据类型支持高达38位精确度的数值表达;新的CHAR数据类型支持fixed-length和 space-padded字符串。 更多信息请参阅Hive Data Types

支持IN, NOT IN, EXISTS, 和 NOT EXISTS子查询

Hive subqueries的WHERE子句在相关和无关表格中支持IN, NOT IN, EXISTS, 和 NOT EXISTS语句,无关子查询是指其列不引用父查询列。

WHERE子句中加入条件

Hive支持在WHERE子句中加入条件

改进Windowing Functions

Hive现在支持改进并高优化了的“windowing”功能版本,可聚集在一个移动窗口。比如,你可以轻松计算出指定天数的股票动态平均价格

在新推出的集群中,用户可通过Elastic MapReduce 3.2.0开始使用这些新特征。


您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

 
 
大数据行业交流
大数据行业交流
大数据求职招聘
大数据求职招聘
站长电话:
15010106923
微信联系:
hb-0310
站长邮箱:
ab12-120@163.com
大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-4-29 10:47 , Processed in 0.132108 second(s), 24 queries .

快速回复 返回顶部 返回列表