基于Hadoop生态系统的一高性能数据存储格式CarbonData（性能篇）列式存储的ORC和Parquet等

2024-06-30 20:03:31 [百科] 来源：避面尹邢网

基于Hadoop生态系统的基于一高性能数据存储格式CarbonData（性能篇）

作者：Spark大数据开发 2019-05-08 14:18:40存储存储软件 Hadoop CarbonData在数据查询的性能表现比Parquet好很多，在写一次读多次的生态数据场景下非常适合使用;社区比较活跃，响应也很及时。系统性能性目前官网发布版本1.3.0与最新的存储spark稳定版Spark2.2.1集成，增加了支持标准的格式Hive分区，支持流数据准实时入库等新特性，基于相信会有越来越多的生态数据项目会使用到。加米谷大数据转给大家参考学习。系统性能性

[[264630]]

CarbonData在数据查询的存储性能表现比Parquet好很多，在写一次读多次的格式场景下非常适合使用;社区比较活跃，响应也很及时。基于目前官网发布版本1.3.0与***的生态数据spark稳定版Spark2.2.1集成，增加了支持标准的系统性能性Hive分区，支持流数据准实时入库等新特性，存储相信会有越来越多的格式项目会使用到。

基于Hadoop生态系统的一高性能数据存储格式CarbonData（性能篇）列式存储的ORC和Parquet等

一、评测环境

基于Hadoop生态系统的一高性能数据存储格式CarbonData（性能篇）列式存储的ORC和Parquet等

1)网络拓扑图

基于Hadoop生态系统的一高性能数据存储格式CarbonData（性能篇）列式存储的ORC和Parquet等

2)配置参数

Ø 服务器配置

二、性能对比

目前主流hadoop的文件存储格式有行存储的CSV格式，列式存储的ORC和Parquet等。本章给出的是Parquet+Spark和CarbonData+Spark在过滤查询场景和聚合计算场景的性能测试结果。

1)测试数据

创建沈阳社保的数据仓库，导入、集成1年的测试数据，如下表：

生成CarbonData格式文件，如下表：

2)过滤查询场景测试

Parquet和CarbonData在过滤查询场景下的性能对比

3)聚合计算场景测试

Parquet和CarbonData在聚合计算场景下的性能对比

4)总结分析

在过滤查询中，CarbonData的查询效率比parquet效率好，主要体现在列数据的索引查询，极大地提高了精确查询的性能。在聚合查询中，CarbonData通过使用全局字典编码来加快计算速度，这使得处理、查询引擎可以直接在编码好的数据上进行处理而不需要转换数据，数据只有在返回结果给用户的时候才转换成用户可读的形式，通过索引有效过滤文件数据块减少磁盘的IO，提高查询性能。