博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Mark : hive中rcfile orcfile和parquetfile对比
阅读量:4216 次
发布时间:2019-05-26

本文共 1860 字,大约阅读时间需要 6 分钟。

一.开始创建三种格式的表:

create table rcfile (name string,age int,addr string,desc string) row format delimited fields terminated by ',' stored as rcfile;create table rcfile (name string,age int,addr string,desc string) row format delimited fields terminated by ',' stored as orcfile;create table rcfile (name string,age int,addr string,desc string) row format delimited fields terminated by ',' stored as parquetfile;
  • 1
  • 2
  • 3

二.用shell生成1000W条数据,以”,”隔开,并且load data overwrite到 textfile表里面

三.分别把数据insert到三个表中:

insert into rcfile select * from lijie.textfile;insert into orcfile select * from lijie.textfile;insert into parquetfile select * from lijie.textfile;
  • 1
  • 2
  • 3

四.开始测试

1.select * from xxfile           rcfile       Time taken: 47.604 seconds, Fetcheds 13756317 row(s)    orcfile      Time taken: 2.563 seconds, Fetcheds 13756317 row(s)    parquetfile  Time taken: 43.454 seconds, Fetcheds 13756317 row(s)结论orcfile 小于 rcfile 小于 parquet2.select name,addr from xxfile    rcfile       Time taken: 36.937 seconds, Fetcheds 13756317 row(s)    orcfile      Time taken: 2.514 seconds, Fetcheds 13756317 row(s)    parquetfile  Time taken: 43.454 seconds, Fetcheds 13756317 row(s)结论orcfile 小于 rcfile 小于 parquet3.select max(name) from xxfile    rcfile       Time taken: 34.375 seconds, Fetcheds 13756317 row(s)    orcfile      Time taken: 30.073 seconds, Fetcheds 13756317 row(s)    parquetfile  Time taken: 38.352 seconds, Fetcheds 13756317 row(s)结论orcfile 小于 rcfile 小于 parquet4.select count(1) from xxfile    rcfile       Time taken: 32.261 seconds, Fetcheds 13756317 row(s)    orcfile      Time taken: 28.959 seconds, Fetcheds 13756317 row(s)    parquetfile  Time taken: 32.265 seconds, Fetcheds 13756317 row(s)结论orcfile 小于 rcfile=parquet
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24

五.总结 

总数据量13756317 
列:name,age,addr,desc 
orcfile 查询效果更优,rcfile效果略好于parquetfile

转载地址:http://kuvmi.baihongyu.com/

你可能感兴趣的文章
概述类加载器及类加载过程
查看>>
MySQL SQL优化总结
查看>>
MySQL MyISAM引擎的读锁与写锁
查看>>
面向对象与面向过程的本质的区别
查看>>
Java语言有哪些特点?
查看>>
idea创建maven项目并关联gitee
查看>>
HashMap和Hashtable的区别
查看>>
JVM 对 Java 的原生锁做了哪些优化?
查看>>
JAVA实现简单的阻塞队列
查看>>
我的2020
查看>>
idea快捷键使用
查看>>
2.1MAC协议概述
查看>>
2.3 WSN的MAC协议
查看>>
图解后缀表达式的计算过程
查看>>
栈与队列的应用——计算表达式的值
查看>>
静态链表——sharing
查看>>
静态链表——sorting
查看>>
DFS——背包问题
查看>>
DFS——选数问题
查看>>
BFS——求矩阵中“块”的个数
查看>>