你知道Hive统计函数count(*)为什么不走MR吗？元数据会记录插入的统计数量

2024-06-25 19:36:04 [百科] 来源：避面尹邢网

你知道Hive统计函数count(*)为什么不走MR吗？

作者：大数据工匠 2022-05-12 08:22:27数据库其他数据库用insert into 的知道走方式插入到Hive表数据时，元数据会记录插入的统计数量，为了优化查询，函数无条件count(*)查询时直接查元数据中记录的知道走numRows字段，导致结果不准确。统计

问题

Hive执行count(*)不走MR呢?函数

你知道Hive统计函数count(*)为什么不走MR吗？元数据会记录插入的统计数量

先说结论：如果表数据是insert进表的，count(*)统计时，知道走带where条件执行时候Hive会执行MR，统计如果不带where条件，函数Hive会从元数据库表metastore.TABLE_PARAMS中直接获取numRows字段的知道走值获取记录数。下面创建表进行验证，统计在验证时发现了Hive在无条件count(*)统计中的函数一个bug，bug现象也会下面验证。知道走

你知道Hive统计函数count(*)为什么不走MR吗？元数据会记录插入的统计数量

创建测试表

create database testdb;
use testdb;
--测试hive
create table test(
id int comment 'id'
)comment '测试hive'
insert into test values('1001');
select count(*) from test ;
select count(*) from test where id>=1001;

你知道Hive统计函数count(*)为什么不走MR吗？元数据会记录插入的统计数量

hive表存储位置

表描述信息

hdfs上生成了数据

数据内容

从上面两个图上可以看到建表后插入一条记录，会在metastore.TABLE_PARAMS 表中记录该表的函数信息，并且用numRows记录该表的数量，查看HDFS该表所在的路径生成了000000_0的文件，下载下来查看确实是1001。

执行count(*)

不带where条件执行：查询非常快，也并没有走MR。

不带where条件执行结果

带where条件执行：查询比较慢，且走了MR。

可以验证Hive不带where条件的执行不走MR，而是直接从元数据里获取表的行数，这也算是一种优化，毕竟Hive存储的数据大多是T+1的数据，数据写入后一般不会改变。

Hive的一个bug

本地创建一个ids.txt文件，通过hadoop fs -put 命令上传到表映射路径/user/hive/warehouse/testdb.db/test上。

创建文件并上传到表路径。

hdfs文件下载并查看结果

执行不带where条件的count(*)结果就是错误的，而带where条件的是正确的。

然后通过Hive执行带条件和不带条件的查询结果发现，不带where条件中的查询结果是1，而带where条件的结果是3，说明直接通过hadoop fs -put把文件上传到路径的方式会导致Hive在没有条件的统计下结果是错误的，也侧面证明了无条件的count(*)是从元数据库直接取的数据，而用select * 查询时结果却是正确的。