在大数据 ETL(Extract-Transfer-Load) 过程中,析函经常需要从不同的内置数据源来提取数据进行加工处理,比较常见的析函是从 Mysql 数据库来提取数据,而 Mysql 数据库中数据存储的内置比较常见方式是使用 json 串进行存储。
通过大数据加工处理出来的析函数据是需要具有可直观分析的特点,可从数据分析中挖掘出商业价值的内置。
因此在数据预处理层需要将 json 串进行“拍平”处理,析函所谓“拍平”是内置指将 json 中的 key 转换为表的列字段,其 key 对应的析函 value 值则为列字段对应的值。
“拍平”的内置处理行业内也可称为“行转列”处理,我举个例子你就能明白什么是析函行转列了。
user表字段如下:
现需要将 user 表中字段 detail_info 中的内置 json 串值,以每个 key 作为 user_detail_info 表的字段来进行存储。
实现的 user_detail_info 表字段如下:
从 user 表到 user_detail_info 表的转换,就是“行转列”的过程。
你是否会好奇,在 Hive 中这个过程是如何实现的呢?
下文会解答你的疑惑。
get_json_object(json_string, '$.column')
解析 json 的字符串 json_string, 返回 path 指定的内容。如果输入的 json 字符串无效,结果返回 NULL。
这个函数每次只能返回一个数据项。
test_data = '{ "name": "zhangsan",
"age": 18,
"preference": "music"}'
select get_json_object(test_data,'$.preference');
如果需要同时解析 age, preference 这两个字段。
select get_json_object(test_data,'$.age'),get_json_object(test_data,'$.preference');
如果需要同时解析的字段很多,很显然使用这种方式写就比较麻烦了,这时候 json_tuple 这个函数是个更好的选择。
json_tuple(json_string, column1, column2, column3 ...)
解析 json 的字符串 json_string,可同时指定多个 json 数据中的 column,返回对应的 value。如果输入的 json 字符串无效,结果返回 NULL。
例如:test_table1 表的 data 字段存储的是以下 json 串信息,现在想要获取这个 json 串的每个 key 并将其对应的 value 值查询出来。
data = '{
"name": "rocky",
"age": 20,
"prefer": "dance",
"height": 1.8,
"nation": "China"
}'
select t1.name,
t1.age,
t1.prefer,
t1.height,
t1.nation
from (select data
from test_table1
) t0
lateral view json_tuple(t0.data,
'name',
'age',
'prefer',
'height',
'nation'
) t1 as name,age,prefer,height,nation;
(责任编辑:娱乐)
2021年前三季度国内旅游总人次26.89亿 旅游收入2.37万亿元
帅丰电器(605336.SH)拟推176.25万股限制性股票激励计划 授予价格为13.62元/股
养成回合制RPG游戏《魔女之泉R》将于9月26日在Steam正式上线
聚利宝控股(08527.HK):李朝昌辞任独立非执行董事 3月11日起生效