hive元数据库表分析及操作|江阴雨辰互联

2023年7月19日发(作者：)

hive元数据库表分析及操作　　在安装Hive时，需要在⽂件中配置元数据相关信息。与传统关系型数据库不同的是，hive表中的数据都是保存的HDFS上，也就是说hive中的数据库、表、分区等都可以在HDFS找到对应的⽂件。这⾥说到的元数据可以理解成hive中⽤于保存数据库、表、分区或者表字段等基本属性，以及这些属性与HDFS⽂件对应关系的⼀个映射。

　　这些映射关系⽐较常见的⼀个场景是保存在mysql数据库中。接下来会分析hive安装时的⼀些配置信息，以及元数据库中主要表的⽤途。⼀、hive配置　　有关hive的配置都在⽂件中。属性tionPassword描述指定hive表在hdfs上的存储路径配置元数据的连接URL元数据库连接⽤户名元数据库连接密码默认值/user/hive/warehouse⽐如如下的配置： tionURL jdbc:mysql://m000:3306/hive JDBC connect string for a JDBC metastore tionUserName hiveuser username to use against metastore database tionPassword hiveuser password to use against metastore database　　在hive中，默认情况下新建的数据库以及表都位于HDFS的路径下。如下图分别显⽰了数据库，表，以及表⽂件在HDFS上的⽂件路径

　　根据tionURL中设置的数据库，以及⽤户名和密码，hive就可以写⼊和读取其元数据信息。

　　连接元数据库除了配置URL，username，password之外，还有⼀种间接的⽅式。可以在hive客户端A上⽤hive --service metastore启动⼀个metastore服务，然后在另外⼀个hive客户端B的⽂件中配置=thrift://A:9083也可以访问到元数据信息(9083端⼝为默认，可使⽤-p参数⼿动指定)。⼆、元数据库表描述　　这⼀节描述hive元数据库中⽐较重要的⼀些表的作⽤，随着后续对hive的使⽤逐渐补充更多的内容。

mysql元数据库hive中的表：表名BUCKETING_COLSCDSCOLUMNS_V2DATABASE_PARAMSDBSDELETEME141FUNCSFUNC_RUGLOBAL_PRIVSIDXSINDEX_PARAMSPARTITIONSPARTITION_KEYSPARTITION_KEY_VALSPARTITION_PARAMSPART_COL_PRIVSPART_COL_STATSPART_PRIVSROLESSDSSD_PARAMSSEQUENCE_TABLESERDESSERDE_PARAMSSKEWED_COL_NAMESSKEWED_COL_VALUE_LOC_MAPSKEWED_STRING_LISTSKEWED_STRING_LIST_VALUESSKEWED_VALUESSORT_COLSTABLE_PARAMSTAB_COL_STATSTBLS作⽤存储bucket字段信息，通过SD_ID与其他表关联⼀个字段CD_ID，与SDS表关联存储字段信息，通过CD_ID与其他表关联空存储hive的database信息空空空全局变量，与表⽆关空空分区记录，SD_ID, TBL_ID关联存储分区字段，TBL_ID关联分区的值，通过PART_ID关联。与PARTITION_KEYS共⽤同⼀个字段INTEGER_IDX来标⽰不同的分区字段。存储某分区相关信息，包括⽂件数，⽂件⼤⼩，记录条数等。通过PART_ID关联空空空⾓⾊表，和GLOBAL_PRIVS配合，与表⽆关存储输⼊输出format等信息，包括表的format和分区的format。关联字段CD_ID,SERDE_ID空存储sqeuence相关信息，与表⽆关存储序列化反序列化使⽤的类序列化反序列化相关信息，通过SERDE_ID关联空空空空空排序字段，通过SD_ID关联表相关信息，是否外部表，通过TBL_ID关联空存储表信息，关联字段DB_ID,SD_ID,表名TBL_COL_PRIVSTBL_PRIVSVERSIONVERSION_copy作⽤空表赋权限相关信息，通过TBL_ID关联版本版本，通过VER_ID关联　　这⾥补充介绍hive的⼀个⼯具脚本metatool。如果需要⼤量修改元数据库中的相关记录，可以具体查看metatool脚本的使⽤⽅法。

　　⽐如说，对⼀个HDFS做HA的时候，如果之前hdfs完整路径是hdfs://m000，做完HA之后把rvices设置为my-cluster之后，hdfs的访问路径就变成了hdfs://my-cluster，此时就需要对hive元数据库中所有记录作更新，这时可以参考下⾯的操作，

使⽤metatool脚本，先是新路径，然后是旧路径

/usr/local/bigdata/hive/bin/metatool -updateLocation hdfs://my-cluster hdfs://m000三、元数据库⼀些查询　　有时根据需求，需要对hive中的表批量处理，这时可以到元数据库中进⾏⼀些查询操作，操作请慎重！！

　　下⾯会根据元数据库中的表结构和关联关系，陆续补充⼀些⼯作中使⽤到的查询语句。1、查询某表的分区　　在Spark-sql查询hive表时，会由于元数据中⽂件与hdfs⽂件不⼀致⽽出现TreeNodeException的异常。⽐如说，在hive中showpartitions时有分区pt=20160601，但是对应HDFS路径下并没有这个⼦⽂件夹时，在Spark-sql中就会出现该异常。这时如果需要查询某表的分区，就可以使⽤如下语句SELECT p.* from PARTITIONS pJOIN TBLS tON _ID=_IDWHERE _NAME='table'AND PART_NAME like '%pt=20160601%';2、查询指定库中stored as textfile类型的所有表名select

_NAME, _FORMAT, _FORMATfrom TBLS tjoin DBS djoin SDS swhere _ID = _IDand _ID = _IDand ='test'and _FORMAT like '%TextInputFormat%';3、查询指定库中的分区表select , _NAME, _NAME

from TBLS tbjoin DBS dbjoin PARTITION_KEYS pkwhere _ID = _IDand _ID=_IDand ='test';4、查询指定库的⾮分区表select , _NAMEfrom TBLS tbjoin DBS dbwhere _ID = _IDand ='test'and _ID not in ( select distinct TBL_ID from PARTITION_KEYS) ;5、查询指定库中某种存储类型的分区表select , _NAME, _NAME, _FORMAT, _FORMATfrom TBLS tbjoin DBS dbjoin PARTITION_KEYS pkjoin SDS swhere _ID = _IDand _ID=_IDand _ID = _IDand ='test'and _FORMAT like '%TextInputFormat%';6、查询指定库中某种存储类型的⾮分区表select , _NAME, _FORMAT, _FORMATfrom TBLS tbjoin DBS dbjoin SDS swhere _ID = _IDand _ID = _IDand ='test'and _FORMAT like '%TextInputFormat%'and _ID not in (select distinct TBL_ID from PARTITION_KEYS);

发布者：admin，转转请注明出处：http://www.yc00.com/xiaochengxu/1689764422a284296.html