大道至简,知易行难
广阔天地,大有作为

分布式基础设施

第2页

HBASE查看表行数及表大小

mlkui阅读(2316)评论(0)

1、查看表行数 将运行一个MR任务: [crayon-61ae6eb91d7dd672524791/] 2、查看表占用空间 实际是查看HDFS文件系统占用空间: [crayon-61ae6eb91d7dd443086552/]  ...

Hive针对HDFS中Parquet格式文件建表及查询

mlkui阅读(2351)评论(0)

一、Parquet基础 Parquet是Apache的顶级项目,Parquet是一种面向分析的、平台/语言无关的、支持嵌套数据的列式存储格式,兼容Spark、Hive、Impala等,Parquet作为HDFS存储格式的事实标准之一(其他常...

合并多个parquet文件

mlkui阅读(2802)评论(0)

一、parquet-tools 首先考虑使用parquet-tools。根据参考文档0和参考文档1中的说法: parquet-tools version 1.8.2 supports merge command. 其使用的命令为: [cra...

Hive导入数据的四种方式

mlkui阅读(1623)评论(0)

Hive导入数据有四种方式: 1、从本地文件系统导入数据 2、从HDFS中导入数据 3、从其他的Hive表中导入数据 4、创建表的同时导入数据(CTAS结构) 在使用导入数据时,通常会用到INTO和OVERWRITE INTO两个关键字。其...

Hive中列类型修改规则

mlkui阅读(1809)评论(0)

在Hive中使用ALTER修改列类型时长餐刚看到如下的错误: [crayon-61ae6eb9214e6320500282/] 问题在于在Hive中执行ALTER列操作时只能按照如下的强制类型转换规则进行: 转载时请保留出处,违法转载追究到...

Hive 3.1.2 on Hadoop 3.2.1(Local Metastore with MySQL)部署

mlkui阅读(3964)评论(0)

由于Hive采用了类似SQL的查询语言HiveQL,因此很容易将Hive理解为数据库。但其实上除了HiveQL是SQL的一种方言、Hive和数据库一样除了拥有类似的查询语言外,两者再无类似之处,Hive是为数据仓库而设计的,不适合用于联机事...

HBase 2.2.2 on Hadoop 3.2.1源码编译

mlkui阅读(2893)评论(1)

在《HBase 2.2.2 on Hadoop 3.2.1完全分布式部署》中,我们提到需要在hbase-site.xml中增加如下配置: [crayon-61ae6eb9214e6440007662/] 才能解决由于文件系统不支持hsync...

HBase 2.2.2 on Hadoop 3.2.1完全分布式部署

mlkui阅读(3466)评论(0)

在《HBase使用独立部署ZooKeeper的伪单机模式》中我们使用单机模式部署了HBase,这不能满足企业级的使用要求,接下来我们使用完全分布式部署。 由于HBase和Hadoop存在版本依赖关系(HBase和Hadoop之间的RPC需要...