博主自主知识产权《springboot深入浅出系列课程》(16章97节文档) 已经上线,请关注

 分类:大数据

Hive简介

Hive简介
设计目的:让有SQL技能,但无hadoop知识的人来查询分析大数据。 1. 基于hadoop的数据仓库工具, 2. Hive中的一张表对应的是HDFS的一个目录。 3. 支持一种与SQL几乎完全相同的语言HiveQL,除了不支持更新,索引和事务控制。 4. SQL到MapRedu...

字母哥 4年前 (2016-03-16) 2442℃

HDFS之SequenceFile和MapFile

HDFS之SequenceFile和MapFile
Hadoop的HDFS和MapReduce子框架主要是针对大数据文件来设计的,在小文件的处理上不但效率低下,而且十分消耗磁盘空间(每一个小文件占用一个Block,HDFS默认block大小为64M)。 解决办法:通常是选择一个容器,将这些小文件组织起来统一存储。HDFS提供了两...

字母哥 4年前 (2016-03-16) 2454℃

HDFS简介

HDFS简介
HDFS(Hadoop Distributed FileSystem)hadoop 分布式文件系统 把数据文件分布到不同的节点上的目的是什么?在不同的节点上分布式计算,计算靠近数据的原则。 Hadoop集群硬件部署结构: * Rack为机架,Switch为交换机(千兆,百兆) ...

字母哥 4年前 (2016-03-16) 2363℃

hadoop常用维护命令

hadoop常用维护命令
hadoop常用维护命令 列出正在运行的job $ hadoop job -list kill掉job(1234指jobid) $ hadoop job -kill 1234 查看hdfs块状态 $ hadoop fsck / FSCK started by ...

字母哥 4年前 (2016-03-16) 2165℃

hadoop2.6.0-HA-QJM

hadoop2.6.0-HA-QJM
方案架构说明 先看看没有HA的HDFS的系统架构 然后有HA方案的系统架构: 方案解析 两个NameNode,一个active,一个standby状态。 activeNameNode写EditLogs到JournalNode集群,standByNameNode从J...

字母哥 4年前 (2016-03-16) 2441℃

ZooKeeper的安装

ZooKeeper的安装
重要:在奇数台机器上安装zookeeper 安装步骤 步骤一 解压: tar -xzvf zookeeper-3.4.6.tar.gz -C /home/cluster/zookeeper; 配置环境变量: ZOOKEEPER=/home/cluster/zookeep...

字母哥 4年前 (2016-02-20) 2521℃

mapreduce的二次排序-分区分组

mapreduce的二次排序-分区分组
mapreduce的二次排序-分区分组 在0.20.0 以前使用的是 setPartitionerClass setOutputkeyComparatorClass setOutputValueGroupingComparator 在0.20.0以后使用是 job.setP...

字母哥 4年前 (2016-02-02) 3028℃

hadoop数据类型及自定义

hadoop数据类型及自定义
Hadoop数据类型 hadoop内置数据类型 BooleanWritable:标准布尔型数值 ByteWritable:单字节数值 DoubleWritable:双字节数值 FloatWritable:浮点数 IntWritable:整型数 LongWritable:长整型数 ...

字母哥 4年前 (2016-02-02) 2375℃

搭建hadoop集群虚拟机试验环境

搭建hadoop集群虚拟机试验环境
所需软件 virtualBox:Oracle公司的虚拟机VirtualBox占用系统资源较少,使用方便! CentOS-6.5-i386-bin-DVD1.iso(一共两个DVDiso,第二个是一些附加软件包,可以先不要) SecurtCRT:linux客户端访问软件,可以根据...

字母哥 4年前 (2016-02-01) 3255℃