慕课网

认识Hadoop--基础篇

最热最新

霜花似雪 02:25

客户端发出读写请求，namenode根据元数据返回给客户端，下载需要的block并组装 HDFS写入文件的流程： 1.客户端将文件拆分成块 2.客户端通知NameNode,NameNode返回可用的DataNode节点地址 3.客户端根据返回的DataNode将数据块写入到可用的DataNode中 4.因为数据块要有三份，所以会通过一个复制管道将每个数据块复制出另外两份并保存 5.更新元数据NameNode HDFS写数据：首先将文件拆分为默认大小64M的块。通知NameNode，找到并返回可用的datanode信息，客户端写入一个后，其他的进行流水线复制。最后更新元数据。 HDFS读取文件的流程：（1）客户端向namenode发起独立请求，把文件名，路径告诉namenode；（2）namenode查询元数据，并把数据库返回客户端；（3）此时客户端就明白文件包含哪些块，这些块在哪些datanode中可以找到； HDFS写文件流程：（1）客户端把文件拆分成固定大小64M的块，并通知namenode；（2）namenode找到可用的datanode返回给客户端；（3）客户端根据返回的datanode，对块进行写入（4）通过流水线管道流水线复制（5）更新元数据。告诉namenode已经完成了创建心的数据块。保证了namenode中的元数据都是最新的状态。 HDFS写入文件的流程： 1.客户端将文件拆分成块 2.客户端通知NameNode,NameNode返回可用的DataNode节点地址 3.客户端根据返回的DataNode将数据块写入到可用的DataNode中 4.因为数据块要有三份，所以会通过一个复制管道将每个数据块复制出另外两份并保存 HDFS读取文件的流程： 1.客户端向NameNode发送文件读取请求 2.NameNode返回元数据给客户端 3.客户端读取数据块进行数据组装，得到想要的数据

查看全部

0 采集收起来源：HDFS中文件的读写操作
2017-12-16
霜花似雪 01:20

hdfs读写文件的操作： 1.hdfs读文件：首先客户端向namenode发送一个命令要取哪个数据，namendoe会返回该数据所在的路径，块等信息，客户端在根据这些返回的信息去打包下载 2.hdfs写文件：首先文件会被分割成一个个块，然后客户端想namenode发送一个命令，namenode会将可用的datenode块信息返回给客户端，客户端根据这些信息进行写入操作一个datanode上，hdfs这时会自动的复制两份该写入的数据到不同的datanade上，复制完成后，然后datanode告诉namenode它已经更新完成了，这是namdenode就会更新这些节点的信息，确保一致性读数据： hdfs 文件系统可以与java程序相结合，即java程序可以将需要查询的数据路径给到nameNode。客户端发送请求给到nameNode，nameNode会反馈相关的数据会在那个DataNode中找的到。 NameNode将block存储的DataNode返回给到客户端后，客户端就会直接去访问存储Bolck的DataNode啦，将数据下载下来。客户端如果要写入数据的话，首先需要将数据拆分成64M的数据块，然后再通知nameNode。客户端拆分成64M的数据块后，通知nameNode，nameNode就会返回有足够空间的DataNode，客户端会将对应的数据块写入到DataNode中，dataNode会将数据拷贝三份，拷贝完成后，会将结果返回给到NameNode，告诉它数据处理结果。

查看全部

0 采集收起来源：HDFS中文件的读写操作
2017-12-16
霜花似雪 02:00

hdf数据管理策略： 1.hdfs是采用master-slave的模式关管理文件，即一个master(namenade:保存datanode的一些基本信息和元数据)和多个slave(datanode:真正的存贮单元，里面存储了真实数据) 2.hdfs默认保存三份文件，有两份保存在同一台机器上，另外一份（备份文件）保存到另外一台机器上，确保当一台机器挂了时能保存数据的存在 3.namenade也有一个备用节点：Secondary NameNode,当namenode挂了时secondaryNameNode就变为nameNode的角色进行管理数据 4.datandoe会采用心跳的方式时不时的想namenode报告自己的基本信息，比如网络是否正常，运行是否正确常。

查看全部

0 采集收起来源：数据管理策略
2017-12-16
霜花似雪 01:39

心跳检测

查看全部

0 采集收起来源：数据管理策略
2017-12-16
霜花似雪 00:14

HDFS中数据管理与容错 1.数据块副本，每个数据块3个副本，分布在两个机架内的三个节点 2.心跳检测，DataNode定期向NameNode发送心跳信息 3.二级NameNode，定期同步元数据映像文件和修改日志

查看全部

0 采集收起来源：数据管理策略
2017-12-16
霜花似雪

修改4个配置文件 (a) 修改hadoop-env.sh,设置JAVA_HOME (b) 修改core-site.xml,设置hadoop.tmp.dir, dfs.name.dir, fs.default.name (c) 修改mapred-site.xml,设置mapred.job.tracker (d) 修改hdfs-site.xml,设置dfs.data.dir hadoop安装步骤： 1、安装JDK:apt-get install openjdk-7-jdk； 2、设置环境变量：JAVA_HOME、JRE_HOME、CLASSPATH、PATH（在/etc/profile） 3、下载hadoop安装包并解压到指定目录下； 4、设置环境变量：HADOOP_HOME、PATH（在/etc/profile） 5、修改相关配置文件$HADOOP_HOME/conf： 1）修改hadoop-env.sh，设置JAVA_HOME； 2）修改core-site.xml，设置hadoop.tmp.dir、dfs.name.dir、fs.default.name； 3）修改mapred-site.xml，设置mapred.job.tracker； 4）修改hdfs-site.xml，设置dfs.data.dir； 6、格式化：hadoop namenode -format； 7、启动：start-all.sh 8、检查：jps

查看全部

1 采集收起来源：安装小结
2017-12-16
霜花似雪 00:51

hadoop安装及配置： 1.下载hdoop按照包并进行解压 2.配置hdoop-env.sh文件，目的是配置jdk，并在profile配置haddoop的安装位置 3.配置core-site.xml文件：hdoop的核心文件，里面有关于hdoop的节点端口与主机端口 4.配置hdfs-site.xml文件：hdoop的文件存储的基本信息与目录 5.配置mapred-site.xml文件：hadoop的计算节点的端口号 6.启动hadoop：start-all.sh 7.查看端口：jps,可以看到五大守护进程说明正确 8.停止hdoop：stop-all.sh ========================================================= 1、安装hadoop wget 安装包路径 wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz 2、解压hadoop压缩包 tar -zxvf 压缩包全称（包括后缀名） 3、opt目录下 conf 下 vim hadoop-env.sh修改配置：找到#export JAVA_HOME=路径名修改为export JAVA_HOME=安装好的JDK(配置的JAVA_HOME) 4、修改配置文件 vim core-site.xml 在<configuration>中添加配置 <property> <name>haddoop.tmp.dir</name> </property>

查看全部

1 采集收起来源：Hadoop安装-配置hadoop
2018-03-22
霜花似雪 01:09

hive使sql转成一个hadoop任务去执行，降低hadoop的门槛。 hive(sql语句转换工具) habse(结构型数据，随机写入和实时读取) zookeeper(监控个节点使用、配置)。 habase存储结构化数据的分布式数据库，放弃事务特性，追求更高的扩展。habase提供数据的随机读写和实时访问，实现对表数据的读写功能。 zookeeper监控hadoop每个节点的状态，管理集群配置，维护节点间数据的一致性。 zookeeper的作用: 1）监控hadoop每个节点的状态 2）管理整个集群的配置 3）维护节点间数据的一致性 hadoop生态系统： 1.hdfs 2.mapreduce 3.相关开源工具：（1）hive：将简单的sql语句转化为hadoop任务，降低使用hadoop的门槛（2）HBASE：区别于传统数据库：存储结构化数据的分布式数据库，放弃事务特性，追求更高的扩展，它提供数据的随机读写和实时访问，实现对表数据的读写功能（3）zookeeper:监控Hadoop集群里的每个节点的状态，管理整个集群的配置，维护数据节点之间的一致性 Hadoop版本最高2.6，初学者建议1.2（ver1.2-稳定）

查看全部

0 采集收起来源：Hadoop生态系统及版本
2017-12-16
霜花似雪 01:09

Hadoop可以用来做什么？

查看全部

0 采集收起来源：Hadoop的功能与优势
2017-12-16
霜花似雪 00:15

hadoop 是开源的分布式存储分布式计算平台 Hadoop包括两个核心组成: HDFS:分布式文件系统,存储海量的数据 MapReduce:并行处理框架,实现任务分解和调度 HBASe放弃了事务的特性，追求更高的扩展提供了数据的随机读写和实时访问，实现对表数据的读写功能 zookeeper监控hadoop每个节点的状态，管理集群配置，维护节点间数据的一致性。 hive(sql语句转换工具) habse(结构型数据，随机写入和实时读取) zookeeper(监控个节点使用、配置) Hadoop可以用来搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务

查看全部

0 采集收起来源：Hadoop的功能与优势
2017-12-16
霜花似雪 02:17

google 提出三大关键技术mapreduce Bigtable GFS 革命性变化： 1、降低成本，普通PC集群； 2、硬件故障是常态，利用软件保证高可靠性； 3、简化并行计算，无须同步和数据交换

查看全部

0 采集收起来源：Hadoop的前世今生
2017-12-16
嚣张什么

HDFS特点： 1.数据冗余，硬件容错 2.流式的数据访问，写一次读多次，顺序读写，难修改 3.适合存储大文件

查看全部

0 采集收起来源：HDFS特点
2017-12-13
嚣张什么

HDFS中数据管理与容错 1.数据块副本，每个数据块3个副本，分布在两个机架内的三个节点 2.心跳检测，DataNode定期向NameNode发送心跳信息 3.二级NameNode，定期同步元数据映像文件和修改日志

查看全部

0 采集收起来源：数据管理策略
2017-12-13
嚣张什么

DataNode是HDFS的工作节点，存放数据块

查看全部

0 采集收起来源：HDFS基本概念
2017-12-13
嚣张什么

namenode是管理节点，存放文件元数据，元数据包括两部分： 1.文件与数据块的映射表 2.数据块与数据节点的映射表

查看全部

0 采集收起来源：HDFS基本概念
2017-12-13

首页上一页 43 44 45 46 47 48 49 下一页尾页

0/150

提交

取消

开始学习

课程须知: 本课程需要童鞋们提前掌握Linux的操作以及Java开发的相关知识。对相关内容不熟悉的童鞋，可以先去《Linux达人养成计划Ⅰ》以及《Java入门第一季》进行修炼～～

老师告诉你能学到什么？: 1、Google的大数据技术 2、Hadoop的架构设计 3、Hadoop的使用 4、Hadoop的配置与管理