为了账号安全,请及时绑定邮箱和手机立即绑定
慕课网数字资源数据库体验端
认识Hadoop--基础篇_学习笔记_慕课网
为了账号安全,请及时绑定邮箱和手机立即绑定

认识Hadoop--基础篇

Kit_Ren Linux系统工程师
难度初级
时长 1小时22分
  • 客户端发出读写请求,namenode根据元数据返回给客户端,下载需要的block并组装 HDFS写入文件的流程: 1.客户端将文件拆分成块 2.客户端通知NameNode,NameNode返回可用的DataNode节点地址 3.客户端根据返回的DataNode将数据块写入到可用的DataNode中 4.因为数据块要有三份,所以会通过一个复制管道将每个数据块复制出另外两份并保存 5.更新元数据NameNode HDFS写数据:首先将文件拆分为默认大小64M的块。通知NameNode,找到并返回可用的datanode信息,客户端写入一个后,其他的进行流水线复制。最后更新元数据。 HDFS读取文件的流程:(1)客户端向namenode发起独立请求,把文件名,路径告诉namenode;(2)namenode查询元数据,并把数据库返回客户端;(3)此时客户端就明白文件包含哪些块,这些块在哪些datanode中可以找到; HDFS写文件流程:(1)客户端把文件拆分成固定大小64M的块,并通知namenode;(2)namenode找到可用的datanode返回给客户端;(3)客户端根据返回的datanode,对块进行写入(4)通过流水线管道流水线复制(5)更新元数据。告诉namenode已经完成了创建心的数据块。保证了namenode中的元数据都是最新的状态。 HDFS写入文件的流程: 1.客户端将文件拆分成块 2.客户端通知NameNode,NameNode返回可用的DataNode节点地址 3.客户端根据返回的DataNode将数据块写入到可用的DataNode中 4.因为数据块要有三份,所以会通过一个复制管道将每个数据块复制出另外两份并保存 HDFS读取文件的流程: 1.客户端向NameNode发送文件读取请求 2.NameNode返回元数据给客户端 3.客户端读取数据块进行数据组装,得到想要的数据
    查看全部
  • hdfs读写文件的操作: 1.hdfs读文件:首先客户端向namenode发送一个命令要取哪个数据,namendoe会返回该数据所在的路径,块等信息,客户端在根据这些返回的信息去打包下载 2.hdfs写文件:首先文件会被分割成一个个块,然后客户端想namenode发送一个命令,namenode会将可用的datenode块信息返回给客户端,客户端根据这些信息进行写入操作一个datanode上,hdfs这时会自动的复制两份该写入的数据到不同的datanade上,复制完成后,然后datanode告诉namenode它已经更新完成了,这是namdenode就会更新这些节点的信息,确保一致性 读数据: hdfs 文件系统可以与java程序相结合,即java程序可以将需要查询的数据路径给到nameNode。 客户端发送请求给到nameNode,nameNode会反馈相关的数据会在那个DataNode中找的到。 NameNode将block存储的DataNode返回给到客户端后,客户端就会直接去访问存储Bolck的DataNode啦,将数据下载下来。 客户端如果要写入数据的话,首先需要将数据拆分成64M的数据块,然后再通知nameNode。 客户端拆分成64M的数据块后,通知nameNode,nameNode就会返回有足够空间的DataNode,客户端会将对应的数据块写入到DataNode中,dataNode会将数据拷贝三份,拷贝完成后,会将结果返回给到NameNode,告诉它数据处理结果。
    查看全部
  • hdf数据管理策略: 1.hdfs是采用master-slave的模式关管理文件,即一个master(namenade:保存datanode的一些基本信息和元数据)和多个slave(datanode:真正的存贮单元,里面存储了真实数据) 2.hdfs默认保存三份文件,有两份保存在同一台机器上,另外一份(备份文件)保存到另外一台机器上,确保当一台机器挂了时能保存数据的存在 3.namenade也有一个备用节点:Secondary NameNode,当namenode挂了时secondaryNameNode就变为nameNode的角色进行管理数据 4.datandoe会采用心跳的方式时不时的想namenode报告自己的基本信息,比如网络是否正常,运行是否正确常。
    查看全部
    0 采集 收起 来源:数据管理策略

    2017-12-16

  • 心跳检测
    查看全部
    0 采集 收起 来源:数据管理策略

    2017-12-16

  • HDFS中数据管理与容错 1.数据块副本,每个数据块3个副本,分布在两个机架内的三个节点 2.心跳检测,DataNode定期向NameNode发送心跳信息 3.二级NameNode,定期同步元数据映像文件和修改日志
    查看全部
    0 采集 收起 来源:数据管理策略

    2017-12-16

  • 修改4个配置文件 (a) 修改hadoop-env.sh,设置JAVA_HOME (b) 修改core-site.xml,设置hadoop.tmp.dir, dfs.name.dir, fs.default.name (c) 修改mapred-site.xml,设置mapred.job.tracker (d) 修改hdfs-site.xml,设置dfs.data.dir hadoop安装步骤: 1、安装JDK:apt-get install openjdk-7-jdk; 2、设置环境变量:JAVA_HOME、JRE_HOME、CLASSPATH、PATH(在/etc/profile) 3、下载hadoop安装包并解压到指定目录下; 4、设置环境变量:HADOOP_HOME、PATH(在/etc/profile) 5、修改相关配置文件$HADOOP_HOME/conf: 1)修改hadoop-env.sh,设置JAVA_HOME; 2)修改core-site.xml,设置hadoop.tmp.dir、dfs.name.dir、fs.default.name; 3)修改mapred-site.xml,设置mapred.job.tracker; 4)修改hdfs-site.xml,设置dfs.data.dir; 6、格式化:hadoop namenode -format; 7、启动:start-all.sh 8、检查:jps
    查看全部
    1 采集 收起 来源:安装小结

    2017-12-16

  • hadoop安装及配置: 1.下载hdoop按照包并进行解压 2.配置hdoop-env.sh文件,目的是配置jdk,并在profile配置haddoop的安装位置 3.配置core-site.xml文件:hdoop的核心文件,里面有关于hdoop的节点端口与主机端口 4.配置hdfs-site.xml文件:hdoop的文件存储的基本信息与目录 5.配置mapred-site.xml文件:hadoop的计算节点的端口号 6.启动hadoop:start-all.sh 7.查看端口:jps,可以看到五大守护进程说明正确 8.停止hdoop:stop-all.sh ========================================================= 1、安装hadoop wget 安装包路径 wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz 2、解压hadoop压缩包 tar -zxvf 压缩包全称(包括后缀名) 3、opt目录下 conf 下 vim hadoop-env.sh修改配置: 找到#export JAVA_HOME=路径名 修改为export JAVA_HOME=安装好的JDK(配置的JAVA_HOME) 4、修改配置文件 vim core-site.xml 在<configuration>中添加配置 <property> <name>haddoop.tmp.dir</name> </property>
    查看全部
  • hive使sql转成一个hadoop任务去执行,降低hadoop的门槛。 hive(sql语句转换工具) habse(结构型数据,随机写入和实时读取) zookeeper(监控个节点使用、配置)。 habase存储结构化数据的分布式数据库,放弃事务特性,追求更高的扩展。habase提供数据的随机读写和实时访问,实现对表数据的读写功能。 zookeeper监控hadoop每个节点的状态,管理集群配置,维护节点间数据的一致性。 zookeeper的作用: 1)监控hadoop每个节点的状态 2)管理整个集群的配置 3)维护节点间数据的一致性 hadoop生态系统: 1.hdfs 2.mapreduce 3.相关开源工具: (1)hive:将简单的sql语句转化为hadoop任务,降低使用hadoop的门槛 (2)HBASE:区别于传统数据库:存储结构化数据的分布式数据库,放弃事务特性,追求更高的扩展,它提供数据的随机读写和实时访问,实现对表数据的读写功能 (3)zookeeper:监控Hadoop集群里的每个节点的状态,管理整个集群的配置,维护数据节点之间的一致性 Hadoop版本最高2.6,初学者建议1.2(ver1.2-稳定)
    查看全部
  • Hadoop可以用来做什么?
    查看全部
  • hadoop 是开源的 分布式存储 分布式计算平台 Hadoop包括两个核心组成: HDFS:分布式文件系统,存储海量的数据 MapReduce:并行处理框架,实现任务分解和调度 HBASe放弃了事务的特性,追求更高的扩展 提供了数据的随机读写和实时访问,实现对表数据的读写功能 zookeeper监控hadoop每个节点的状态,管理集群配置,维护节点间数据的一致性。 hive(sql语句转换工具) habse(结构型数据,随机写入和实时读取) zookeeper(监控个节点使用、配置) Hadoop可以用来搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务
    查看全部
  • google 提出三大关键技术mapreduce Bigtable GFS 革命性变化: 1、降低成本,普通PC集群; 2、硬件故障是常态,利用软件保证高可靠性; 3、简化并行计算,无须同步和数据交换
    查看全部
  • HDFS特点: 1.数据冗余,硬件容错 2.流式的数据访问,写一次读多次,顺序读写,难修改 3.适合存储大文件
    查看全部
    0 采集 收起 来源:HDFS特点

    2017-12-13

  • HDFS中数据管理与容错 1.数据块副本,每个数据块3个副本,分布在两个机架内的三个节点 2.心跳检测,DataNode定期向NameNode发送心跳信息 3.二级NameNode,定期同步元数据映像文件和修改日志
    查看全部
    0 采集 收起 来源:数据管理策略

    2017-12-13

  • DataNode是HDFS的工作节点,存放数据块
    查看全部
    0 采集 收起 来源:HDFS基本概念

    2017-12-13

  • namenode是管理节点,存放文件元数据,元数据包括两部分: 1.文件与数据块的映射表 2.数据块与数据节点的映射表
    查看全部
    0 采集 收起 来源:HDFS基本概念

    2017-12-13

举报

0/150
提交
取消
课程须知
本课程需要童鞋们提前掌握Linux的操作以及Java开发的相关知识。对相关内容不熟悉的童鞋,可以先去《Linux达人养成计划Ⅰ》以及《Java入门第一季》进行修炼~~
老师告诉你能学到什么?
1、Google的大数据技术 2、Hadoop的架构设计 3、Hadoop的使用 4、Hadoop的配置与管理
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!