为了账号安全,请及时绑定邮箱和手机立即绑定
慕课网数字资源数据库体验端
认识Hadoop--基础篇_学习笔记_慕课网
为了账号安全,请及时绑定邮箱和手机立即绑定

认识Hadoop--基础篇

Kit_Ren Linux系统工程师
难度初级
时长 1小时22分
  • hadoop的组成

    查看全部
  • hadoop的应用情况


    查看全部
  • hadoop的功能和优势:

    Hadoop是什么:是一个开源的、分布式存储和分布式计算平台;

    两个核心组件:

        1.HDFS,分布式文件系统,存储海量数据

        2.MapReduce,并行处理框架,实现任务分解和调度

    Hadoopk可以做什么?

        搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务。

    hadoop的优势:

        1.高扩展,理论上无限扩展

        2.低成本

        3.成熟的生态圈


    查看全部
  • google大数据技术:mapreduce,BigTable,GFS;

    革命性的变革1:成本降低

    变革2:软件容错,通过软件保证可靠性

    变革3:简化了分布式并行计算,无需控制节点同步和数据交换

    hadoop:模仿google大数据技术的开源实现

    查看全部
  • JobTracker的作用:

    作业调度

    分配任务、监控任务执行进度

    监控TaskTracker的状态

    TaskTracker的作用:

    执行任务

    mapreduce容错机制:

    1、重复执行,因为job问题,硬件问题,数据问题等等一起任务异常,导致       重试,默认重复4次失败就会放弃执行

    2、所有的map任务执行完成才继续执行reduce任务,如果某一个节点计算特别慢,就新起一个节点和这个慢节点做相同的计算任务,只要其中一个完成即可


    查看全部
  • MapReduce的原理:分而治之,一个大任务分成多个小的子任务(map),并行执行后,合并结果(reduce)

    查看全部
    0 采集 收起 来源:MapReduce的原理

    2019-11-05

  • hadoop存放文件命令 hadoop fs -put hadoop-env.sh /input<br> hadoop获取文件命令 hadoop fs -get<br> hadoop删除文件命令 hadoop fs -rm <br> hadoop创建目录命令 hadoop fs -mkdir<br> hadoop 格式化操作 : hadoop namenode -formet hadoop查看存储信息 hadoop dfsadmin -report<br>

    查看全部
    0 采集 收起 来源:HDFS使用

    2019-11-05

  •  HDFS特点

    1、数据大量冗余

    2、流式数据访问:一次写入多次读取,一旦写入,无法修改

    3、存储大文件

    4、吞吐量高,适合批量读写

    5、不适合交互式应用,延时性无法满足

    6、不支持多用户并发写相同的文件


    查看全部
    0 采集 收起 来源:HDFS特点

    2019-11-05

  • hdfs读取数据流程:

    读取:

    1、客户端想namenode请求

    2、namenode返回元数据(数据包含哪些块,以及这些块的位置等等)

    3、读数据数据块并组装


    查看全部
  • hdfs写入:

    1、客户端拆分文件

    2、客户端请求namenode,namenode返回可以用的datanode

    3、写入数据块到datanode

    4、复制数据库

    5、更新元数据到namenode


    查看全部
  • HDFS设计架构:             

    块:文件以“块”进行存储,HDFS默认块大小为64M             

    namenode:是管理节点,存放文件元数据,包括文件与数据块的映射表、数据块与数据节点的映射表             

    datenode:工作节点,真正存储数据块 最终体系结构:由block、namenode、datanode、secondarynamenode、client组成


    查看全部
    0 采集 收起 来源:HDFS基本概念

    2019-11-04

  • HDFS 分布式文件系统

    MapReduce 并行处理矿建

    HIVE 将SQL语句转化为Hadoop任务 ,降低使用门槛

    HBASE 存储结构化数据的分布式数据库

    (放弃了事务特性 最求更高的扩展)

    zookeeper 监控Hadoop集群的状态、管理配置、维护节点一次性


    查看全部
  • Hadoop是开源的分布式存储、分布式计算平台

    两个核心组成:HDFS分布式文件系统,存储海量的数据

    MapReduce并行处理框架,实现任务分解和调度

    作用:可以搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务

    优势:

    1、高扩展

    2、低成本

    3、成熟的生态圈


    查看全部
  • Google大数据技术的革命性的变化

    1、成本低,能用PC机,就不用大型机和高端存储

    2、软件容错硬件故障视为常态,通过软件保证可靠性。

    3、简化并行分布式计算,无须控制节点同步和数据交换


    查看全部
  • 1个job就是一个目标,完成目标需要分解成多个task

    查看全部

举报

0/150
提交
取消
课程须知
本课程需要童鞋们提前掌握Linux的操作以及Java开发的相关知识。对相关内容不熟悉的童鞋,可以先去《Linux达人养成计划Ⅰ》以及《Java入门第一季》进行修炼~~
老师告诉你能学到什么?
1、Google的大数据技术 2、Hadoop的架构设计 3、Hadoop的使用 4、Hadoop的配置与管理
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!