为了账号安全,请及时绑定邮箱和手机立即绑定
慕课网数字资源数据库体验端
认识Hadoop--基础篇_学习笔记_慕课网
为了账号安全,请及时绑定邮箱和手机立即绑定

认识Hadoop--基础篇

Kit_Ren Linux系统工程师
难度初级
时长 1小时22分
  • Hadoop是什么?
    查看全部
  • 谷歌革命性技术
    查看全部
  • MapReduce作业执行过程
    查看全部
  • MapReduce体系结构
    查看全部
  • Hadoop的组成 HDFS文件系统
    查看全部
  • 很好
    查看全部
    0 采集 收起 来源:HDFS基本概念

    2016-01-22

  • 配置Hadoop: conf文件夹下:core-site.xml
    查看全部
  • 使用过程: 1、编写WordCount.java,包括Mapper类和Reducer类 2、编译WordCount.java 命令javac -classpath /opt/hadoop-1.2.1/hadoop-core-1.2.1.jar:/opt/hadoop-1.2.1/lib/commons-cli-1.2.jar -d word_count_class/ WordCount.java 其中word_count_class/指定了编译结果文件的存放目录 3、打包成jar文件,命令jar -cvf WordCount.jar *.class 4、将输入数据文件提交到hadoop 命令hadoop fs -mkdir input_wordcount在hadoop中新建名为input_wordcount的文件夹 命令hadoop fs -put input/* input_wordcount/将本地input文件夹下的所有文件提交到hadoop的input_wordcount文件夹中 5、将jar文件提交到hadoop并执行程序 命令hadoop jar word_count_class/WordCount.jar WordCount input_wordcount output_wordcount 其中input_wordcount指定输入数据文件所在的文件夹,output_wordcount指定输出数据文件所在的文件夹(如果output_wordcount文件夹不存在,系统会自动创建) 6、查看结果文件内容,命令hadoop fs -cat output_wordcount/part-r-00000
    查看全部
  • JAVA,Linux commands
    查看全部
  • MapReduce容错机制(当出错时会做什么): 1、重复执行:出错时重新执行该任务,但当重复4次仍不能解决问题时放弃执行 2、推测执行:(所有Map任务完成时才会开始执行Reduce任务)如果发现并行任务中有某个执行得特别慢,则新建一个任务和它做同样的事情,只要两者中有一个完成了任务就将另一个终止,以保证任务整体进度不会受到某个子任务的过多影响
    查看全部
  • Job/Task、JobTracker、TaskTracker【图解:一次MapReduce过程】 1、JobTracker的任务:作业调度,分配任务、监控任务的执行进度,监控TaskTracker的状态 2、TaskTracker的任务:执行任务,汇报任务状态
    查看全部
  • MapReduce并行计算框架:【图解】 思想:分而治之,将一个大任务分成多个小的子任务(map),并行执行后,合并结果(reduce)
    查看全部
    0 采集 收起 来源:MapReduce的原理

    2016-01-18

  • 1、将本地文件放入HDFS中:【本地是指当前目录】 命令hadoop fs -mkdir input在/user/root目录下创建input文件夹 命令hadoop fs -ls /user/root查看该路径下的文件夹,应当有上一步创建的input文件夹 命令hadoop fs -put hadoop-env.sh input/将文件hadoop-env.sh放入input文件夹中 命令hadoop fs -cat input/hadoop-env.sh查看文件 2、从HDFS下载文件到本地: 命令hadoop fs -get input/hadoop-env.sh hadoop-env2.sh将文件下载到本地并重命名为hadoop-env2.sh 3、查看HDFS文件系统的相关信息 命令hadoop dfsadmin -report
    查看全部
    0 采集 收起 来源:HDFS使用

    2016-01-18

  • HDFS的特点: 1、通过数据冗余(每个数据块有3个副本)实现硬件容错 2、流式数据访问:一次写入,多次读取,块一旦写入就不能更改 3、适合存储大文件 HDFS适合数据的批量读写,吞吐量高,但不适合交互式应用(比如数据库),难以满足低延迟的要求 HDFS适合一次写入多次读取,顺序读写,但不支持多用户并发写相同的文件
    查看全部
    0 采集 收起 来源:HDFS特点

    2016-01-18

  • 需要配置的配置文件
    查看全部

举报

0/150
提交
取消
课程须知
本课程需要童鞋们提前掌握Linux的操作以及Java开发的相关知识。对相关内容不熟悉的童鞋,可以先去《Linux达人养成计划Ⅰ》以及《Java入门第一季》进行修炼~~
老师告诉你能学到什么?
1、Google的大数据技术 2、Hadoop的架构设计 3、Hadoop的使用 4、Hadoop的配置与管理
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!