为了账号安全,请及时绑定邮箱和手机立即绑定
慕课网数字资源数据库体验端
认识Hadoop--基础篇_学习笔记_慕课网
为了账号安全,请及时绑定邮箱和手机立即绑定

认识Hadoop--基础篇

Kit_Ren Linux系统工程师
难度初级
时长 1小时22分
  • 具体显示内容
    查看全部
    0 采集 收起 来源:HDFS使用

    2017-12-18

  • 查看hadoop dfsadmin -report 具体信息 使用包括空间使用大小
    查看全部
    0 采集 收起 来源:HDFS使用

    2017-12-18

  • 1.创建目录:hadoop fs -mkdir input 和 word_count_class文件 2.编译java文件 javac -classpath /opt/hadoop-1.2.1/hadoop-core-1.2.1.jar:/opt/hadoop-1.2.1/lib/commons-cli-1.2.jar -d 编译后地址 编译文件 3.打包指令 jar -cvf 打包后文件名.jar *.class 4.提交输入文件给hadoop hadoop fs -put 文件路径 提交后的路径 例:hadoop fs -put input/* input_wordcount/ 5.提交jar给hadoop执行 hadoop jar jar包路径 执行的主函数名(主类名,main方法所在类名) 输入目录名 输出目录名 例:hadoop jar word_count_class/wordcount.jar WordCount input_wordcount output_wordcount 6.运行结果文件存在output_wordcount中,所以进去查看结果即可
    查看全部
  • 1.编写WordCount.java,包含Mapper类和Reducec类 2.编译WordCount.java,java -classpath #资料下载里面有 3.打包 jar -cvf WordCount.jar classes/* 4.作业提交 hadoop jar WordCount.jar WordCount input output 提交到hadoop中运行,指定输入文件 ,指定输出文件 演示: jps #查看是否运行 1.vim WordCount.java # 资料下载里面有 2.javac -classpath /opt/hadoop-1.2.1/hadoop-core-1.2.1.jar:/opt/hadoop-1.2.1/lib//commons-cli-1.2.jar -d word_count_class/ WordCount.java #word_count_class/WordCount.java为编译的路径和编译后的文件 cd word_count_class ls #查看编译后的文件 3.jar -cvf WordCount.jar *.class #打包 4.提交文件 hadoop fs -mkdir input_wordcount #创建文件夹 hadoop fs -put input/* input_wordcount/ #把input下的文件提交到 input_wordcount文件夹 hadoop fs -cat input_wordcount/file1 #查看 hadoop jar word_count_class/wordcount.jar WordCount input_wordcount output_wordcount #对jar包中的主函数WordCount 指定参数输入input_wordcount和输出output_wordcount hadoop fs -ls output_wordount #查看运行结果 hadoop fs cat output_wordcount/part-r-00000 #查看提交的结果
    查看全部
  • MapReduce的容错机制
    查看全部
  • MapReduce作业执行过程
    查看全部
  • JobTracker的角色
    查看全部
  • Hadoop MapReduce体系结构
    查看全部
  • JobTracker的角色: 1)作业调度 2)分配任务、监控任务执行进度 3)监控TaskTracker的状态 Job & Task: 1.Job就是一个要执行的任务 ==> 提交Job 2.一个Job会被分为多个Task(MapTask和ReduceTask) ==> 分片 JobTracker:(讲一个Job拆分成多个Map和Reduce任务;分配Map和Reduce任务) ==> 作业调度、分配任务、监控进度、监控TaskTracker状态 TaskTracker:(Map任务分发给下面的TaskTracker做实际 的任务;TaskTracker与DataNode保持对应关系) ==> 执行任务、汇报任务状态 MapReduce的容错机制: 1、重复执行:执行出错重试。默认重复执行 4 次,若还是失败,则放弃执行 2、推测执行:个别节点执行过慢的话,会重启一个同样的任务,只要其中一个执行完,其他就被终止掉。可以保证任务不会因为某1-2个机器错误或故障而导致整体效率下降 --Job & Task: 一个 Job(任务、作业) 被切分为多个 Task,Task 又分为 MapTask 和 ReduceTask --JobTracker 作业调度 分配任务、监控任务 监控 TaskTracker 的状态 --TaskTracker 执行任务 向 JobTracker 汇报任务状态 mapreduce计算管理: 1.JobTracker 向taskTracker发放任务以及进行监控,taskTracker执行任务并且时不时的想JobTracker汇报执行情况 2.mapReduce容错机制: 1.重复测试:如果一个TaskTracker节点在测试过程中失败,mapreduce会重新执行该任务,如果执行四次后仍失败,就停止执行该任务 2.推测测试:如果一个taskTracker执行得很慢,mapReduce就会重新开启一个taskTracker节点去计算相同的该任务,原来那个继续执行,重新开启的taskTracker如果先执行完,则mapReduce取到该结果后就会停止原来那个很慢的taskTracker节点
    查看全部
  • Mapreduce原理:分而治之,一个大任务分成多个子任务(map),并行执行之后,合并结果(reduce)。 eg:做统计的时候,把统计的文件拆分,然后分别统计每一个数据出现的次数,然后合并拆分项,就可以统计每一个数据出现的总次数。 MapReduce处理数据过程主要分成2个阶段:Map阶段和Reduce阶段。首先执行Map阶段,再执行Reduce阶段。Map和Reduce的处理逻辑由用户自定义实现,但要符合MapReduce框架的约定。 在正式执行Map前,需要将输入数据进行”分片”。所谓分片,就是将输入数据切分为大小相等的数据块,每一块作为单个Map Worker的输入被处理,以便于多个Map Worker同时工作。 分片完毕后,多个Map Worker就可以同时工作了。每个Map Worker在读入各自的数据后,进行计算处理,最终输出给Reduce。Map Worker在输出数据时,需要为每一条输出数据指定一个Key。这个Key值决定了这条数据将会被发送给哪一个Reduce Worker。Key值和Reduce Worker是多对一的关系,具有相同Key的数据会被发送给同一个Reduce Worker,单个Reduce Worker有可能会接收到多个Key值的数据。 在进入Reduce阶段之前,MapReduce框架会对数据按照Key值排序,使得具有相同Key的数据彼此相邻。如果用户指定了”合并操作”(Combiner),框架会调用Combiner,将具有相同Key的数据进行聚合。Combiner的逻辑可以由用户自定义实现。这部分的处理通常也叫做”洗牌”(Shuffle)。 接下来进入Reduce阶段。相同的Key的数据会到达同一个Reduce Worker。同一个Reduce Worker会接收来自多个Map Worker的数据。每个Reduce Worker会对Key相同的多个数据进行Reduce操作。最后,一个Key的多条数据经过Reduce的作用后,将变成了一个值。
    查看全部
    2 采集 收起 来源:MapReduce的原理

    2017-12-16

  • 分而治之
    查看全部
    0 采集 收起 来源:MapReduce的原理

    2017-12-16

  • mapReduce:分而治之的原理,既将大的任务分解成各个小的任务,既所谓的map,然后将各个小任务的处理结果进行合并,合并汇总称之为reduce. 1、mapreduce是一个并行计算的框架; 2、map将任务分解成多个子任务,reduce将子任务并行执行后合并结果,合并结果,合并结果; 3、mapreduce的过程:input split->shuffle->output。
    查看全部
    0 采集 收起 来源:MapReduce的原理

    2018-03-22

  • HDFS使用:它提供了 shell 接口,可以进行命令行操作 hadoop namenode -format #格式化namenode hadoop fs -ls / #打印 / 目录文件列表 hadoop fs -mkdir input #创建目录 input hadoop fs -put hadoop-env.sh input/ #上传文件 hadoop-env.sh 到 input 目录下 hadoop fs -get input/abc.sh hadoop-envcomp.sh #从 input 目录中下载文件 hadoop fs -cat input/hadoop-env.sh #查看文件 input/hadoop-env.sh hadoop dfsadmin -report #dfs报告
    查看全部
    1 采集 收起 来源:HDFS使用

    2017-12-16

  • HDFS常用命令行:hadoop fs后接选项 hadoop fs -ls 路径 打印路径下的文件(夹) hadoop fs -put 文件 路径 把本地文件上传到路径 hadoop fs -mkdir 路径 -rm -get 文件路径 下载 hadoop dfsadmin -report 查看hdfs所有基本信息 常用Hadoop的shell命令: #hadoop fs -format #格式化操作 #hadoop fs -ls / #展示文件 #hadoop fs -cat input/hsdf-site.xml #查看Hadoop里面的指定文件 #hadoop fs -mkdir input #未指明目录,表示在Hadoop的文件系统下的默认目录/user/root下新建 #hadoop fs -put hdsf-site.xml input/ #上传文件到Hadoop #hadoop fs -get hdfs-site.xml hdfs-site2.xml #从Hadoop下载文件 #hadoop dfsadmin -report #查看HADF使用情况(所有信息) HDFS的使用 shell接口 格式化操作: hadoop namenode -format 展示文件: hadoop fs -ls/ hadoop fs -ls/ user 把文件放入到HDFS: hadoop fs -put hadoop-env.sh input 建文件: hadoop fs -mkdir input 查看文件: hadoop fs - cat input/hadoop-env.sh 从HFDS下载下来: hadoop fs -get input/hadoop-env.sh hadoop-env2.sh 文件系统的所有信息: hadoop dfsadmin -report
    查看全部
    0 采集 收起 来源:HDFS使用

    2017-12-16

  • HDFS的特点 1)数据冗余,硬件容错(一式三份来保证) 2)流式数据访问:写一次,读多次,一旦写入无法修改,只能通过写入到新的块删除旧的块进行处理 3)存储大文件(特适合,因为小文件多,势必加重NameNode的负担) HDFS 文件系统的特点:有大量的数据冗余,拷贝了三份出来。 特点2:流水式的访问,一次写入,写入后就不能再修改了,如果要修改的话,只能删除后,再重新写入。 文件系统 HDFS:支持存储大量数据,批量写入,并且是一次写入,多次读取,不至此交互式的读写(比如现在的数据库系统),这样给到nameNode的压力很大,需要频繁的去查找。 HDFS 文件系统:不支持多用户同时写相同的文件。 HDFS 【适用性】 --适合数据批量读写,吞吐量高;不适合交互式应用,低延迟很难满足。 --适合一次写入、多次读取,顺序读写;不支持多用户并发写相同文件。 HDFS无法修改,只能删除后重写,一次写入,多次读取。 优点:存储块大,吞吐量高,为存储大文件设计;
    查看全部
    0 采集 收起 来源:HDFS特点

    2017-12-16

举报

0/150
提交
取消
课程须知
本课程需要童鞋们提前掌握Linux的操作以及Java开发的相关知识。对相关内容不熟悉的童鞋,可以先去《Linux达人养成计划Ⅰ》以及《Java入门第一季》进行修炼~~
老师告诉你能学到什么?
1、Google的大数据技术 2、Hadoop的架构设计 3、Hadoop的使用 4、Hadoop的配置与管理
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!