慕课网

认识Hadoop--基础篇

最热最新

深山老龟 04:11

具体显示内容

查看全部

0 采集收起来源：HDFS使用
2017-12-18
深山老龟 04:05

查看hadoop dfsadmin -report 具体信息使用包括空间使用大小

查看全部

0 采集收起来源：HDFS使用
2017-12-18
霜花似雪 02:31

1.创建目录：hadoop fs -mkdir input 和 word_count_class文件 2.编译java文件 javac -classpath /opt/hadoop-1.2.1/hadoop-core-1.2.1.jar:/opt/hadoop-1.2.1/lib/commons-cli-1.2.jar -d 编译后地址编译文件 3.打包指令 jar -cvf 打包后文件名.jar *.class 4.提交输入文件给hadoop hadoop fs -put 文件路径提交后的路径例：hadoop fs -put input/* input_wordcount/ 5.提交jar给hadoop执行 hadoop jar jar包路径执行的主函数名(主类名，main方法所在类名) 输入目录名输出目录名例：hadoop jar word_count_class/wordcount.jar WordCount input_wordcount output_wordcount 6.运行结果文件存在output_wordcount中，所以进去查看结果即可

查看全部

0 采集收起来源：WordCount单词计数（下）
2017-12-16
霜花似雪

1.编写WordCount.java,包含Mapper类和Reducec类 2.编译WordCount.java,java -classpath #资料下载里面有 3.打包 jar -cvf WordCount.jar classes/* 4.作业提交 hadoop jar WordCount.jar WordCount input output 提交到hadoop中运行，指定输入文件，指定输出文件演示： jps #查看是否运行 1.vim WordCount.java # 资料下载里面有 2.javac -classpath /opt/hadoop-1.2.1/hadoop-core-1.2.1.jar:/opt/hadoop-1.2.1/lib//commons-cli-1.2.jar -d word_count_class/ WordCount.java #word_count_class/WordCount.java为编译的路径和编译后的文件 cd word_count_class ls #查看编译后的文件 3.jar -cvf WordCount.jar *.class #打包 4.提交文件 hadoop fs -mkdir input_wordcount #创建文件夹 hadoop fs -put input/* input_wordcount/ #把input下的文件提交到 input_wordcount文件夹 hadoop fs -cat input_wordcount/file1 #查看 hadoop jar word_count_class/wordcount.jar WordCount input_wordcount output_wordcount #对jar包中的主函数WordCount 指定参数输入input_wordcount和输出output_wordcount hadoop fs -ls output_wordount #查看运行结果 hadoop fs cat output_wordcount/part-r-00000 #查看提交的结果

查看全部

0 采集收起来源：WordCount单词计数（下）
2017-12-16
霜花似雪 06:06

MapReduce的容错机制

查看全部

0 采集收起来源：MapReduce的运行流程
2017-12-16
霜花似雪 03:32

MapReduce作业执行过程

查看全部

0 采集收起来源：MapReduce的运行流程
2017-12-16
霜花似雪 02:31

JobTracker的角色

查看全部

0 采集收起来源：MapReduce的运行流程
2017-12-16
霜花似雪 01:33

Hadoop MapReduce体系结构

查看全部

0 采集收起来源：MapReduce的运行流程
2017-12-16
霜花似雪 00:34

JobTracker的角色： 1）作业调度 2）分配任务、监控任务执行进度 3）监控TaskTracker的状态 Job & Task： 1.Job就是一个要执行的任务 ==> 提交Job 2.一个Job会被分为多个Task（MapTask和ReduceTask） ==> 分片 JobTracker：（讲一个Job拆分成多个Map和Reduce任务；分配Map和Reduce任务） ==> 作业调度、分配任务、监控进度、监控TaskTracker状态 TaskTracker：（Map任务分发给下面的TaskTracker做实际的任务；TaskTracker与DataNode保持对应关系） ==> 执行任务、汇报任务状态 MapReduce的容错机制： 1、重复执行：执行出错重试。默认重复执行 4 次，若还是失败，则放弃执行 2、推测执行：个别节点执行过慢的话，会重启一个同样的任务，只要其中一个执行完，其他就被终止掉。可以保证任务不会因为某1-2个机器错误或故障而导致整体效率下降 --Job & Task：一个 Job（任务、作业）被切分为多个 Task，Task 又分为 MapTask 和 ReduceTask --JobTracker 作业调度分配任务、监控任务监控 TaskTracker 的状态 --TaskTracker 执行任务向 JobTracker 汇报任务状态 mapreduce计算管理： 1.JobTracker 向taskTracker发放任务以及进行监控，taskTracker执行任务并且时不时的想JobTracker汇报执行情况 2.mapReduce容错机制： 1.重复测试：如果一个TaskTracker节点在测试过程中失败，mapreduce会重新执行该任务，如果执行四次后仍失败，就停止执行该任务 2.推测测试：如果一个taskTracker执行得很慢，mapReduce就会重新开启一个taskTracker节点去计算相同的该任务，原来那个继续执行，重新开启的taskTracker如果先执行完，则mapReduce取到该结果后就会停止原来那个很慢的taskTracker节点

查看全部

0 采集收起来源：MapReduce的运行流程
2018-03-22
霜花似雪 02:34

Mapreduce原理：分而治之，一个大任务分成多个子任务（map），并行执行之后，合并结果（reduce）。 eg：做统计的时候，把统计的文件拆分，然后分别统计每一个数据出现的次数，然后合并拆分项，就可以统计每一个数据出现的总次数。 MapReduce处理数据过程主要分成2个阶段：Map阶段和Reduce阶段。首先执行Map阶段，再执行Reduce阶段。Map和Reduce的处理逻辑由用户自定义实现，但要符合MapReduce框架的约定。在正式执行Map前，需要将输入数据进行”分片”。所谓分片，就是将输入数据切分为大小相等的数据块，每一块作为单个Map Worker的输入被处理，以便于多个Map Worker同时工作。分片完毕后，多个Map Worker就可以同时工作了。每个Map Worker在读入各自的数据后，进行计算处理，最终输出给Reduce。Map Worker在输出数据时，需要为每一条输出数据指定一个Key。这个Key值决定了这条数据将会被发送给哪一个Reduce Worker。Key值和Reduce Worker是多对一的关系，具有相同Key的数据会被发送给同一个Reduce Worker，单个Reduce Worker有可能会接收到多个Key值的数据。在进入Reduce阶段之前，MapReduce框架会对数据按照Key值排序，使得具有相同Key的数据彼此相邻。如果用户指定了”合并操作”(Combiner)，框架会调用Combiner，将具有相同Key的数据进行聚合。Combiner的逻辑可以由用户自定义实现。这部分的处理通常也叫做”洗牌”(Shuffle)。接下来进入Reduce阶段。相同的Key的数据会到达同一个Reduce Worker。同一个Reduce Worker会接收来自多个Map Worker的数据。每个Reduce Worker会对Key相同的多个数据进行Reduce操作。最后，一个Key的多条数据经过Reduce的作用后，将变成了一个值。

查看全部

2 采集收起来源：MapReduce的原理
2017-12-16
霜花似雪 01:52

分而治之

查看全部

0 采集收起来源：MapReduce的原理
2017-12-16
霜花似雪 00:29

mapReduce：分而治之的原理，既将大的任务分解成各个小的任务，既所谓的map，然后将各个小任务的处理结果进行合并，合并汇总称之为reduce. 1、mapreduce是一个并行计算的框架； 2、map将任务分解成多个子任务，reduce将子任务并行执行后合并结果，合并结果，合并结果； 3、mapreduce的过程：input split->shuffle->output。

查看全部

0 采集收起来源：MapReduce的原理
2018-03-22
霜花似雪

HDFS使用：它提供了 shell 接口，可以进行命令行操作 hadoop namenode -format #格式化namenode hadoop fs -ls / #打印 / 目录文件列表 hadoop fs -mkdir input #创建目录 input hadoop fs -put hadoop-env.sh input/ #上传文件 hadoop-env.sh 到 input 目录下 hadoop fs -get input/abc.sh hadoop-envcomp.sh #从 input 目录中下载文件 hadoop fs -cat input/hadoop-env.sh #查看文件 input/hadoop-env.sh hadoop dfsadmin -report #dfs报告

查看全部

1 采集收起来源：HDFS使用
2017-12-16
霜花似雪 01:23

HDFS常用命令行：hadoop fs后接选项 hadoop fs -ls 路径打印路径下的文件（夹） hadoop fs -put 文件路径把本地文件上传到路径 hadoop fs -mkdir 路径 -rm -get 文件路径下载 hadoop dfsadmin -report 查看hdfs所有基本信息常用Hadoop的shell命令： #hadoop fs -format #格式化操作 #hadoop fs -ls / #展示文件 #hadoop fs -cat input/hsdf-site.xml #查看Hadoop里面的指定文件 #hadoop fs -mkdir input #未指明目录，表示在Hadoop的文件系统下的默认目录/user/root下新建 #hadoop fs -put hdsf-site.xml input/ #上传文件到Hadoop #hadoop fs -get hdfs-site.xml hdfs-site2.xml #从Hadoop下载文件 #hadoop dfsadmin -report #查看HADF使用情况（所有信息） HDFS的使用 shell接口格式化操作: hadoop namenode -format 展示文件: hadoop fs -ls/ hadoop fs -ls/ user 把文件放入到HDFS: hadoop fs -put hadoop-env.sh input 建文件: hadoop fs -mkdir input 查看文件: hadoop fs - cat input/hadoop-env.sh 从HFDS下载下来: hadoop fs -get input/hadoop-env.sh hadoop-env2.sh 文件系统的所有信息: hadoop dfsadmin -report

查看全部

0 采集收起来源：HDFS使用
2017-12-16
霜花似雪 01:03

HDFS的特点 1）数据冗余，硬件容错（一式三份来保证） 2）流式数据访问：写一次，读多次，一旦写入无法修改，只能通过写入到新的块删除旧的块进行处理 3）存储大文件（特适合，因为小文件多，势必加重NameNode的负担） HDFS 文件系统的特点：有大量的数据冗余，拷贝了三份出来。特点2：流水式的访问，一次写入，写入后就不能再修改了，如果要修改的话，只能删除后，再重新写入。文件系统 HDFS：支持存储大量数据，批量写入，并且是一次写入，多次读取，不至此交互式的读写（比如现在的数据库系统），这样给到nameNode的压力很大，需要频繁的去查找。 HDFS 文件系统：不支持多用户同时写相同的文件。 HDFS 【适用性】 --适合数据批量读写，吞吐量高；不适合交互式应用，低延迟很难满足。 --适合一次写入、多次读取，顺序读写；不支持多用户并发写相同文件。 HDFS无法修改，只能删除后重写，一次写入，多次读取。优点：存储块大，吞吐量高，为存储大文件设计；

查看全部

0 采集收起来源：HDFS特点
2017-12-16

首页上一页 42 43 44 45 46 47 48 下一页尾页

0/150

提交

取消

开始学习

课程须知: 本课程需要童鞋们提前掌握Linux的操作以及Java开发的相关知识。对相关内容不熟悉的童鞋，可以先去《Linux达人养成计划Ⅰ》以及《Java入门第一季》进行修炼～～

老师告诉你能学到什么？: 1、Google的大数据技术 2、Hadoop的架构设计 3、Hadoop的使用 4、Hadoop的配置与管理