为了账号安全,请及时绑定邮箱和手机立即绑定
慕课网数字资源数据库体验端
认识Hadoop--基础篇_学习笔记_慕课网
为了账号安全,请及时绑定邮箱和手机立即绑定

认识Hadoop--基础篇

Kit_Ren Linux系统工程师
难度初级
时长 1小时22分
  • $ mv 文件 /opt,必须要有这个步骤; /usr 下是你安装系统是所安装的软件的安装目录; /opt 则是按完系统后你又需要安装其他的应用软件,一般是源码包的软件,可以自己指定路径,管理员习惯性的把软件按在这,你也可以安装在其他位置。
    查看全部
  • 配置任务调用器 mapred-site.xml配置 环境变量中添加如下内容
    查看全部
  • Hadoop配置 1,下载Hadoop安装包 $ wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz 2 $ tar -zxvf hadoop-1.2.1.tar.gz 3、配置hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml四个文件; $ vim hadoop-env.sh 添加JDK路径 如果忘记的话可以在终端输入echo $JAVA_PATH来查看路径 core-site.xml: <property> <name>hadoop.tmp.dir</name> <value>/hadoop</value> </property> <property> <name>dfs.name.dir</name> <value>/hadoop/name</value> </property> <property> <name>fs.default.name</name> <value>hdfs://imooc:9000</value> </property> hdfs-site.xml <property> <name>dfs.data.dir</name> <value>/hadoop/data</value> </property> mapred-site.xml <property> <name>mapred.job.tracker</name> <value>imooc:9001</value> </property> hdfs-site.xml文件设置,文件系统数据存放目录 <configuration> <property> <name>dfs.data.dir</name> <value>/hadoop/data</value> </property> </configuration> 4、编辑/etc/profile文件,配置hadoo环境变量; 5、第一次使用hadoop先进行格式化: $ hadoop namenode -format; 6、启动hadoop:start-all.sh; 7、检查进程:jps;
    查看全部
  • 设置java环境变量 修改 /etc/profile 文件 添加如下4条 1.export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64 2.export JRE_HOME=$JAVA_HOME/jre 3.export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH 4.export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH 注解: 1.Linux下用冒号 : 分割路径 2.$PATH / $JAVA_HOME / $JRE_HOME 是用来引用原来环境变量的值,在设置环境变量时不能把原来的值给覆盖掉 3.$CLASSPATH 中 当前目录 “.”不能丢 4.export 是把这4个变量导出为全局变量 5. source /etc/profile变量立即生效
    查看全部
  • hadoop生态系统: 1.hdfs 2.mapreduce 3.相关开源工具: (1)hive:将sql语句转化为hadoop任务 (2)HBASE:存储结构化数据的分布式数据库,放弃事务特性,追求更高的扩展,它提供数据的随机读写和实时访问,实现对表数据的读写功能 (3)zookeeper:监控Hadoop集群里的每个节点的状态,管理整个集群的配置,维护数据节点之间的一致性
    查看全部
  • hadoop=分布式存储(HDFS)+分布式计算(MapReduce)——开源 Hadoop的核心组成部分 HDFS:分布式文件系统,存储海量数据 MapReduce:并行处理框架,实现任务分解和调度 Hadoop用途:搭建大型数据仓库,PB级数据存储、处理、分析、统计等业务(搜索引擎、日志分析、商业智能、数据挖掘)。 hadoop优势: 1.高扩展(通过硬件来不断扩展性能和内容) 2.低成本(可以在普通pc机上进行开发) 3.成熟的生态圈
    查看全部
  • 1)基本概念: --Job & Task: 一个 Job(任务、作业) 被切分为多个 Task,Task 又分为 MapTask 和 ReduceTask --JobTracker 作业调度 分配任务、监控任务 监控 TaskTracker 的状态 --TaskTracker 执行任务 向 JobTracker 汇报任务状态 3. 容错机制:2种 1)重复执行: 默认重复执行 4 次,若还是失败,则放弃执行 2)推测执行: 可以保证任务不会因为某1-2个机器错误或故障而导致整体效率下降
    查看全部
  • HDFS读取文件的流程:(1)客户端向namenode发起独立请求,把文件名,路径告诉namenode;(2)namenode查询元数据,并把数据库返回客户端;(3)此时客户端就明白文件包含哪些块,这些块在哪些datanode中可以找到; HDFS写文件流程:(1)客户端把文件拆分成固定大小64M的块,并通知namenode;(2)namenode找到可用的datanode返回给客户端;(3)客户端根据返回的datanode,对块进行写入(4)通过流水线管道流水线复制(5)更新元数据。告诉namenode已经完成了创建心的数据块。保证了namenode中的元数据都是最新的状态
    查看全部
  • 1.每个数据块3个副本,分布在两个机架内的三个节点,2个在同一个机架上,另外一个在另外的机架上。 2.心跳检测,datanode定期向namenode发送心跳消息。 3.secondary namenode;定期同步元数据映像文件和修改日志,namenode发生故障,secondaryname备份上位
    查看全部
    1 采集 收起 来源:数据管理策略

    2016-07-26

  • hadoop生态系统: 1.hdfs 2.mapreduce 3.相关开源工具: (1)hive:将sql语句转化为hadoop任务 (2)HBASE:存储结构化数据的分布式数据库,放弃事务特性,追求更高的扩展,它提供数据的随机读写和实时访问,实现对表数据的读写功能 (3)zookeeper:监控Hadoop集群里的每个节点的状态,管理整个集群的配置,维护数据节点之间的一致性
    查看全部
  • Google大数据技术: 1.MapReduce:概念"Map(映射)"和"Reduce(归约)",它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。 2.BigTable:是Google设计的分布式数据存储系统,用来处理海量的数据的一种非关系型的数据库 3.GFS:是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,并提供容错功能。它可以给大量的用户提供总体性能较高的服务。 hadoop革命性变 1.成本降低,能用PC机,不用大型机和高端存储 2.软件容错硬件故障视为常态,通过软件保证可靠性 3.简化并行分布式计算,无须控制节点同步和数据交换
    查看全部
  • 为什么进行格式化hadoop namenode时一直报错显示找不到文件或目录
    查看全部
  • 推荐图书
    查看全部
  • Map-Reduce的容错机制
    查看全部
  • map-reduce执行过程
    查看全部

举报

0/150
提交
取消
课程须知
本课程需要童鞋们提前掌握Linux的操作以及Java开发的相关知识。对相关内容不熟悉的童鞋,可以先去《Linux达人养成计划Ⅰ》以及《Java入门第一季》进行修炼~~
老师告诉你能学到什么?
1、Google的大数据技术 2、Hadoop的架构设计 3、Hadoop的使用 4、Hadoop的配置与管理
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!