为了账号安全,请及时绑定邮箱和手机立即绑定
慕课网数字资源数据库体验端
认识Hadoop--基础篇_学习笔记_慕课网
为了账号安全,请及时绑定邮箱和手机立即绑定

认识Hadoop--基础篇

Kit_Ren Linux系统工程师
难度初级
时长 1小时22分
  • google大数据技术
    查看全部
  • jdk配置
    查看全部
  • hadoop存放文件命令 hadoop fs -put hadoop-env.sh /input hadoop获取文件命令 hadoop fs -get hadoop删除文件命令 hadoop fs -rm hadoop创建目录命令 hadoop fs -mkdir hadoop查看存储信息 hadoop dfsadmin -report
    查看全部
    0 采集 收起 来源:HDFS使用

    2016-02-19

  • hadoop安装步骤: 1、安装JDK:apt-get install openjdk-7-jdk; 2、设置环境变量:JAVA_HOME、JRE_HOME、CLASSPATH、PATH 3、下载hadoop安装包并解压到指定目录下; 4、设置环境变量:HADOOP_HOME、PATH 5、修改相关配置文件$HADOOP_HOME/conf: 1)修改hadoop-env.sh,设置JAVA_HOME; 2)修改core-site.xml,设置hadoop.tmp.dir、dfs.name.dir、fs.default.name; 3)修改mapred-site.xml,设置mapred.job.tracker; 4)修改hdfs-site.xml,设置dfs.data.dir; 6、格式化:hadoop namenode -format; 7、启动:start-all.sh 8、检查:jps
    查看全部
    0 采集 收起 来源:安装小结

    2016-02-19

  • 掌握大数据处理
    查看全部
  • Hadoop
    查看全部
  • 安装程序跟系统环境关系比较紧密,还得自己折腾
    查看全部
  • Hadoop配置: Hadoop-env.sh:配置jdk路径;
    查看全部
  • 设置JAVA环境变量
    查看全部
  • 设置JAVA环境变量
    查看全部
  • 定义:开源的分布式存储+分布式计算平台; 内容:包含HDFS和MapReduce两部分,HDFS是分布式文件系统存储海量数据,MapReduce并行处理框架,实现任务分解和调度; 用途:搭建大型数据仓库,PB级数据存储、处理、分析及统计,用于搜索引擎、BI、日志分析及数据挖掘等; 优势:高扩展、低成本、成熟的生态圈
    查看全部
  • HDFS读取文件的流程:(1)客户端向namenode发起独立请求,把文件名,路径告诉namenode;(2)namenode查询元数据,并把数据库返回客户端;(3)此时客户端就明白文件包含哪些块,这些块在哪些datanode中可以找到; HDFS写文件流程:(1)客户端把文件拆分成固定大小64M的块,并通知namenode;(2)namenode找到可用的datanode返回给客户端;(3)客户端根据返回的datanode,对块进行写入(4)通过流水线管道流水线复制(5)更新元数据。告诉namenode已经完成了创建心的数据块。保证了namenode中的元数据都是最新的状态。
    查看全部
  • Hadoop由两部分组成:HDFS文件系统,MapReduce并行计算框架; HDFS文件被分为块进行存储,默认大小64MB,块是文件存储处理的逻辑单元; HDFS有两类节点,NameNode(管理节点,用来存放元数据)和DataNode(工作节点,用来存放真正数据块。)
    查看全部
    0 采集 收起 来源:HDFS基本概念

    2016-02-04

  • hadoop生态系统: 1.hdfs分布式存储系统 2.mapreduce 大数据编程模型 3.相关开源工具: HIVE:把Sql语句转化成Hadoop任务去执行,降低了人们使用Hadoop的门槛; Habase:存储结构化数据的分布式数据库,放弃事务特性,追求更高的扩展,它提供数据的随机读写和实时访问,实现对表数据的读写功能; zookeeper:监控Hadoop集群里的每个节点的状态,管理整个集群的配置,维护数据节点之间的一致性
    查看全部
  • Hadoop是一个开源的分布式存储和分布式计算平台。它由两部分组成:(1)HDFS:分布式文件系统,存储海量的数据;(2)MapReduce:并行处理框架,实现任务分解和调度。Hadoop可以用来做什么?其可以用来搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务。用于搜索引擎、商业智能、日志分析以及数据挖掘等。它的优势(1)高扩展(2)低成本(3)成熟的生态圈
    查看全部

举报

0/150
提交
取消
课程须知
本课程需要童鞋们提前掌握Linux的操作以及Java开发的相关知识。对相关内容不熟悉的童鞋,可以先去《Linux达人养成计划Ⅰ》以及《Java入门第一季》进行修炼~~
老师告诉你能学到什么?
1、Google的大数据技术 2、Hadoop的架构设计 3、Hadoop的使用 4、Hadoop的配置与管理
友情提示:

您好,此课程属于迁移课程,您已购买该课程,无需重复购买,感谢您对慕课网的支持!