Hadoop对于从事分布式存储工作的朋友应该并不陌生(如果你还没有听说过请到百度百科http://baike.baidu.com/view/908354.htm看个究竟),本文主要针对Hadoop的分布式文件系统也就是HDFS展开讨论。引用Hadoop官方的一句话:HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。这么好的系统我们没有不用的道理吧,如何用呢?这里我不说如何部署Hadoop,主要讲如何让.net程序员来用。为什么只是.net程序员呢,因为Hadoop本身是Java实现且需要架设在Linux系统上,而这些都是我们习惯了Windows下.net编程的开发人员所不擅长的。下面先展示一下本文标题中所说的HDFS资源的效果,如图: 继续阅读“HDFS资源管理器源码发布 – 古道 – 博客园”
分类: 大数据、数据挖掘、云计算、机器学习
十八款Hadoop工具帮你驯服大数据 – 51CTO.COM
Hadoop业界正在迅速发展,从业企业拿出的解决方案也多种多样,其中包括提供技术支持、在托管集群中提供按时租用服务、为这套开源核心开发先进的功能强化或者将自有工具添加到方案组合当中。
在今天的文章中,我们将一同了解当下Hadoop生态系统当中那些最为突出的杰作。总体而言,这是一套由众多工具及代码构成的坚实基础、共同聚集在”Hadoop”这面象征着希望的大旗之下。 继续阅读“十八款Hadoop工具帮你驯服大数据 – 51CTO.COM”
hbase 建的表删除不掉的问题,已成功解决,经验分享
所用平台:hadoop 2.7.1,hbase 1.0.1.1,hbase api 1.0.1.1
发现的问题:之前在eclipse中调用api建表、填充数据、查看数据、删除数据、删除表都已经成功,但有一天同事用api建了一张表city,在hbase shell里删不掉。
我试了下,可以disable,但drop报错ERROR: Retries exhausted, it took too long to wait for the table city to be deleted.,以下是实验操作记录摘要,表名users2,供大家参考: 继续阅读“hbase 建的表删除不掉的问题,已成功解决,经验分享”
Hadoop、Spark、HBase与Redis的适用性见解-大数据(hadoop系列)学习-about云开发
问题导读:
1.你认为Hadoop适用什么场景?
2.Spark适用于什么场景?
3.HBase与 Redis各有什么特点?
继续阅读“Hadoop、Spark、HBase与Redis的适用性见解-大数据(hadoop系列)学习-about云开发”
hadoop2提交到Yarn: Mapreduce执行过程reduce分析3-Hadoop2|YARN-about云开发
问题导读:
1.Reduce类主要有哪三个步骤?
2.Reduce的Copy都包含什么过程?
3.Sort主要做了哪些工作?
继续阅读“hadoop2提交到Yarn: Mapreduce执行过程reduce分析3-Hadoop2|YARN-about云开发”
hadoop2提交到Yarn: Mapreduce执行过程分析2-Hadoop2|YARN-about云开发
问题导读:
1.hadoop哪些数据类型,是如何与Java数据类型对应的?
2.ApplicationMaster什么时候启动?
3.YarnChild进程什么时候产生?
4.如果在recuece的情况下,map任务完成暂总任务的多少百分比?
5.run的执行步骤是什么?
6.哪个方法来执行具体的map任务?
7.获取配置信息为哪个类?
8.TaskAttemptContextImpl还增加了什么信息?
继续阅读“hadoop2提交到Yarn: Mapreduce执行过程分析2-Hadoop2|YARN-about云开发”
hadoop2提交到Yarn: Mapreduce执行过程分析1-Hadoop2|YARN-about云开发
1.为什么会产生Yarn?
2.Configuration类的作用是什么?
3.GenericOptionsParser类的作用是什么?
4.如何将命令行中的参数配置到变量conf中?
5.哪个方法会获得传入的参数?
6.如何在命令行指定reduce的个数?
7.默认情况map、reduce为几?
8.setJarByClass的作用是什么?
9.如果想在控制台打印job(maoreduce)当前的进度,需要设置哪个参数?
10.配置了哪个参数,在提交job的时候,会创建一个YARNRunner对象来进行任务的提交?
11.哪个类实现了读取yarn-site.xml、core-site.xml等配置文件中的配置属性的?
12.JobSubmitter类中的哪个方法实现了把job提交到集群?
13.DistributedCache在mapreduce中发挥了什么作用?
14.对每个输入文件进行split划分,是物理划分还是逻辑划分,他们有什么区别?
15.分片的大小有哪些因素来决定
16.分片是如何计算得来的?
继续阅读“hadoop2提交到Yarn: Mapreduce执行过程分析1-Hadoop2|YARN-about云开发”
hadoop 2.2 集群 和eclipse 怎么配置_百度知道
Eclipse调用hadoop运行MR程序其实就是普通的java程序可以提交MR任务到集群执行而已。在Hadoop1中,只需指定jt(jobtracker)和fs(namenode)即可,一般如下:
Configuration conf = new Configuration();
conf.set(“mapred.job.tracker”, “192.168.128.138:9001”);
conf.set(“fs.default.name”,”192.168.128.138:9000″);
上面的代码在hadoop1中运行是ok的,完全可以使用java提交任务到集群运行。但是,hadoop2却是没有了jt,新增了yarn。这个要如何使用呢?最简单的想法,同样指定其配置,试试。 继续阅读“hadoop 2.2 集群 和eclipse 怎么配置_百度知道”
Hadoop基础教程之搭建开发环境及编写Hello World – 程序园
整个Hadoop是基于Java开发的,所以要开发Hadoop相应的程序就得用JAVA。在linux下开发JAVA还数eclipse方便。 继续阅读“Hadoop基础教程之搭建开发环境及编写Hello World – 程序园”
Hadoop基础教程之HelloWord – 程序园
我们把hadoop下载、安装、运行起来,最后还执行了一个Hello world程序,看到了结果。现在我们就来解读一下这个Hello Word。
OK,我们先来看一下当时在命令行里输入的内容: 继续阅读“Hadoop基础教程之HelloWord – 程序园”
Hadoop基础教程之高级编程 – 程序园
从前面的学习中,我们了解到了MapReduce整个过程需要经过以下几个步骤:
1.输入(input):将输入数据分成一个个split,并将split进一步拆成<key, value>。
2.映射(map):根据输入的<key, value>进生处理,
3.合并(combiner):合并中间相两同的key值。
4.分区(Partition):将<key, value>分成N分,分别送到下一环节。
5.化简(Reduce):将中间结果合并,得到最终结果
6.输出(output):负责输入最终结果。
其中第3、4步又成洗牌(shuffle)过程。 继续阅读“Hadoop基础教程之高级编程 – 程序园”
通过eclipse调试MapReduce任务 — 其他 — IT技术博客大学习 — 共学习 共进步!
利用MapReduce利器作开发,不论从思想上还是技能上都是新的体验。以下罗列下如何利用eclipse调试MR任务。
(本人环境:hadoop 1.0.2,部署在linux上,本地windows开发)
1、安装hadoop。
先在linux上安装好hadoop,为更接近线上环进,我的是安装成Cluster
注意要远程访问相关端口,conf/mapred-site.xml中localhost:9001中需要换成ip加端口。
sh bin/start-all.sh启动,先按文档命令行跑一下example的wordcount。
我安装好运行example遇到了XML解析的错(原因应该是${java.home}/lib/jaxp.properties没有设置,见:javax.xml.xpath.XPathFactory.newInstance(uri)的注释),后来手动加了xalan-j_2.7.0.jar、xercesImpl-2.7.1.jar、xml-apis-2.7.1.jar、xmlenc-0.52.jar、serializer-2.7.1.jar几个包解决。
2、下载hadoop eclipse plugin (最新只有0.20.3,不过也能使用),将jar放到eclipse/plugins下,启动eclipse
这个插件比较简陋,只有一个设置项:Window->Preferences->Hadoop Map/Reduce,设置Hadoop的安装路径,解压一份跟运行hadoop同版本的到本机并指向就行了(我的使用smb映射)
建ecplise工程,把WordCount的示例代码复制一份吧,有些hadoop相关的jar需要引用。
Run As->Run On Hadoop设置Map/Reduce Master的IP,端口为9000, DFS Master端口为9001
这样,不出意外的话就能在eclipse里运行Map/Reduce程序了。 继续阅读“通过eclipse调试MapReduce任务 — 其他 — IT技术博客大学习 — 共学习 共进步!”
如何在eclipse上调试hadoop的笔记_百度知道
步骤
修改mapred-site.xml文件,添加如下配置: 继续阅读“如何在eclipse上调试hadoop的笔记_百度知道”
hadoop2.2.0 源码远程调试_王维_新浪博客
note: 只在linux上面调试,windows下面会有脚本执行的问题,可能需要安装cygwin可以解决. 继续阅读“hadoop2.2.0 源码远程调试_王维_新浪博客”
eclipse debug调试mapreduce程序 – 蓝狐乐队的个人空间 – 开源中国社区
1、将mapred-site.xml文件拷贝一份到项目中 继续阅读“eclipse debug调试mapreduce程序 – 蓝狐乐队的个人空间 – 开源中国社区”
hadoop研究:mapreduce研究前的准备工作 – 夏天的森林 – 博客园
继续研究hadoop,有童鞋问我,为啥不接着写hive的文章了,原因主要是时间不够,我对hive的研究基本结束,现在主要是hdfs和mapreduce,能写文章的时间也不多,只有周末才有时间写文章,所以最近的文章都是写hdfs和mapreduce。不过hive是建立在hdfs和mapreduce之上,研究好hdfs和mapreduce也是真正用好hive的前提。
今天的内容是mapreduce,经过这么长时间的学习,我对hadoop的相关技术理解更加深入了,这回我会尽全力讲解好mapreduce。 继续阅读“hadoop研究:mapreduce研究前的准备工作 – 夏天的森林 – 博客园”
eclipse中mapreduce程序编译打包出错的解决
必须在项目中手动添加MANIFEST.MF ,并写入如下内容
例如我们打包的jar为 Test.jar
Manifest-Version: 1.0
Main-Class: windows.VideoWindow
Class-Path: lib\org.eclipse.swt_3.3.0.v3346.jar lib\org.eclipse.swt.win32.win32.x86_3.3.0.v3346.jar
否则报错:
could not find main class. 继续阅读“eclipse中mapreduce程序编译打包出错的解决”
使用命令行编译打包运行MapReduce程序 – WordCount – 博客园
对于如何编译WordCount.java,对于0.20 等旧版本版本的做法很常见,具体如下:
javac -classpath /usr/local/hadoop/hadoop-<span style="color: #800080;">1.0</span>.<span style="color: #800080;">1</span>/hadoop-core-<span style="color: #800080;">1.0</span>.<span style="color: #800080;">1</span>.jar WordCount.java
但较新的 2.X 版本中,已经没有 hadoop-core*.jar 这个文件,因此编辑和打包自己的MapReduce程序与旧版本有所不同。
本文以 Hadoop 2.6环境下的WordCount实例来介绍 2.x 版本中如何编辑自己的MapReduce程序。 继续阅读“使用命令行编译打包运行MapReduce程序 – WordCount – 博客园”
Hadoop教程之编写HelloWorld(2) – 程序园
前面我们写了一个Hadoop程序,并让它跑起来了。但想想不对啊,Hadoop不是有两块功能么,DFS和MapReduce。没错,上一节我们写了一个MapReduce的HelloWorld程序,那这一节,我们就也学一学DFS程序的编写。
DFS 是什么,之前已经了解过,它是一个分布式文件存储系统。不管是远程或本地的文件系统,其实从接口上讲,应该是一至的,不然很难处理。同时在第2节的最后, 我们列出了很多一些DFS的操作命令,仔细看一下,这些命令其实跟linux中的文件操作命令很相似,所以说,对于分布式文件系统,我们完全可以用本地文 件的方式来理解。 继续阅读“Hadoop教程之编写HelloWorld(2) – 程序园”
java 操作 hdfs 实例
根据之前几篇文章搜集的资料,写了这么个简单的实例,仅供参考。 继续阅读“java 操作 hdfs 实例”