HDFS 数据流-fjsm20Linux-ChinaUnix博客

1.拓扑距离

这里简单讲下hadoop的网络拓扑距离的计算继续阅读“HDFS 数据流-fjsm20Linux-ChinaUnix博客”

经典漫画讲解HDFS原理-raochaoxun-ChinaUnix博客

分布式文件系统比较出名的有HDFS 和 GFS，其中HDFS比较简单一点。本文是一篇描述非常简洁易懂的漫画形式讲解HDFS的原理。比一般PPT要通俗易懂很多。不难得的学习资料。

1、三个部分: 客户端、nameserver（可理解为主控和文件索引类似linux的inode）、datanode（存放实际数据的存server）

继续阅读“经典漫画讲解HDFS原理-raochaoxun-ChinaUnix博客”

hadoop集群配置-zhengnx-ChinaUnix博客

后记：建议生产环境部署CDH3版本，而不是apache版本，CDH3版本对apache版本做了很多性能方面的优化，经实际测试，效率要高于apache版本，有很多公司在使用CDH3版本的hadoop 继续阅读

HDFS Namenode是如何工作的？ – tenfyguo的技术专栏 – 博客频道 – CSDN.NET

HDFS（Hadoop

Distributed Filesystem）客户端通过被称之为Namenode单服务器节点执行文件系统原数据操作，同时DataNode会与其他DataNode进行通信并复制数据块以实现冗余，这样单一的DataNode损坏不会导致集群的数据丢失。继续阅读“HDFS Namenode是如何工作的？ – tenfyguo的技术专栏 – 博客频道 – CSDN.NET”

hadoop2升级的那点事情(详解) – ggjucheng – 博客园

前言

前阵子，公司的hadoop从hadoop1.02升级到hadoop2.4.1，记录下升级的步骤和遇到的问题，和大家分享，希望别人可以少走一些弯路继续阅读“hadoop2升级的那点事情(详解) – ggjucheng – 博客园”

[HIVE-3682] when output hive table to file,users should could have a separator of their own choice – ASF JIRA

By default,when output hive table to file ,columns of the Hive table are separated by ^A character (that is \001). 继续阅读“[HIVE-3682] when output hive table to file,users should could have a separator of their own choice – ASF JIRA”

hive导出查询文件到本地文件的2种办法 – 其他综合 – 红黑联盟

hive导出查询文件到本地文件的2种办法继续阅读

Hive三种不同的数据导出的方式-helianthus_lu-ChinaUnix博客

Hive三种不同的数据导出的方式，根据导出的地方不一样，将这些方法分为三类：继续阅读“Hive三种不同的数据导出的方式-helianthus_lu-ChinaUnix博客”

hive中的local mr – 东杰书屋 – 博客频道 – CSDN.NET

在hive中运行的sql有很多是比较小的sql,数据量小,计算量小.这些比较小的sql如果也采用分布式的方式来执行,那么是得不偿失的.因为sql真正执行的时间可能只有10秒,但是分布式任务的生成得其他过程的执行可能要1分钟.这样的小任务更适合采用lcoal mr的方式来执行.就是在本地来执行,通过把输入数据拉回客户端来执行. 继续阅读“hive中的local mr – 东杰书屋 – 博客频道 – CSDN.NET”

mahout0.9 聚类小实验 – 插肩美女不屑看，三千码友在身旁 – 开源中国社区

原数据有两列。第一列是打电话总时长，第二列是打电话占打接电话比。两列数据都已经标准化过了。一开始是逗号分割，每行两个数字。

拿到数据后，先使用R来看一下，毕竟只有两个维度，plot一下就好了。继续阅读“mahout0.9 聚类小实验 – 插肩美女不屑看，三千码友在身旁 – 开源中国社区”

为 Mahout 增加聚类评估功能

聚类算法及聚类评估 Silhouette 简介

聚类算法简介

聚类（clustering）是属于无监督学习（Unsupervised learning）的一种，用来把一组数据划分为几类，每类中的数据尽可能的相似，而不同类之间尽可能的差异最大化。通过聚类，可以为样本选取提供参考，或进行根源分析，或作为其它算法的预处理步骤。继续阅读“为 Mahout 增加聚类评估功能”

hadoop常见错误及解决办法！ – 心如大海 – ITeye技术网站

1：Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out

Answer：

程序里面需要打开多个文件，进行分析，系统一般默认数量是1024，（用ulimit -a可以看到）对于正常使用是够了，但是对于程序来讲，就太少了。继续阅读“hadoop常见错误及解决办法！ – 心如大海 – ITeye技术网站”

hadoop遇到的问题 – dandingyy – 博客园

装好hadoop，但是一直出现问题，总结如下：

排错到现在，最大的感觉是，也许你的错误表象跟网上说的一样，但是解决方法会大有不同，只能说这种错误是同一问题（如namenode出错）导致，但是究竟是什么行为导致这个问题，每个人也许都不相同，所以重点是找到自己的操作时的错误所在继续阅读“hadoop遇到的问题 – dandingyy – 博客园”

hadoop与DNS与IP解析 – ITeye问答

现在我的hadoop搭建完毕后，mapreduce无法完成。继续阅读“hadoop与DNS与IP解析 – ITeye问答”

hadoop必须使用主机名，用ip不行

最近在配置hadoop，发现要修改/etc/sysconfig/network，中的hostname，然后还要修改/etc/hosts中的hostname和ip的对应关系，最后在hadoop各配置文件中应用hostname。如果不这样做就会导致各种莫名其妙的问题，比如：
1.用jps查看namenode和datanode正常启动，但是用hadoop dfsadmin -report查看结果全是0，NaN，就是说硬盘容量没有正确识别。
2.web ui中看到的live nodes 是0。
3.有可能还会造成safe mode on。
结论：目前的版本hadoop2.7.1必须用hostname进行通信，用ip就出问题，无法正常使用，完全不行。

hadoop集群，如果不设置关闭防火墙的话，那么应该怎么办？需要设置哪些端口？_百度知道

8020 8021 50010 50020 50030 50060 50075 50090 28680 允许TCP

追问：

那50070 90000 90001这些呢？

追答：

65535以内好不好。。。 你这个90000 你搞笑了吧

追问：

那9000、9001

追答：

...想开就开吧。。。不知道做什么。。。

提问者评价

谢谢!

来源URL：http://zhidao.baidu.com/link?url=iyL0s5lTBrnrosy9q4w6TMG6nEk7D0zF8QQ3l_POK7jA0XZwQb6Y15Ad3MhIJmeL_0ywH7cEFt1RnE0tyte2IK

hadoop节点中不关闭防火墙体验 – 分布式应用与服务器架构专栏 – 博客频道 – CSDN.NET

最近新增节点后，导致相关运行程序出现异常。

检查下来发现，一个很简单的问题导致，有一个节点运维人员忘记关闭防火墙了。

如果不关闭防火墙，有以下几种情况出现：

第一：hdfs的web管理页面，打不开该节点的文件浏览页面

第二：后台运行脚本（HIVE的），会出现莫名其妙的假死状态

第三：在删除和增加节点的时候，会让数据迁移处理时间更长，甚至不能正常完成相关操作

第四：不管你做任何操作，都是会运行不正常，而且很不顺手

来源URL：http://cache.baiducontent.com/c?m=9d78d513d99912f905b0d6690c66c0176e43f3102ba7a3020ea38449e3732d41501590ac26520774d8d20a6d16ae394b9af52103351450c78cbc8a5dacbe8558599c60742e13dc0754910eaeb85b38917ecd0ffeaf6eb6fba66e84aea58f88124e9b095226cbab81500a1ed73cb0526ab2f8ce55430856e9b66e24e253752b9f2446b6&p=8c769a479c934eaf5be7db225c4b80&newp=906fd616d9c10bf908e2947d076483231610db2151d7d3153582&user=baidu&fm=sc&query=hadoop%CE%AA%BA%CE%D2%AA%B9%D8%B7%C0%BB%F0%C7%BD&qid=f3ddc3a10001fcae&p1=5

有一个思考，老师的hadoop安装视频里面，都是讲防火墙直接关闭 – Hadoop分布式数据分析平台-炼数成金-Dataguru专业数据分析社区

有一个思考，老师的hadoop安装视频里面，都是讲防火墙直接关闭，但是实际线上这样做显然是不安全的，我们应该要做的是，

整理hadoop集群当中要用到的端口，在iptables白名单里面开放内网的这些端口。实际上hadoop集群当中需要用到的有哪些端口，有木有大神帮忙整理一下的？

你直接netstat -tulnp把hadoop占的端口显示出来再把这几个端口加入白名单
老师让关闭是不想让大家纠缠于iptables 因为那个又可以写一本书了

可以理解的啦。防火墙的设置可以放在另外一门课：hadoop安全，哈哈

来源URL：http://f.dataguru.cn/thread-249496-1-1.html

部署Hadoop时的注意事项（基础篇）

Hadoop的核心功能有两个：HDFS与MapReduce。继续阅读“部署Hadoop时的注意事项（基础篇）”

centos 系统下安装配置FastDFS步骤分享_RedHat/Centos_操作系统_脚本之家

FastDFS是一个开源的轻量级分布式文件系统，它对文件进行管理，功能包括：文件存储、文件同步、文件访问（文件上传、文件下载）等，解决了大容量存储和负载均衡的问题。特别适合以文件为载体的在线服务，如相册网站、视频网站等等继续阅读