HDFS Namenode是如何工作的? – tenfyguo的技术专栏 – 博客频道 – CSDN.NET
HDFS(Hadoop
Distributed Filesystem)客户端通过被称之为Namenode单服务器节点执行文件系统原数据操作,同时DataNode会与其他DataNode进行通信并复制数据块以实现冗余,这样单一的DataNode损坏不会导致集群的数据丢失。 继续阅读“HDFS Namenode是如何工作的? – tenfyguo的技术专栏 – 博客频道 – CSDN.NET”
hadoop2升级的那点事情(详解) – ggjucheng – 博客园
前言
前阵子,公司的hadoop从hadoop1.02升级到hadoop2.4.1,记录下升级的步骤和遇到的问题,和大家分享,希望别人可以少走一些弯路 继续阅读“hadoop2升级的那点事情(详解) – ggjucheng – 博客园”
[HIVE-3682] when output hive table to file,users should could have a separator of their own choice – ASF JIRA
By default,when output hive table to file ,columns of the Hive table are separated by ^A character (that is \001). 继续阅读“[HIVE-3682] when output hive table to file,users should could have a separator of their own choice – ASF JIRA”
hive导出查询文件到本地文件的2种办法 – 其他综合 – 红黑联盟
Hive三种不同的数据导出的方式-helianthus_lu-ChinaUnix博客
Hive三种不同的数据导出的方式,根据导出的地方不一样,将这些方法分为三类: 继续阅读“Hive三种不同的数据导出的方式-helianthus_lu-ChinaUnix博客”
hive中的local mr – 东杰书屋 – 博客频道 – CSDN.NET
在hive中运行的sql有很多是比较小的sql,数据量小,计算量小.这些比较小的sql如果也采用分布式的方式来执行,那么是得不偿失的.因为sql真正执行的时间可能只有10秒,但是分布式任务的生成得其他过程的执行可能要1分钟.这样的小任务更适合采用lcoal mr的方式来执行.就是在本地来执行,通过把输入数据拉回客户端来执行. 继续阅读“hive中的local mr – 东杰书屋 – 博客频道 – CSDN.NET”
五个部署Hyper-v的常见错误. – 许珈毓的技术思考 – 51CTO技术博客
做了一个Hyper-V的方案, 请教一些问题 – 虚拟化论坛 – 51CTO技术论坛_中国领先的IT技术社区
mahout0.9 聚类小实验 – 插肩美女不屑看,三千码友在身旁 – 开源中国社区
原数据有两列。第一列是打电话总时长,第二列是打电话占打接电话比。两列数据都已经标准化过了。一开始是逗号分割,每行两个数字。
拿到数据后,先使用R来看一下,毕竟只有两个维度,plot一下就好了。 继续阅读“mahout0.9 聚类小实验 – 插肩美女不屑看,三千码友在身旁 – 开源中国社区”
为 Mahout 增加聚类评估功能
聚类算法及聚类评估 Silhouette 简介
聚类算法简介
聚类(clustering)是属于无监督学习(Unsupervised learning)的一种,用来把一组数据划分为几类,每类中的数据尽可能的相似,而不同类之间尽可能的差异最大化。通过聚类,可以为样本选取提供参考,或进行根源分析,或作为其它算法的预处理步骤。 继续阅读“为 Mahout 增加聚类评估功能”
hadoop常见错误及解决办法! – 心如大海 – ITeye技术网站
Answer:
程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。 继续阅读“hadoop常见错误及解决办法! – 心如大海 – ITeye技术网站”
hadoop遇到的问题 – dandingyy – 博客园
装好hadoop,但是一直出现问题,总结如下:
排错到现在,最大的感觉是,也许你的错误表象跟网上说的一样,但是解决方法会大有不同,只能说这种错误是同一问题(如namenode出错)导致,但是究竟是什么行为导致这个问题,每个人也许都不相同,所以重点是找到自己的操作时的错误所在 继续阅读“hadoop遇到的问题 – dandingyy – 博客园”
湖南IPTV 6月用户行为数据分析报告 – 推酷
【流媒体网】消息 【说明:本报告数据均来自平台所有用户基于IPTV产品的所有使用记录,包括各项功能的使用、内容产品的收看、平台应用产品的使用,所有数据客观、真实、准确。】
第一部分 平台发展导视 继续阅读“湖南IPTV 6月用户行为数据分析报告 – 推酷”
linux中iptables开启后pptp vpn拨号失败解决办法-linux-操作系统-壹聚教程网
配置Linux防火墙使PPTPVPN协议可穿透-ChinaUnix操作系统频道
PPTP VPN在默认的Linux防火墙下是无法穿透的,而SSL VPN则可以,为了能透过Linux防火墙拨号到其后的PPTP VPN服务器,必须在Linux防火墙上安装netfilter的patch-o-matic-ng补丁。 继续阅读“配置Linux防火墙使PPTPVPN协议可穿透-ChinaUnix操作系统频道”
终于知道VPN经常连不上的原因了_KylinHuang_新浪博客
搭建的PPTP的VPN在公司连经常报619错误,花费了我很多时间去解决。 继续阅读“终于知道VPN经常连不上的原因了_KylinHuang_新浪博客”
hadoop与DNS与IP解析 – ITeye问答
现在我的hadoop搭建完毕后,mapreduce无法完成。 继续阅读“hadoop与DNS与IP解析 – ITeye问答”
hadoop必须使用主机名,用ip不行
最近在配置hadoop,发现要修改/etc/sysconfig/network,中的hostname,然后还要修改/etc/hosts中的hostname和ip的对应关系,最后在hadoop各配置文件中应用hostname。如果不这样做就会导致各种莫名其妙的问题,比如:
1.用jps查看namenode和datanode正常启动,但是用hadoop dfsadmin -report查看结果全是0,NaN,就是说硬盘容量没有正确识别。
2.web ui中看到的live nodes 是0。
3.有可能还会造成safe mode on。
结论:目前的版本hadoop2.7.1必须用hostname进行通信,用ip就出问题,无法正常使用,完全不行。
pptpd架设VPN遇到的问题 – Blog – DannySite
原来架设过VPN且没有遇到任何问题,不过这次运气就没那么好了,折腾了老半天才解决。 继续阅读“pptpd架设VPN遇到的问题 – Blog – DannySite”