hive中的local mr – 东杰书屋 – 博客频道 – CSDN.NET

在hive中运行的sql有很多是比较小的sql,数据量小,计算量小.这些比较小的sql如果也采用分布式的方式来执行,那么是得不偿失的.因为sql真正执行的时间可能只有10秒,但是分布式任务的生成得其他过程的执行可能要1分钟.这样的小任务更适合采用lcoal mr的方式来执行.就是在本地来执行,通过把输入数据拉回客户端来执行. 继续阅读“hive中的local mr – 东杰书屋 – 博客频道 – CSDN.NET”

五个部署Hyper-v的常见错误. – 许珈毓的技术思考 – 51CTO技术博客

微软的Hyper-v使用已经非常容易了,它不需要有专门的技能,就可以设置一个虚拟机的启动和运行,即便有安装向导和最佳实践,但是还是有人会犯一些常识性的错误.以下五个常见的错误是我看见很多人在部署Hyper-v时常犯的,我们如何去避免它们呢? 继续阅读“五个部署Hyper-v的常见错误. – 许珈毓的技术思考 – 51CTO技术博客”

mahout0.9 聚类小实验 – 插肩美女不屑看,三千码友在身旁 – 开源中国社区

原数据有两列。第一列是打电话总时长,第二列是打电话占打接电话比。两列数据都已经标准化过了。一开始是逗号分割,每行两个数字。

拿到数据后,先使用R来看一下,毕竟只有两个维度,plot一下就好了。 继续阅读“mahout0.9 聚类小实验 – 插肩美女不屑看,三千码友在身旁 – 开源中国社区”

为 Mahout 增加聚类评估功能

聚类算法及聚类评估 Silhouette 简介

聚类算法简介

聚类(clustering)是属于无监督学习(Unsupervised learning)的一种,用来把一组数据划分为几类,每类中的数据尽可能的相似,而不同类之间尽可能的差异最大化。通过聚类,可以为样本选取提供参考,或进行根源分析,或作为其它算法的预处理步骤。 继续阅读“为 Mahout 增加聚类评估功能”

hadoop常见错误及解决办法! – 心如大海 – ITeye技术网站

1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out

Answer:

程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。 继续阅读“hadoop常见错误及解决办法! – 心如大海 – ITeye技术网站”

hadoop遇到的问题 – dandingyy – 博客园

装好hadoop,但是一直出现问题,总结如下:

排错到现在,最大的感觉是,也许你的错误表象跟网上说的一样,但是解决方法会大有不同,只能说这种错误是同一问题(如namenode出错)导致,但是究竟是什么行为导致这个问题,每个人也许都不相同,所以重点是找到自己的操作时的错误所在 继续阅读“hadoop遇到的问题 – dandingyy – 博客园”

linux中iptables开启后pptp vpn拨号失败解决办法-linux-操作系统-壹聚教程网

现在如果各位想上上国外网站就必须得使用vpn之类的工具上网看看了,这种配置一般在linux系统中操作,但小编碰到一个问题就是把linux iptables防火墙开启后vpn无法正常使用了,那么这个问题怎么处理呢。 继续阅读“linux中iptables开启后pptp vpn拨号失败解决办法-linux-操作系统-壹聚教程网”

hadoop必须使用主机名,用ip不行

最近在配置hadoop,发现要修改/etc/sysconfig/network,中的hostname,然后还要修改/etc/hosts中的hostname和ip的对应关系,最后在hadoop各配置文件中应用hostname。如果不这样做就会导致各种莫名其妙的问题,比如:
1.用jps查看namenode和datanode正常启动,但是用hadoop dfsadmin -report查看结果全是0,NaN,就是说硬盘容量没有正确识别。
2.web ui中看到的live nodes 是0。
3.有可能还会造成safe mode on。
结论:目前的版本hadoop2.7.1必须用hostname进行通信,用ip就出问题,无法正常使用,完全不行。

[信息图]一张图全面了解JavaScript_软件和应用_cnBeta.COM

不管在TIOBE Index的排行如何,JavaScript依然是时下炙手可热的编程语言。而这种流行程度事实上得来不易,该编程语言曾出现过发布四年无任何新增功能的休眠时期,尽管如此,开发者对这款编程语言依然趋之若鹜,主要是很多技术都在JavaScript的基础上研发,其中典型的例子就是Node.js。 继续阅读“[信息图]一张图全面了解JavaScript_软件和应用_cnBeta.COM”

中国整顿VPN 日媒:与美国争夺网络主导权_新浪新闻

参考消息网1月30日报道 日媒称,中国的“防火长城”存在了多久,人们用虚拟专用网络(VPN)来“翻墙”——绕过屏蔽特定网站(从推特、脸书到《纽约时报》)的中国网络审查制度——的时间就有多久。使用VPN是个公开的秘密,北京显然(尽管不情不愿)容忍了这种做法。北京和上海等地某些豪华酒店甚至向客人提供VPN上网服务。 继续阅读“中国整顿VPN 日媒:与美国争夺网络主导权_新浪新闻”