大数据、数据挖掘、云计算、机器学习 – 第 14 页

用 Hadoop 进行分布式并行编程, 第 1 部分

基本概念与安装部署

Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架，借助于 Hadoop, 程序员可以轻松地编写分布式并行程序，将其运行于计算机集群上，完成海量数据的计算。本文将介绍 MapReduce 计算模型，分布式并行计算等基本概念，以及 Hadoop 的安装部署和基本运行方法。

继续阅读“用 Hadoop 进行分布式并行编程, 第 1 部分”

hadoop的编程实例 – penghuaiyi – ITeye技术网站

从网上搜到的一篇hadoop的编程实例，对于初学者真是帮助太大了，看过以后对MapReduce编程基本有了大概的了解。看了以后受益匪浅啊，赶紧保存起来。继续阅读“hadoop的编程实例 – penghuaiyi – ITeye技术网站”

IBM超级计算机沃森将分析你的个性_IBM_cnBeta.COM

IBM超级计算机沃森现在可以分析人类的个性了。沃森可以根据自己读取的文字片段来分析作者的个性，但是是否真的符合作者实际个性又是另一回事。这是计算机预测和分析的最新例证。沃森掌握的该技术被称为“个性见解”，顾名思义，它通过读取测试者的博文或者推文，试图深入了解一个人的个性。就目前的情况来看，沃森更喜欢一些非正式的文字或者文章，而不是报告或其他书面严肃文字。

继续阅读“IBM超级计算机沃森将分析你的个性_IBM_cnBeta.COM”

能准确感知你情绪的人工智能 IBM初试智能社交_IBM_cnBeta.COM

E-Mail能体会到你的感情吗？IBM说，是的它真的可以。每个人都会有那么一两封让你后悔不迭、恨不得从来没有发出去的邮件，明明想表达的是另一个意思，却由于措辞不当遭受误解，甚至引发争吵。不过，随着IBM这款人工智能分析工具的诞生，这种经历或许要成为历史了。

继续阅读“能准确感知你情绪的人工智能 IBM初试智能社交_IBM_cnBeta.COM”

Hadoop的学习前奏 – 今日头条(TouTiao.com)

笔者目前是在做Android开发，又是在一个信息安全的公司。公司的主要是做在虚拟机上运行的产品，又涉猎云计算，心想是要去搞一下云计算。自我感觉移动互联网 + 云计算 + 信息安全会是一个很好的方向，于是投身其中。因为是Java出身，所以自然而然选择了Hadoop

继续阅读“Hadoop的学习前奏 – 今日头条(TouTiao.com)”

大数据的梦想与现实（上）：大数据技术篇 – 今日头条(TouTiao.com)

本报告来自于弘则弥道（上海）投资咨询有限公司，36大数据在此只做分享，不代表本站观点。

云计算是大数据的一种应用形式 继续阅读“大数据的梦想与现实（上）：大数据技术篇 – 今日头条(TouTiao.com)”

单身数学家如何通过数据挖掘找真爱

凌晨三点，在加州大学洛杉矶分校（UCLA）数学系大楼五楼的一个拥挤小隔间里，只有一只灯泡和一台计算机的屏幕发出光亮。克里斯·麦金利（Chris McKinlay）正在为他的博士论文《大规模数据处理和并行数值方法》跑程序。计算机发出嘎嚓声，他点击打开第二个窗口，检查了一下他在交友网站OkCupid的收件箱。继续阅读“单身数学家如何通过数据挖掘找真爱”

腾讯高级工程师赵伟：HIVE在腾讯分布式数据仓库实践-CSDN.NET

【CSDN现场报道】中国IT界技术盛会——Hadoop与大数据技术大会（Hadoop&BigData Technology Conference 2012，HBTC 2012）于2012年11月30日-12月1日在北京新云南皇冠假日酒店隆重召开。本次大会以“大数据共享与开放技术”为主题，聚焦于Hadoop与大数据，力邀数十位国内外Hadoop及大数据技术应用的产学界人士和实践企业，探讨大数据技术生态系统的现状和发展趋势，并围绕Hadoop与大数据热点技术和应用实践进行深入解析。继续阅读“腾讯高级工程师赵伟：HIVE在腾讯分布式数据仓库实践-CSDN.NET”

使用Weka进行数据挖掘-chaoshua-ChinaUnix博客

1.简介

数据挖掘、机器学习这些字眼，在一些人看来，是门槛很高的东西。诚然，如果做算法实现甚至算法优化，确实需要很多背景知识。但事实是，绝大多数数据挖掘工程师，不需要去做算法层面的东西。他们的精力，集中在特征提取，算法选择和参数调优上。那么，一个可以方便地提供这些功能的工具，便是十分必要的了。而weka，便是数据挖掘工具中的佼佼者。继续阅读“使用Weka进行数据挖掘-chaoshua-ChinaUnix博客”

使用mahout做海量数据关联规则挖掘 – Mahout数据挖掘-炼数成金-Dataguru专业数据分析社区

weka方便实用，但不能处理大数据集，因为内存放不下，给它再多的时间也是无用，因此需要进行分布式计算，mahout是一个基于hadoop的分布式数据挖掘开源项目（mahout本来是指一个骑在大象上的人）。继续阅读“使用mahout做海量数据关联规则挖掘 – Mahout数据挖掘-炼数成金-Dataguru专业数据分析社区”

Weka中BP神经网络的实践（参数调整以及结果分析） – 懒惰啊我 – 博客园

周日讲了下神经网络，本来想的是以理论和实践相结合，前面讲讲神经网络，后面简单讲下在weka中怎么使用BP神经网络，可惜最后时间不够，而且姥姥的兴趣点跑到凸优化那里去了，所以没有讲成实践的部分，有点郁闷的。为了不浪费了，就把这部分讲稿拿出来和大家分享一下，也希望对大家实践神经网络有所帮助。因为是讲稿，讲的要比写的多，所以很多地方口语化和省略比较严重，大家凑合着看吧。继续阅读“Weka中BP神经网络的实践（参数调整以及结果分析） – 懒惰啊我 – 博客园”

hadoop MapReduce实例解析 – 推酷

1、MapReduce理论简介

1.1 MapReduce编程模型

MapReduce采用”分而治之”的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个分节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。简单地说，MapReduce就是”任务的分解与结果的汇总”。继续阅读“hadoop MapReduce实例解析 – 推酷”

分类：大数据、数据挖掘、云计算、机器学习