Apache Spark源码走读之7 — Standalone部署方式分析 – 徽沪一郎 – 博客园

在Spark源码走读系列之2中曾经提到Spark能以Standalone的方式来运行cluster,但没有对Application的提交与具体运行流程做详细的分析,本文就这些问题做一个比较详细的分析,并且对在standalone模式下如何实现HA进行讲解。 继续阅读“Apache Spark源码走读之7 — Standalone部署方式分析 – 徽沪一郎 – 博客园”

Spark 部署及示例代码讲解

本文介绍了如何下载、部署 Spark 及示例代码的运行。此外,深入介绍了运行代码的过程、脚本内容,通过这些介绍力求让读者可以快速地上手 Spark。目前市面上发布的 Spark 中文书籍对于初学者来说大多较为难读懂,作者力求推出一系列 Spark 文章,让读者能够从实际入手的角度来了解 Spark。后续除了应用之外的文章,还会致力于基于 Spark 的系统架构、源代码解释等方面的文章发布。

周 明耀, 技术爱好者、自由撰稿人, Hik Vision

2015 年 6 月 11 日

  • +内容

继续阅读“Spark 部署及示例代码讲解”

董的博客 » Apache Spark探秘:三种分布式部署方式比较

目前Apache Spark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARN,其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资源管理,后两种则是未来发展的趋势,部分容错性和资源管理交由统一的资源管理系统完成:让Spark运行在一个通用的资源管理系统之上,这样可以与其他计算框架,比如MapReduce,公用一个集群资源,最大的好处是降低运维成本和提高资源利用率(资源按需分配)。本文将介绍这三种部署方式,并比较其优缺点。 继续阅读“董的博客 » Apache Spark探秘:三种分布式部署方式比较”

Spark:Yarn-cluster和Yarn-client区别与联系 – 过往记忆

Hadoop、Hive、Hbase、Flume等QQ交流群:138615359(已满),请加入新群:149892483

2014 Spark亚太峰会会议资料下载、《Hadoop从入门到上手企业开发视频下载[70集]》、《炼数成金-Spark大数据平台视频百度网盘免费下载》、《Spark 1.X 大数据平台V2百度网盘下载[完整版]》、《深入浅出Hive视频教程百度网盘免费下载》 继续阅读“Spark:Yarn-cluster和Yarn-client区别与联系 – 过往记忆”

Spark部署及应用 – – IT之家

——访Spark亚太研究院院长、首席专家王家林

大数据时代,Spark是继Hadoop之后,成为替代Hadoop的下一代云计算大数据核心技术,目前Spark已经构建了自己的整个大数据处理生态系统,如流处理、图技术、机器学习、NoSQL查询等方面都有自己的技术,并且是Apache顶级Project,可以预计的是2014年下半年到2015年Spark在社区和商业应用上会有爆发式的增长。目前Spark的技术在国内还属于起步阶段,为了更好地帮助大家了解Spark技术特点及应用前景,我们走访了Spark亚太研究院的院长王家林。 继续阅读“Spark部署及应用 – – IT之家”

Spark技术解析及其在百度最大千台单集群的应用实践-CSDN.NET

摘要:2015年1月10日,一场基于Spark的高性能应用实践盛宴由Databricks软件工程师连城、百度高级工程师甄鹏、百度架构师孙垚光、百度美国研发中心高级架构师刘少山四位专家联手打造。 继续阅读“Spark技术解析及其在百度最大千台单集群的应用实践-CSDN.NET”

(转)Mahout使用入门 – 风生水起 – 博客园

一、简介

Mahout Apache Software FoundationASF)旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Apache Mahout项目已经发展到了它的第三个年头,目前已经有了三个公共发行版本。 继续阅读“(转)Mahout使用入门 – 风生水起 – 博客园”

mahout简单入门 – datafans – 开源中国社区

export HADOOP_HOME=/usr/local/hadoop-single

———————————————————–cluster—————— ———————————-

bin/hadoop fs -put /opt/synthetic_control.data testdata/synthetic_control.data

bin/hadoop jar /usr/local/mahout/mahout-examples-0.8-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

bin/hadoop jar /usr/local/mahout/mahout-examples-0.8-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job -i /user/demo/synthetic_control.data -o /user/demo/kmeans-output

也可以在eclipse中直接运行测试

将序列文件导出查看 加上–pointsDir 就会导出所有点的集合 如果不加 就只有分类后的说明 继续阅读“mahout简单入门 – datafans – 开源中国社区”

一个国产数据库一体机厂商战胜大牛的故事 – IT国内新闻 — C114(中国通信网)

一个名不见经传的数据库一体机国产厂商,居然在电信运营商的竞标中战胜Oracle、华为这样的大牛与高手,讲来或许大家不一定相信,但已经成为事实。故事就从叶大拿说起吧……

那天,天刚朦朦亮,他就醒了。

和许多技术人一样,他习惯晚睡晚起,可是最近有一件重要的事情没有落实,也就睡不踏实。 继续阅读“一个国产数据库一体机厂商战胜大牛的故事 – IT国内新闻 — C114(中国通信网)”

Hadoop能做什么 – 大数据那些事儿 – 博客频道 – CSDN.NET

Hadoop能做什么?” ,概括如下:

1、搜索引擎(Doug Cutting  设计Hadoop的初衷,为了针对大规模的网页快速建立索引)。

2、数据存储,利用Hadoop的分布式存储能力,例如数据备份、数据等。

3、数据处理,利用Hadoop的分布式处理能力,例如数据挖掘、数据分析等。

4、科学研究,Hadoop是一种分布式的开源框架,对于分布式计算有很大程度地参考价值。 继续阅读“Hadoop能做什么 – 大数据那些事儿 – 博客频道 – CSDN.NET”

用Hadoop 还是不用Hadoop?_数据库/开发_比特网

 Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。 当人们提到“大数据”或是“数据分析”等相关问题的时候,会听到脱口而出的回答:Hadoop!实际上Hadoop被设计和建造出来,是用来解决一系列特 定问题的。对某些问题来说,Hadoop至多算是一个不好的选择。对另一些问题来说,选择Hadoop甚至会是一个错误。对于数据转换的操作,或者更广泛 意义上的抽取-转换-装载的操作(译者注:Extraction Transformation Load,ETL,数据仓库中对数据从初始状态到可用状态处理过程的经典定义), 使用Hadoop系统能够得到很多好处, 但是如果你的问题是下面5类之中的一个的话,Hadoop可能会是一不合适的解决方案。 继续阅读“用Hadoop 还是不用Hadoop?_数据库/开发_比特网”

数据控使用Hadoop的三种最常用方式-CSDN.NET

摘要:随着Hadoop技术的发展,从最初为Google、Facebook等公司解决大量数据的存储问题,到现在被越来越多企业用来处理大数据,Hadoop在企业数据领域影响深远。了解其常见的使用模式,可以极大地降低使用复杂性。

继续阅读“数据控使用Hadoop的三种最常用方式-CSDN.NET”