分类: 大数据、数据挖掘、云计算、机器学习
Apache Spark源码走读之7 — Standalone部署方式分析 – 徽沪一郎 – 博客园
在Spark源码走读系列之2中曾经提到Spark能以Standalone的方式来运行cluster,但没有对Application的提交与具体运行流程做详细的分析,本文就这些问题做一个比较详细的分析,并且对在standalone模式下如何实现HA进行讲解。 继续阅读“Apache Spark源码走读之7 — Standalone部署方式分析 – 徽沪一郎 – 博客园”
Spark 部署及示例代码讲解
本文介绍了如何下载、部署 Spark 及示例代码的运行。此外,深入介绍了运行代码的过程、脚本内容,通过这些介绍力求让读者可以快速地上手 Spark。目前市面上发布的 Spark 中文书籍对于初学者来说大多较为难读懂,作者力求推出一系列 Spark 文章,让读者能够从实际入手的角度来了解 Spark。后续除了应用之外的文章,还会致力于基于 Spark 的系统架构、源代码解释等方面的文章发布。
1 评论:
董的博客 » Apache Spark探秘:三种分布式部署方式比较
目前Apache Spark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARN,其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资源管理,后两种则是未来发展的趋势,部分容错性和资源管理交由统一的资源管理系统完成:让Spark运行在一个通用的资源管理系统之上,这样可以与其他计算框架,比如MapReduce,公用一个集群资源,最大的好处是降低运维成本和提高资源利用率(资源按需分配)。本文将介绍这三种部署方式,并比较其优缺点。 继续阅读“董的博客 » Apache Spark探秘:三种分布式部署方式比较”
Spark:Yarn-cluster和Yarn-client区别与联系 – 过往记忆
Hadoop、Hive、Hbase、Flume等QQ交流群:138615359(已满),请加入新群:149892483
2014 Spark亚太峰会会议资料下载、《Hadoop从入门到上手企业开发视频下载[70集]》、《炼数成金-Spark大数据平台视频百度网盘免费下载》、《Spark 1.X 大数据平台V2百度网盘下载[完整版]》、《深入浅出Hive视频教程百度网盘免费下载》 继续阅读“Spark:Yarn-cluster和Yarn-client区别与联系 – 过往记忆”
Spark On YARN 集群安装部署 | Jark’s Blog
最近毕设需要用到 Spark 集群,所以就记录下了部署的过程。我们知道 Spark 官方提供了三种集群部署方案: Standalone, Mesos, YARN。其中 Standalone 最为方便,本文主要讲述结合 YARN 的部署方案。 继续阅读“Spark On YARN 集群安装部署 | Jark’s Blog”
Spark部署及应用 – – IT之家
——访Spark亚太研究院院长、首席专家王家林
大数据时代,Spark是继Hadoop之后,成为替代Hadoop的下一代云计算大数据核心技术,目前Spark已经构建了自己的整个大数据处理生态系统,如流处理、图技术、机器学习、NoSQL查询等方面都有自己的技术,并且是Apache顶级Project,可以预计的是2014年下半年到2015年Spark在社区和商业应用上会有爆发式的增长。目前Spark的技术在国内还属于起步阶段,为了更好地帮助大家了解Spark技术特点及应用前景,我们走访了Spark亚太研究院的院长王家林。 继续阅读“Spark部署及应用 – – IT之家”
Spark技术解析及其在百度最大千台单集群的应用实践-CSDN.NET
摘要:2015年1月10日,一场基于Spark的高性能应用实践盛宴由Databricks软件工程师连城、百度高级工程师甄鹏、百度架构师孙垚光、百度美国研发中心高级架构师刘少山四位专家联手打造。 继续阅读“Spark技术解析及其在百度最大千台单集群的应用实践-CSDN.NET”
Spark安装与学习 – JerryLead – 博客园
摘要:Spark是继Hadoop之后的新一代大数据分布式处理框架,由UC Berkeley的Matei Zaharia主导开发。我只能说是神一样的人物造就的神器, 继续阅读“Spark安装与学习 – JerryLead – 博客园”
巧用云平台简化Spark集群与大数据部署 – 51CTO.COM
在日前于旧金山举办的Spark 2014峰会上,Databricks公司CEO Ion Stoica通过主题演讲公布了Databricks云——这是一套以Apache Spark开源处理引擎为核心构建而成的云平台,专门负责大数据处理工作。 继续阅读“巧用云平台简化Spark集群与大数据部署 – 51CTO.COM”
sqoop实现Mysql、Oracle与hdfs之间数据的互导 – zhangwx的专栏 – 博客频道 – CSDN.NET
SQOOP的描述
SQOOP是用于对数据进行导入导出的。 继续阅读“sqoop实现Mysql、Oracle与hdfs之间数据的互导 – zhangwx的专栏 – 博客频道 – CSDN.NET”
Spark集群部署 – zhangwx的专栏 – 博客频道 – CSDN.NET
Spark 集群
集群环境
基于hadoop集群64bit(hadoop2.5.1、jdk1.7)
CentOS 6.4下安装配置Spark-0.9集群 继续阅读“Spark集群部署 – zhangwx的专栏 – 博客频道 – CSDN.NET”
Storm集群安装部署步骤【详细版】 – 大圆那些事 – 博客园
本文以Twitter Storm官方Wiki为基础,详细描述如何快速搭建一个Storm集群,其中,项目实践中遇到的问题及经验总结,在相应章节以“注意事项”的形式给出。
Storm集群部署 – zhangwx的专栏 – 博客频道 – CSDN.NET
1. Storm集群组件
Storm集群中包含两类节点:主控节点(Master Node)和工作节点(Work
(转)Mahout使用入门 – 风生水起 – 博客园
一、简介
Mahout 是 Apache Software Foundation(ASF)旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Apache Mahout项目已经发展到了它的第三个年头,目前已经有了三个公共发行版本。 继续阅读“(转)Mahout使用入门 – 风生水起 – 博客园”
mahout简单入门 – datafans – 开源中国社区
export HADOOP_HOME=/usr/local/hadoop-single
———————————————————–cluster—————— ———————————-
bin/hadoop fs -put /opt/synthetic_control.data testdata/synthetic_control.data
bin/hadoop jar /usr/local/mahout/mahout-examples-0.8-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
bin/hadoop jar /usr/local/mahout/mahout-examples-0.8-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job -i /user/demo/synthetic_control.data -o /user/demo/kmeans-output
也可以在eclipse中直接运行测试
将序列文件导出查看 加上–pointsDir 就会导出所有点的集合 如果不加 就只有分类后的说明 继续阅读“mahout简单入门 – datafans – 开源中国社区”
一个国产数据库一体机厂商战胜大牛的故事 – IT国内新闻 — C114(中国通信网)
一个名不见经传的数据库一体机国产厂商,居然在电信运营商的竞标中战胜Oracle、华为这样的大牛与高手,讲来或许大家不一定相信,但已经成为事实。故事就从叶大拿说起吧……
那天,天刚朦朦亮,他就醒了。
和许多技术人一样,他习惯晚睡晚起,可是最近有一件重要的事情没有落实,也就睡不踏实。 继续阅读“一个国产数据库一体机厂商战胜大牛的故事 – IT国内新闻 — C114(中国通信网)”
Hadoop能做什么 – 大数据那些事儿 – 博客频道 – CSDN.NET
“Hadoop能做什么?” ,概括如下:
1、搜索引擎(Doug Cutting 设计Hadoop的初衷,为了针对大规模的网页快速建立索引)。
2、大数据存储,利用Hadoop的分布式存储能力,例如数据备份、数据仓库等。
3、大数据处理,利用Hadoop的分布式处理能力,例如数据挖掘、数据分析等。
4、科学研究,Hadoop是一种分布式的开源框架,对于分布式计算有很大程度地参考价值。 继续阅读“Hadoop能做什么 – 大数据那些事儿 – 博客频道 – CSDN.NET”
用Hadoop 还是不用Hadoop?_数据库/开发_比特网
Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。 当人们提到“大数据”或是“数据分析”等相关问题的时候,会听到脱口而出的回答:Hadoop!实际上Hadoop被设计和建造出来,是用来解决一系列特 定问题的。对某些问题来说,Hadoop至多算是一个不好的选择。对另一些问题来说,选择Hadoop甚至会是一个错误。对于数据转换的操作,或者更广泛 意义上的抽取-转换-装载的操作(译者注:Extraction Transformation Load,ETL,数据仓库中对数据从初始状态到可用状态处理过程的经典定义), 使用Hadoop系统能够得到很多好处, 但是如果你的问题是下面5类之中的一个的话,Hadoop可能会是一不合适的解决方案。 继续阅读“用Hadoop 还是不用Hadoop?_数据库/开发_比特网”