什么是Mahout?
” Apache Mahout™ project’s goal is to build a scalable machine learning library ”
我来拓展一下:
(1) Mahout 是Apache旗下的开源项目,集成了大量的机器学习算法。
(2) 大部分算法,可以运行在Hadoop上,具有很好的拓展性,使得大数据上的机器学习成为可能。 继续阅读“Mahout – Clustering (聚类篇) | 四号程序员”
代码剪辑,记录代码人生的点点滴滴!
什么是Mahout?
” Apache Mahout™ project’s goal is to build a scalable machine learning library ”
我来拓展一下:
(1) Mahout 是Apache旗下的开源项目,集成了大量的机器学习算法。
(2) 大部分算法,可以运行在Hadoop上,具有很好的拓展性,使得大数据上的机器学习成为可能。 继续阅读“Mahout – Clustering (聚类篇) | 四号程序员”
1. 我在性能测试中间遇到些问题,因为我时间有限,所以希望大家一起来测试解决,群策群力。有什么问题请大家及时指出来,因为我也处在一个不断摸索的阶段。 继续阅读“▇▇▇mfs权威指南(moosefs)分布式文件系统一站式解决方案(部署,性能测试)不断更新-分布式文件系统(FastDFS)-ChinaUnix.net”
最近在看存储相关的知识,这篇文章不错,贴过来保存 继续阅读“[分布式 文件系统] 分布式文件系统Nutch和coda-存储备份-ChinaUnix.net”
Contents [hide]
GlusterFS源码解析—— GlusterFS 命令行常见错误 继续阅读“GlusterFS源码解析—— GlusterFS 命令行常见异常 – 综合”
由于业务需要,对多台服务器进行数据的同步访问,使用glusterfs非常适合我们的业务需求。 继续阅读“hugwww-centos6.5下安装配置gluster集成文件系统 | 高进波Linux博客”
之前有折腾过《CentOS 6、7下IPSEC/L2TP VPN一键安装脚本》,不稳定、不支持IOS,因此换成pptp,并已经添加到《lnmp一键安装包》。这个脚本可以单独使用,直接复制或下载执行即可,不用依赖安装包的其它脚本。 继续阅读“CentOS 6、7下pptp vpn一键安装脚本 | Linux运维笔记”
网络文件系统(Network File System,NFS)是大多数局域网(LAN)的重要组成部分。但 NFS 不适用于高性能计算中苛刻的输入输出密集型应用程序,至少以前是这样。NFS 标准的最新修改纳入了 Parallel NFS(pNFS),它是文件共享的并行实现,将传输速率提高了几个数量级。 继续阅读“文件系统pNFS的由来 – 51CTO.COM”
分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机/服务器模式。一个典型的网络可能包括多个供多用户访问的服务器。另外,对等特性允许一些系统扮演客户机和服务器的双重角色。 继续阅读“分布式文件系统 – 51CTO.COM”
MooseFS 很不错,已经实用了半月了,易用,稳定,对小文件很高效。 继续阅读“分布式文件系统试用比较 – 51CTO.COM”
OpenAFS是一套开放源代码的分布式文件系统,允许系统之间通过局域和广域网来分享档案和资源。 继续阅读“分布式文件系统OpenAFS简介 – 51CTO.COM”
HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,坦白说HDFS是一个不错的分布式文件系统,它有很多的优点,但也存在有一些缺点,包括:不适合低延迟数据访问、无法高效存储大量小文件、不支持多用户写入及任意修改文件。
Apache软件基金会成立的时候,HDFS就一直在想办法提高它的性能和可用性,坦白说,这也许对试点项目、非常规项目、要求不严格的大环境中比较适用,但是对于某些Hadoop用户来说,他们对于性能、可用性、企业级特性有较高的要求,且注重直接附加存储(DAS)架构,特别是老版本的Hadoop没有高性能的主节点,那么接下来8个产品就是代替HDFS的绝佳方案。 继续阅读“Hadoop危机?替代HDFS的8个绝佳方案 – 51CTO.COM”
在大数据背景下,Apache Hadoop已经逐渐成为一种标签性,业界对于这一开源分布式技术的了解也在不断加深。但谁才是Hadoop的最大用户呢?首先想到的当然是它的“发源地”,像Google这样的大型互联网搜索引擎,以及Yahoo专门的广告分析系统。也许你会认为,Hadoop平台发挥作用的领域是互联网行业,用来改善分析性能并提高扩展性。其实Hadoop的应用场景远不止这一点,深入挖掘的话你会发现Hadoop能够在许多地方发挥巨大的作用。 继续阅读“Hadoop的十大应用场景 – 51CTO.COM”
现如今,Apache Hadoop已经无人不知无人不晓。当年雅虎搜索工程师Doug Cutting开发出这个用以创建分布式计算机环境的开源软件库,并以自己儿子的大象玩偶为其命名的时候,谁能想到它有一天会占据“大数据”技术的头把交椅呢。
到目前为止,我们谈到Hadoop是一个创建分布式集群的框架,能够处理大的、不同的数据集。然而,另一个说法是将Hadoop理解为一个存储设备或存储环境。确实,它是一个能够在其上创建应用的平台,有存储PB级数据的能力。此外,它能够处理并分析数据;提供越来越多的“大数据”应用结果。(不可否认,这正是一个以存储为中心的Hadoop架构观点。) 继续阅读“Hadoop架构中的HDFS和NameNode – 51CTO.COM”
分布式文件系统是微软服务器中很重要的一项功能。通过分布式文件系统网络管理员可以将服务器文件分散存储到网络上的多台服务器上,以提高服务器性能并增强服务器的容错性。最重要的是,这对于普通用户来说是透明的,用户只需要从一个地点访问这些文件即可。 继续阅读“部署分布式文件系统需要注意什么? – 51CTO.COM”