把Nutch爬虫部署到Hadoop集群上 – 灵魂机器

软件版本:Nutch 1.7, Hadoop 1.2.1, CentOS 6.5, JDK 1.7

前面的3篇文章中,Nutch 快速入门(Nutch 1.7),Nutch 快速入门(Nutch 2.2.1),在Eclipse里运行Nutch,Nutch都是跑在单机上,本文把Nutch部署到Hadoop集群上,在真正的分布式Hadoop集群上跑。 继续阅读“把Nutch爬虫部署到Hadoop集群上 – 灵魂机器”

搜索引擎选择: Elasticsearch与Solr – 心随梦飞[周路敏] – 博客园

搜索引擎选型调研文档

Elasticsearch简介*

Elasticsearch是一个实时的分布式搜索和分析引擎。它可以帮助你用前所未有的速度去处理大规模数据。

它可以用于全文搜索,结构化搜索以及分析,当然你也可以将这三者进行组合。

Elasticsearch是一个建立在全文搜索引擎 Apache Lucene™ 基础上的搜索引擎,可以说Lucene是当今最先进,最高效的全功能开源搜索引擎框架。

但是Lucene只是一个框架,要充分利用它的功能,需要使用JAVA,并且在程序中集成Lucene。需要很多的学习了解,才能明白它是如何运行的,Lucene确实非常复杂。

Elasticsearch使用Lucene作为内部引擎,但是在使用它做全文搜索时,只需要使用统一开发好的API即可,而不需要了解其背后复杂的Lucene的运行原理。 继续阅读“搜索引擎选择: Elasticsearch与Solr – 心随梦飞[周路敏] – 博客园”

基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎-Hadoop大数据架构-about云开发

问题导读:

1.网络爬虫、分布式数据库、搜索引擎之间的关系是什么?

2.本文网络爬虫架构是什么?

3.扩展:基于网络爬虫是否有其它架构?

网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,用来对网络爬虫抓取到的网络资源进行实时的索引和搜索。 继续阅读“基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎-Hadoop大数据架构-about云开发”

Cassandra与HBase的大数据对决 谁是胜者?

众多基于Bigtable技术的开源项目正在通过不同的方式实现高扩展性、高灵活性、分布式及宽列数据存储等功能,Cassandra和HBase就是其中的代表。

在大数据这一全新的领域里,Bigtable数据库技术非常值得我们关注,因为这一技术是由谷歌的工程发明的,而谷歌是一家公认的非常擅长管理海量数据的公司。如果你对此非常了解,那么你一家知道也熟悉Cassandra和HBase这两个Apache数据库项目。 继续阅读“Cassandra与HBase的大数据对决 谁是胜者?”

4K IPTV 机顶盒烽火HG680-J ROOT 过程记录

按照之前的方法,已经能够成功安装第三方应用,但是为了更方便更彻底的使用机顶盒,还是需要下一番功夫ROOT。这样只要有网络连接,通过ssh连接开启adbd,然后做各种操作,操作完毕关掉adbd,断开ssh连接,这是多么方便和安全,不用每次都去拆机连接ttl。烽火HG680-J 的ttl接线如下图: 继续阅读“4K IPTV 机顶盒烽火HG680-J ROOT 过程记录”

hbase hmaster启动起来就自动关闭的问题解决成功经验分享

最近对系统进行了升级,yum update,升级之后发现jps命令用不了了,最终找到问题是jps和java的连接全部失效,手动更改位置之后jps能用,但hbase还是调用原来的位置,一个个改太繁琐了,用ln jps /usr/lib/jvm/java/bin/jps重建连接之后发现该问题解决,但另几台机子还是不行,用yum remove java-1.8.0-openjdk*和yum install java-1.8.0-openjdk*重装java之后一切问题解决。还有几台机子yum update升级之后并没有产生这个问题,一切正常,不知道为什么,都是从centos6.5升级到centos6.7。

之后运行hbase发现hbase报一堆错误,大概意思就是zookeeper无法连接主机,在主机上看了下jps,发现没有hmaster这个进程,用xyhadoop/hbase-1.0.1.1/bin/hbase-daemon.sh start master启动hmaster之后,用jps看到hmaster进程,但瞬间再次用jps看的时候hmaster已经自动关闭了。 继续阅读“hbase hmaster启动起来就自动关闭的问题解决成功经验分享”

安装配置 phoenix 到 hbase 遇到的问题和成功经验分享

Phoenix 是一个开源的 SQL 封装,可以用 SQL 语法操作 HBase 这种分布式的 NoSQL 数据库。你也可以使用标准的 JDBC APIs 来取代 HBase client APIs 创建表、插入数据、查询数据等。

本教程包括如何安装 Phoenix 和使用 Phoenix 时遇到的几个问题如何解决。所用平台版本为:hadoop 2.7.1,hbase 1.0.1.1,phoenix-4.7.0-HBase-1.0。因此跟网上搜到的教程不太一样。 继续阅读“安装配置 phoenix 到 hbase 遇到的问题和成功经验分享”

Netflix的前世今生——一个硅谷创新者的坎坷历程-华尔街见闻

我在公众号investguru 上发表的文章多了后,开始有点名气,最近有机会得到一个硅谷著名的华人电视媒体人的邀请,参与一个有关财经科技电视节目的制作。她希望我能够从财经的角度,给中国的观众介绍一个更有意思的硅谷。

我们在讨论节目的选题时,聊起Netflix. 她提到她的一个朋友,当年几十块就急吼吼地把Netflix 股票卖掉了, 而现在Netflix 股价已经五百多块。

我觉得这是一个非常有意思的故事,普通人对Netflix 的历史还有许多误解,这是一个不断自我革新,修正商业模式的创新公司,把它的故事和大家讲一讲,也许会有不少启迪。 继续阅读“Netflix的前世今生——一个硅谷创新者的坎坷历程-华尔街见闻”

个人亲测。完美支持蓝光原盘的播放器-智能电视应用下载-高清范

为了找到完美支持蓝光原盘的播放器,个人亲测了不下20款播放器,终鱼亲测这款完美支持,现在分享给大家,本人用的是百度云盒4盒,不保证支持所有盒子

/ a2 [‘ f( C0 Q” P1 q0 zhttp://pan.baidu.com/share/link?shareid=386722&uk=4063596408&third=15

我本人也是亲测,我的悦me盒子可以用,rmvb、mp4、mkv、m2ts、4k h265 ts(不支持)。我找的mx player盒子上提示没有解码器,需要下载,点击下载提示找不到地址。看来以后需要主用bsplayer了。其它播放机全是垃圾,尤其是国产的那些。 继续阅读“个人亲测。完美支持蓝光原盘的播放器-智能电视应用下载-高清范”

Ambari server 和 Ambari agent 安装经验分享

Ambari 是一个基于浏览器的部署、管理、监控 hadoop 集群的工具,非常强大,使用非常简单。目前 Ambari 只支持 64位 的 linux 操作系统:

  • RHEL (Redhat Enterprise Linux) 6 and 7
  • CentOS 6 and 7
  • OEL (Oracle Enterprise Linux) 6 and 7
  • SLES (SuSE Linux Enterprise Server) 11
  • Ubuntu 12 and 14
  • Debian 7

安装方式有两种:一种是通过 yum apt 之类的工具从仓库安装;一种是通过下载源代码,自行编译安装。这里我们采用第一种方式:从仓库安装。 继续阅读“Ambari server 和 Ambari agent 安装经验分享”

实战Linux下VMware虚拟机根目录空间扩充_sharps_新浪博客

今天上午接到通知说服务器挂了,经过检查发现原因是Linux的虚拟机根分区已经使用100%,以至于服务不能正常进行。

经过小小的研究,顺利解决问题,把服务器的空间由4G扩成12G。现将执行全过程总结如下,以供分享。

首先,介绍下大体的解决思路,要想扩充,硬件上要有准备,说白了也就是要有一块新的空间来供我们使用。对于实体机我们需要准备一块新的硬盘,而对于VMWare虚拟机,我们只需要使用vmware自带的软件扩充下磁盘大小。 继续阅读“实战Linux下VMware虚拟机根目录空间扩充_sharps_新浪博客”