把Nutch爬虫部署到Hadoop集群上 – 灵魂机器

软件版本:Nutch 1.7, Hadoop 1.2.1, CentOS 6.5, JDK 1.7

前面的3篇文章中,Nutch 快速入门(Nutch 1.7),Nutch 快速入门(Nutch 2.2.1),在Eclipse里运行Nutch,Nutch都是跑在单机上,本文把Nutch部署到Hadoop集群上,在真正的分布式Hadoop集群上跑。 继续阅读“把Nutch爬虫部署到Hadoop集群上 – 灵魂机器”

搜索引擎选择: Elasticsearch与Solr – 心随梦飞[周路敏] – 博客园

搜索引擎选型调研文档

Elasticsearch简介*

Elasticsearch是一个实时的分布式搜索和分析引擎。它可以帮助你用前所未有的速度去处理大规模数据。

它可以用于全文搜索,结构化搜索以及分析,当然你也可以将这三者进行组合。

Elasticsearch是一个建立在全文搜索引擎 Apache Lucene™ 基础上的搜索引擎,可以说Lucene是当今最先进,最高效的全功能开源搜索引擎框架。

但是Lucene只是一个框架,要充分利用它的功能,需要使用JAVA,并且在程序中集成Lucene。需要很多的学习了解,才能明白它是如何运行的,Lucene确实非常复杂。

Elasticsearch使用Lucene作为内部引擎,但是在使用它做全文搜索时,只需要使用统一开发好的API即可,而不需要了解其背后复杂的Lucene的运行原理。 继续阅读“搜索引擎选择: Elasticsearch与Solr – 心随梦飞[周路敏] – 博客园”

基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎-Hadoop大数据架构-about云开发

问题导读:

1.网络爬虫、分布式数据库、搜索引擎之间的关系是什么?

2.本文网络爬虫架构是什么?

3.扩展:基于网络爬虫是否有其它架构?

网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,用来对网络爬虫抓取到的网络资源进行实时的索引和搜索。 继续阅读“基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎-Hadoop大数据架构-about云开发”

Cassandra与HBase的大数据对决 谁是胜者?

众多基于Bigtable技术的开源项目正在通过不同的方式实现高扩展性、高灵活性、分布式及宽列数据存储等功能,Cassandra和HBase就是其中的代表。

在大数据这一全新的领域里,Bigtable数据库技术非常值得我们关注,因为这一技术是由谷歌的工程发明的,而谷歌是一家公认的非常擅长管理海量数据的公司。如果你对此非常了解,那么你一家知道也熟悉Cassandra和HBase这两个Apache数据库项目。 继续阅读“Cassandra与HBase的大数据对决 谁是胜者?”

4K IPTV 机顶盒烽火HG680-J ROOT 过程记录

按照之前的方法,已经能够成功安装第三方应用,但是为了更方便更彻底的使用机顶盒,还是需要下一番功夫ROOT。这样只要有网络连接,通过ssh连接开启adbd,然后做各种操作,操作完毕关掉adbd,断开ssh连接,这是多么方便和安全,不用每次都去拆机连接ttl。烽火HG680-J 的ttl接线如下图: 继续阅读“4K IPTV 机顶盒烽火HG680-J ROOT 过程记录”