把Nutch爬虫部署到Hadoop集群上 – 灵魂机器
软件版本:Nutch 1.7, Hadoop 1.2.1, CentOS 6.5, JDK 1.7
前面的3篇文章中,Nutch 快速入门(Nutch 1.7),Nutch 快速入门(Nutch 2.2.1),在Eclipse里运行Nutch,Nutch都是跑在单机上,本文把Nutch部署到Hadoop集群上,在真正的分布式Hadoop集群上跑。 继续阅读“把Nutch爬虫部署到Hadoop集群上 – 灵魂机器”
搜索引擎选择: Elasticsearch与Solr – 心随梦飞[周路敏] – 博客园
搜索引擎选型调研文档
Elasticsearch简介*
Elasticsearch是一个实时的分布式搜索和分析引擎。它可以帮助你用前所未有的速度去处理大规模数据。
它可以用于全文搜索,结构化搜索以及分析,当然你也可以将这三者进行组合。
Elasticsearch是一个建立在全文搜索引擎 Apache Lucene™ 基础上的搜索引擎,可以说Lucene是当今最先进,最高效的全功能开源搜索引擎框架。
但是Lucene只是一个框架,要充分利用它的功能,需要使用JAVA,并且在程序中集成Lucene。需要很多的学习了解,才能明白它是如何运行的,Lucene确实非常复杂。
Elasticsearch使用Lucene作为内部引擎,但是在使用它做全文搜索时,只需要使用统一开发好的API即可,而不需要了解其背后复杂的Lucene的运行原理。 继续阅读“搜索引擎选择: Elasticsearch与Solr – 心随梦飞[周路敏] – 博客园”
基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎-Hadoop大数据架构-about云开发
问题导读:
1.网络爬虫、分布式数据库、搜索引擎之间的关系是什么?
2.本文网络爬虫架构是什么?
3.扩展:基于网络爬虫是否有其它架构?
网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,用来对网络爬虫抓取到的网络资源进行实时的索引和搜索。 继续阅读“基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎-Hadoop大数据架构-about云开发”
Cassandra与HBase的大数据对决 谁是胜者?
众多基于Bigtable技术的开源项目正在通过不同的方式实现高扩展性、高灵活性、分布式及宽列数据存储等功能,Cassandra和HBase就是其中的代表。
在大数据这一全新的领域里,Bigtable数据库技术非常值得我们关注,因为这一技术是由谷歌的工程发明的,而谷歌是一家公认的非常擅长管理海量数据的公司。如果你对此非常了解,那么你一家知道也熟悉Cassandra和HBase这两个Apache数据库项目。 继续阅读“Cassandra与HBase的大数据对决 谁是胜者?”
4K IPTV 机顶盒烽火HG680-J ROOT 过程记录
按照之前的方法,已经能够成功安装第三方应用,但是为了更方便更彻底的使用机顶盒,还是需要下一番功夫ROOT。这样只要有网络连接,通过ssh连接开启adbd,然后做各种操作,操作完毕关掉adbd,断开ssh连接,这是多么方便和安全,不用每次都去拆机连接ttl。烽火HG680-J 的ttl接线如下图: 继续阅读“4K IPTV 机顶盒烽火HG680-J ROOT 过程记录”
hbase hmaster启动起来就自动关闭的问题解决成功经验分享
最近对系统进行了升级,yum update,升级之后发现jps命令用不了了,最终找到问题是jps和java的连接全部失效,手动更改位置之后jps能用,但hbase还是调用原来的位置,一个个改太繁琐了,用ln jps /usr/lib/jvm/java/bin/jps重建连接之后发现该问题解决,但另几台机子还是不行,用yum remove java-1.8.0-openjdk*和yum install java-1.8.0-openjdk*重装java之后一切问题解决。还有几台机子yum update升级之后并没有产生这个问题,一切正常,不知道为什么,都是从centos6.5升级到centos6.7。
之后运行hbase发现hbase报一堆错误,大概意思就是zookeeper无法连接主机,在主机上看了下jps,发现没有hmaster这个进程,用xyhadoop/hbase-1.0.1.1/bin/hbase-daemon.sh start master启动hmaster之后,用jps看到hmaster进程,但瞬间再次用jps看的时候hmaster已经自动关闭了。 继续阅读“hbase hmaster启动起来就自动关闭的问题解决成功经验分享”
ZeroNet
twister
Kindle114 资源集结计划 by it-ebooks
Sci-Hub: removing barriers in the way of science
2016网盘云盘相继死去
2012年我写过一篇十几款网盘云盘的横向评测,2013年将其进行了编辑,当时盛大网盘已经战死沙场。经历了2012年网盘如雨后春笋般的爆发之后,网盘云盘这类在线云存储服务已经进行了4年。今年预计将会有更多网盘云盘死去。 继续阅读“2016网盘云盘相继死去”
sci-hub – 专为中国定制|支持中国科研事业|钓鱼岛是中国的
Library Genesis
在 SQuirrel 中使用 phoenix 操作 hbase 遇到的各种错误
最近在 SQuirrel 中使用 phoenix 操作 hbase 遇到的各种错误,有些上网搜都搜不到,按照教程做也是各种错误,现总结一下。 继续阅读“在 SQuirrel 中使用 phoenix 操作 hbase 遇到的各种错误”
安装配置 phoenix 到 hbase 遇到的问题和成功经验分享
Phoenix 是一个开源的 SQL 封装,可以用 SQL 语法操作 HBase 这种分布式的 NoSQL 数据库。你也可以使用标准的 JDBC APIs 来取代 HBase client APIs 创建表、插入数据、查询数据等。
本教程包括如何安装 Phoenix 和使用 Phoenix 时遇到的几个问题如何解决。所用平台版本为:hadoop 2.7.1,hbase 1.0.1.1,phoenix-4.7.0-HBase-1.0。因此跟网上搜到的教程不太一样。 继续阅读“安装配置 phoenix 到 hbase 遇到的问题和成功经验分享”
Netflix的前世今生——一个硅谷创新者的坎坷历程-华尔街见闻
我在公众号investguru 上发表的文章多了后,开始有点名气,最近有机会得到一个硅谷著名的华人电视媒体人的邀请,参与一个有关财经科技电视节目的制作。她希望我能够从财经的角度,给中国的观众介绍一个更有意思的硅谷。
我们在讨论节目的选题时,聊起Netflix. 她提到她的一个朋友,当年几十块就急吼吼地把Netflix 股票卖掉了, 而现在Netflix 股价已经五百多块。
我觉得这是一个非常有意思的故事,普通人对Netflix 的历史还有许多误解,这是一个不断自我革新,修正商业模式的创新公司,把它的故事和大家讲一讲,也许会有不少启迪。 继续阅读“Netflix的前世今生——一个硅谷创新者的坎坷历程-华尔街见闻”
个人亲测。完美支持蓝光原盘的播放器-智能电视应用下载-高清范
为了找到完美支持蓝光原盘的播放器,个人亲测了不下20款播放器,终鱼亲测这款完美支持,现在分享给大家,本人用的是百度云盒4盒,不保证支持所有盒子
http://pan.baidu.com/share/link?shareid=386722&uk=4063596408&third=15
我本人也是亲测,我的悦me盒子可以用,rmvb、mp4、mkv、m2ts、4k h265 ts(不支持)。我找的mx player盒子上提示没有解码器,需要下载,点击下载提示找不到地址。看来以后需要主用bsplayer了。其它播放机全是垃圾,尤其是国产的那些。 继续阅读“个人亲测。完美支持蓝光原盘的播放器-智能电视应用下载-高清范”
Ambari server 和 Ambari agent 安装经验分享
Ambari 是一个基于浏览器的部署、管理、监控 hadoop 集群的工具,非常强大,使用非常简单。目前 Ambari 只支持 64位 的 linux 操作系统:
- RHEL (Redhat Enterprise Linux) 6 and 7
- CentOS 6 and 7
- OEL (Oracle Enterprise Linux) 6 and 7
- SLES (SuSE Linux Enterprise Server) 11
- Ubuntu 12 and 14
- Debian 7
安装方式有两种:一种是通过 yum apt 之类的工具从仓库安装;一种是通过下载源代码,自行编译安装。这里我们采用第一种方式:从仓库安装。 继续阅读“Ambari server 和 Ambari agent 安装经验分享”
实战Linux下VMware虚拟机根目录空间扩充_sharps_新浪博客
今天上午接到通知说服务器挂了,经过检查发现原因是Linux的虚拟机根分区已经使用100%,以至于服务不能正常进行。
经过小小的研究,顺利解决问题,把服务器的空间由4G扩成12G。现将执行全过程总结如下,以供分享。
首先,介绍下大体的解决思路,要想扩充,硬件上要有准备,说白了也就是要有一块新的空间来供我们使用。对于实体机我们需要准备一块新的硬盘,而对于VMWare虚拟机,我们只需要使用vmware自带的软件扩充下磁盘大小。 继续阅读“实战Linux下VMware虚拟机根目录空间扩充_sharps_新浪博客”