图像识别实验过程(二)图像数据集的扩展 – zhoulixue – 博客园

在训练图像识别的深度神经网络时,使用大量更多的训练数据,可能会使网络得到更好的性能,例如提高网络的分类准确率,防止过拟合等。获取更多的训练样本其实是很好的想法。但是,这个方法的代价很大,在实践中常常是很难达到的。不过还有一种方法能够获得类似的效果,那就是人为扩展训练数据(Artificially expanding the training data)。

对于图像数据我们可以通过旋转,转换,扭曲图像等方式来扩展训练数据,人为扩展训练数据时对数据的操作最好能反映真实世界的变化继续阅读“图像识别实验过程(二)图像数据集的扩展 – zhoulixue – 博客园”

资源 | 图森未来开源:Mask R-CNN的完整MXNet复现

当地时间 10 月 22 日,计算机视觉国际顶级会议 ICCV 2017 公布了获奖论文。Facebook AI 研究员何恺明获得最佳论文奖,同时他也是最佳学生论文的作者之一。这篇文章是国内自动驾驶创业公司图森未来对最佳论文《Mask R-CNN》的完整复现,并将其开源到了Github 上。 继续阅读“资源 | 图森未来开源:Mask R-CNN的完整MXNet复现”

Tensorflow官方语音识别入门教程 | 附Google新语音指令数据集

Google今天推出了一个语音指令数据集,其中包含30个词的65000条语音,wav格式,每条长度为一秒钟。

这30个词都是英文的,基本是yes、no、up、down、stop、go这类。

这个数据集由Google TensorFlow团队和AIY团队共同推出的,AIY就是之前推出树莓派DIY智能音箱的那个团队: 继续阅读“Tensorflow官方语音识别入门教程 | 附Google新语音指令数据集”

一文弄懂神经网络中的反向传播法——BackPropagation – Charlotte77 – 博客园

最近在看深度学习的东西,一开始看的吴恩达的UFLDL教程,有中文版就直接看了,后来发现有些地方总是不是很明确,又去看英文版,然后又找了些资料看,才发现,中文版的译者在翻译的时候会对省略的公式推导过程进行补充,但是补充的又是错的,难怪觉得有问题。反向传播法其实是神经网络的基础了,但是很多人在学的时候总是会遇到一些问题,或者看到大篇的公式觉得好像很难就退缩了,其实不难,就是一个链式求导法则反复用。如果不想看公式,可以直接把数值带进去,实际的计算一下,体会一下这个过程之后再来推导公式,这样就会觉得很容易了。 继续阅读“一文弄懂神经网络中的反向传播法——BackPropagation – Charlotte77 – 博客园”

用Tensorflow让神经网络自动创造音乐 – Charlotte77 – 博客园

前几天看到一个有意思的分享,大意是讲如何用Tensorflow教神经网络自动创造音乐。听起来好好玩有木有!作为一个Coldplay死忠粉,第一想法就是自动生成一个类似Coldplay曲风的音乐,于是,开始跟着Github上的教程(项目的名称:Project Magenta)一步一步做,弄了三天,最后的生成的音乐在这里(如果有人能告诉我怎么在博客里插入音乐请赶快联系我!谢谢!) 继续阅读“用Tensorflow让神经网络自动创造音乐 – Charlotte77 – 博客园”

hbase与Phoenix二级索引Global Local Indexing配置

在HBase中,只有一个单一的按照字典序排序的rowKey索引,当使用rowKey来进行数据查询的时候速度较快,但是如果不使用rowKey来查询 的话就会使用filter来对全表进行扫描,查询速度非常慢,我测试查询8万条简单数据用了268秒。而Phoenix提供了二级索引技术可以解决这种查询速度慢的问题。
Phoenix提供两种类型的索引技术:注重提升读性能的Global Indexing和注重提升写性能的Local Indexing。下面分别对这两种索引技术简单使用一下。
继续阅读“hbase与Phoenix二级索引Global Local Indexing配置”

把Nutch爬虫部署到Hadoop集群上 – 灵魂机器

软件版本:Nutch 1.7, Hadoop 1.2.1, CentOS 6.5, JDK 1.7

前面的3篇文章中,Nutch 快速入门(Nutch 1.7),Nutch 快速入门(Nutch 2.2.1),在Eclipse里运行Nutch,Nutch都是跑在单机上,本文把Nutch部署到Hadoop集群上,在真正的分布式Hadoop集群上跑。 继续阅读“把Nutch爬虫部署到Hadoop集群上 – 灵魂机器”

搜索引擎选择: Elasticsearch与Solr – 心随梦飞[周路敏] – 博客园

搜索引擎选型调研文档

Elasticsearch简介*

Elasticsearch是一个实时的分布式搜索和分析引擎。它可以帮助你用前所未有的速度去处理大规模数据。

它可以用于全文搜索,结构化搜索以及分析,当然你也可以将这三者进行组合。

Elasticsearch是一个建立在全文搜索引擎 Apache Lucene™ 基础上的搜索引擎,可以说Lucene是当今最先进,最高效的全功能开源搜索引擎框架。

但是Lucene只是一个框架,要充分利用它的功能,需要使用JAVA,并且在程序中集成Lucene。需要很多的学习了解,才能明白它是如何运行的,Lucene确实非常复杂。

Elasticsearch使用Lucene作为内部引擎,但是在使用它做全文搜索时,只需要使用统一开发好的API即可,而不需要了解其背后复杂的Lucene的运行原理。 继续阅读“搜索引擎选择: Elasticsearch与Solr – 心随梦飞[周路敏] – 博客园”

基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎-Hadoop大数据架构-about云开发

问题导读:

1.网络爬虫、分布式数据库、搜索引擎之间的关系是什么?

2.本文网络爬虫架构是什么?

3.扩展:基于网络爬虫是否有其它架构?

网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,用来对网络爬虫抓取到的网络资源进行实时的索引和搜索。 继续阅读“基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎-Hadoop大数据架构-about云开发”

Cassandra与HBase的大数据对决 谁是胜者?

众多基于Bigtable技术的开源项目正在通过不同的方式实现高扩展性、高灵活性、分布式及宽列数据存储等功能,Cassandra和HBase就是其中的代表。

在大数据这一全新的领域里,Bigtable数据库技术非常值得我们关注,因为这一技术是由谷歌的工程发明的,而谷歌是一家公认的非常擅长管理海量数据的公司。如果你对此非常了解,那么你一家知道也熟悉Cassandra和HBase这两个Apache数据库项目。 继续阅读“Cassandra与HBase的大数据对决 谁是胜者?”

hbase hmaster启动起来就自动关闭的问题解决成功经验分享

最近对系统进行了升级,yum update,升级之后发现jps命令用不了了,最终找到问题是jps和java的连接全部失效,手动更改位置之后jps能用,但hbase还是调用原来的位置,一个个改太繁琐了,用ln jps /usr/lib/jvm/java/bin/jps重建连接之后发现该问题解决,但另几台机子还是不行,用yum remove java-1.8.0-openjdk*和yum install java-1.8.0-openjdk*重装java之后一切问题解决。还有几台机子yum update升级之后并没有产生这个问题,一切正常,不知道为什么,都是从centos6.5升级到centos6.7。

之后运行hbase发现hbase报一堆错误,大概意思就是zookeeper无法连接主机,在主机上看了下jps,发现没有hmaster这个进程,用xyhadoop/hbase-1.0.1.1/bin/hbase-daemon.sh start master启动hmaster之后,用jps看到hmaster进程,但瞬间再次用jps看的时候hmaster已经自动关闭了。 继续阅读“hbase hmaster启动起来就自动关闭的问题解决成功经验分享”

安装配置 phoenix 到 hbase 遇到的问题和成功经验分享

Phoenix 是一个开源的 SQL 封装,可以用 SQL 语法操作 HBase 这种分布式的 NoSQL 数据库。你也可以使用标准的 JDBC APIs 来取代 HBase client APIs 创建表、插入数据、查询数据等。

本教程包括如何安装 Phoenix 和使用 Phoenix 时遇到的几个问题如何解决。所用平台版本为:hadoop 2.7.1,hbase 1.0.1.1,phoenix-4.7.0-HBase-1.0。因此跟网上搜到的教程不太一样。 继续阅读“安装配置 phoenix 到 hbase 遇到的问题和成功经验分享”

Ambari server 和 Ambari agent 安装经验分享

Ambari 是一个基于浏览器的部署、管理、监控 hadoop 集群的工具,非常强大,使用非常简单。目前 Ambari 只支持 64位 的 linux 操作系统:

  • RHEL (Redhat Enterprise Linux) 6 and 7
  • CentOS 6 and 7
  • OEL (Oracle Enterprise Linux) 6 and 7
  • SLES (SuSE Linux Enterprise Server) 11
  • Ubuntu 12 and 14
  • Debian 7

安装方式有两种:一种是通过 yum apt 之类的工具从仓库安装;一种是通过下载源代码,自行编译安装。这里我们采用第一种方式:从仓库安装。 继续阅读“Ambari server 和 Ambari agent 安装经验分享”

hadoop集群中有一台datanode始终不接受数据的问题,已解决,成功经验分享

最近做hadoop的实验,有一个datanode始终接收不到数据是怎么回事?
我用Got back one command: FinalizeCommand/5、Got finalize command for block pool、Detected pause in JVM or host machine (eg GC): pause of approximately、No GCs detected,这几个关键词去查询,也没有实质进展,最终自己找到原因:端口没开,开了之后一切正常,经验分享出来,避免大家再犯同样错误。

继续阅读“hadoop集群中有一台datanode始终不接受数据的问题,已解决,成功经验分享”

巧用MapReduce+HDFS,海量数据去重的五大策略-CSDN.NET

随着存储数据信息量的飞速增长,越来越多的人开始关注存储数据的缩减方法。数据压缩、单实例存储和重复数据删除等都是经常使用的存储数据缩减技术。

重复数据删除往往是指消除冗余子文件。不同于压缩,重复数据删除对于数据本身并没有改变,只是消除了相同的数据占用的存储容量。重复数据删除在减少存储、降低网络带宽方面有着显著的优势,并对扩展性有所帮助。 继续阅读“巧用MapReduce+HDFS,海量数据去重的五大策略-CSDN.NET”

Hadoop的thrift server配置_服务器应用_Linux公社-Linux系统门户网站

一.概述

默认的hbase安装包已经有了thrift服务,使用见hbase文档。Hadoop默认包没有thrift服务,即没有网上说的hadoophome/src/contrib/thriftfs/scripts/start_thrift_server.sh,因此需要手动编译,使用的编译工具是Ant。Bin包其实是已经编译过的安装包,所以不具有以上文件夹,无法编译,需要下载非bin的hadoop软件包。 继续阅读“Hadoop的thrift server配置_服务器应用_Linux公社-Linux系统门户网站”