建设地理信息大数据的思考-地理信息-技术专栏-GIS空间站

摘要:为建设适应移动互联网时代用户需求的地理信息大数据,本文全面分析了大数据、地理信息大数据的概念、特征和应用特点,指出了传统地理信息数据采集、分析和服务的制约因素。在此基础上,创新性地将大数据与志愿者地理信息(VGI)理念相结合,人人都是地理信息数据的提供者和使用者,立足集体智慧,采用VGI数据,结合传统地理信息数据成果,构建地理信息大数据,优化分析和服务机制,发挥地理信息大数据的核心价值,即地理信息大数据来自公众,地理信息大数据服务公众。

1引言

随着IT技术的迅猛发展,人类社会已进入信息化时代,人类活动和社会发展所积累的知识和经验借助数字化技术累积成海量的数据资源。进入二十一世纪,伴随互联网、移动互联网和物联网的兴起,数据资源正呈现为种类和规模的快速扩张,例如国内电子商务企业淘宝公司每天平均约有6000万用户登录和20亿PVPage View),沪深两市每天4个小时的交易时间会产生3亿条以上逐笔成交数据,腾讯公司各类数据存储量(经压缩处理后)超过100PB。海量数据资源为数据挖掘和分析进而发现和利用数据价值提供了前所未有的机会,大数据(Big Data)时代已经到来。

1980年,著名未来学家阿尔文·托夫在《第三次浪潮》一书中写道:如果说IBM的主机拉开了信息化革命的大幕,那么“大数据”才是第三次浪潮的华彩乐章。自2009年开始,“大数据”成为了互联网信息技术行业的流行词汇。在2011年,美国著名咨询管理公司麦肯锡提出大数据时代的观点:“数据,已经渗透到当今的每一个行业和业务职能领域,称为重要的生产要素”。同年3月,美国奥巴马政府就在白宫网站发布了《大数据研究和发展倡议》(Big Data Research and Development Initiative),将为此投入两亿美元以上资金,用于研发大数据关键技术,以抢占数据资源开发利用的制高点。种种迹象无不表明大数据背后潜在着巨大的价值。那么,到底什么是大数据?百度百科定义大数据或称巨量资料,指的是所涉及的资料规模巨大到无法透过目前主流软件工具,在合理时间内达到获取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯[1]

归纳起来,大数据主要有4个特点(4个“V”):一是数据体量(Volume)巨大,从TB级别跃升到PB级别以上;二是数据类型(Variety)繁多,包括网络日志、视频、图片、地理位置信息等各种类型数据;三是价值(Value)密度低,以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒;四是处理速度(Velocity)快,遵循1秒定律,即可从各种类型的数据中快速获得高价值的信息[1]

大数据作为一种新型战略资源,提供了一个在虚拟信息世界中了解和掌握客观现实世界的前所未有的机会[2]地理信息行业作为信息产业的重要分支,应抓住大数据技术和应用所带来的新机遇,面向最广大的公众在地理信息大数据采集、分析与服务方面进行机制创新,推动地理信息行业的快速发展。

2以数据为核心的地理信息行业

从上世纪50年代GIS(地理信息系统)诞生开始,地理信息行业就以数据为核心逐步发展壮大,其主要业务采集、检查、处理、建库和分发服务无一不是紧紧围绕数据进行的。数据是地理信息行业的灵魂。

目前,测绘地理信息系统内已经积累了大量的地理信息数据:全国重力、三角、水准及GPS大地测量成果,包括2500余个2000坐标系国家GPS大地控制点,近5万个2000坐标系国家大地控制点,20余个重力基准点和120余个重力基本点,1600多个全国卫星连续运行站点;全球1:100万矢量数据、DEM数据(19952002),全国1:25DLGDEMDOM数据(199820022008版),全国1:5DLGDEMDOM数据(200620102012版),各省(自治区、直辖市)覆盖重点区域的1:500-1:10000大比例尺地形图数据,西部挂图(1027个县)矢量和影像数据及各类专题数据等;超过500万张的航空影像数据,覆盖陆地国土超过7000万平方千米(含重复覆盖面积)的多种分辨率卫星影像数据,覆盖全部国土的1030米分辨率卫星影像,对重点地区基本完成必要覆盖的优于5米分辨率的卫星影像数据,以及分辨率优于2.1米的225TB(截至2012年)的资源三号卫星影像数据[3]。 

以上地理信息数据成果(含历史数据)在线存储量超过560TB,离线存储量超过1.3PB,并且在线数据成果以每年不低于300TB的增量扩展[2]这些内容丰富、类型繁多的地理信息数据是地理信息大数据的基础,可以更好地促进地理信息工作服务大局、服务社会、服务民生。

客观来说,没有地理信息数据,地理信息服务无从谈起;没有海量、规模化、多类型的地理信息大数据,地理信息智能服务将举步维艰[4]。在即将来临的“智慧中国”时代,拥有海量数据级别、高价值含量的地理信息大数据是推进测绘地理信息服务走向智能化、智慧化转型升级的必经之路[2]。大数据的发展是大势所趋,是开启智慧时代的必然要求。测绘地理信息是国家重要战略信息资源,建设地理信息大数据具有深远的意义和强烈的现实要求。

3地理信息大数据发展中的制约因素

目前,地理信息系统已积累了大数据量级别和多种类的地理信息数据,但应客观看到地理信息大数据发展中的制约因素。一是随着大数据时代的到来,应探索更多不同的获取地理信息数据的测量手段,为海量空间数据的积累提供多种渠道,大数据的生产者不再局限于传统意义上的专业部门,更多地来自数目众多的公众以及传感器;二是现有地理信息大数据的价值并未充分发挥出来,大数据与数据大不同,其最重要的内涵是通过全体数据集而不是随机数据集的分析,以获取智能的、深入的和有价值的信息。目前地理信息数据应用离智慧发展的要求还存在很大的差距,需要密切结合实际发展需要,充分挖掘地理信息大数据的使用价值;三是地理信息大数据分发服务方式还需创新,服务对象还需扩展,将最新最全的地理信息大数据成果以最快的速度服务到最广大的政府、企事业单位、国防和公众手中。

3.1传统数据采集机制的制约

地理信息数据的采集是地理信息行业的基础环节,是大数据的孕育环节。传统的地理信息数据采集机制是项目驱动下的计划模式,即中央级测绘地理信息单位申请国家立项后,将任务分包到各个省级测绘地理信息单位,分头组织数据采集和质检,再集中汇交进行数据建库、分析与服务。这种采集模式在测绘信息化工作中发挥了重要作用,具有数据标准统一和管理高效等特点。同时,应该看到,这种模式存在数据获取面不广,未能纳入市县级测绘单位和数量众多的公众采集的地理信息;另一方面,数据的类型固化,更新周期长,现势性不高,以1:5万基础地理数据库为例,全国范围的更新周期一般需要3-5年;第三方面,传统数据采集机制灵活度不高,反应时间长,难以满足应急测绘等实时或准实时服务要求。

3.2传统数据分析架构的制约

地理信息行业传统上以数据密集型、IO密集型处理为主,随着大数据技术的进步和新时期用户的需求变化,计算密集型处理逐渐占有一席之地。在相关计算机装备配置方面,大型高性能计算服务器主要配置在国家级数据中心的涉密局域网内,其他地理信息单位难以使用;同时,传统的地理信息算法受制于早期计算机技术的制约,以串行计算为主,未能及时改进为并行算法,难以满足大数据环境下分布式并行处理的架构要求,不得不在昂贵的SMP(对称多处理)服务器上运行,本单位或有业务关联的其他单位的数目众多的计算机设备无法有效利用。

3.3传统数据服务模式的制约

大数据应用的根本目的是将挖掘、分析得出的数据价值,快速全面向用户服务,服务对象是政府、企事业单位、国防部门以及公众的最大集合。否则,大数据就失去了全部或部分存在价值。传统的地理信息服务主要面向涉密部门,在国民经济和国防建设以及应急救灾中发挥了重要作用,例如2013年,国家级中心向用户提供数据超过5TB,效果显著。但是,应该看到,在面向非涉密的企事业单位、社会公众服务方面,存在不足:一是数据内容较少,仅限于可公开的低分辨率、低精度的地理信息数据;二是现势性不高,旧数据多,最新数据时效超过1年以上,其他数据多超过3年,这些用户数目更多,对此是不满意的;三是功能不强,主要的面向涉密单位的数据提供以人工为主、网络手段为辅,面向非涉密单位的数据提供集中在天地图网站,由于装备能力不足,面向海量用户服务存在等待时间较长、服务波动等不足。

4地理信息大数据建设的主要改进措施

从本质分析,不论是美国的GoogleFacebook,还是中国的淘宝、百度,大数据来自于公众、服务于公众。公众是数据的主要生产者,数据的价值主要服务于公众(当然,大数据公司同时获得更高利润)。

近年来,随着互联网、卫星定位技术和移动终端技术的迅速发展,传统的地理信息技术及其应用发生了革命性的变化,地理信息服务模式从单向的Web 应用(允许大量的用户访问少量Web站点提供的地理信息)逐渐向交互式的双向协作(用户可以同时是地理信息的使用者和提供者)转变[5]。这次转变使得人人都是参与者,对于我们每一个人来说,既是地理信息大数据的使用者又可以是生产者,从而实现理信息数据快速且不断地被创建、更新和引用,并且极大地缩短了地理信息获取和传播的时间。

2007GoodChild首次提出了志愿者地理信息(Volunteered Geographic Information VGI)的概念,认为VGI 必须集合集体智慧、Web2.0和新地理等三要素[6]其中集体智慧是灵魂,Web2.0是工具,新地理是概念,这反映了互联网时代地理信息新的获取与应用方式,即来自公众、服务公众的新形式。VGI是由大量非专业用户利用3S GISRSGPS)技术自发创建的地理信息,用户通过互联网、移动互联网在线协作的方式,以普通手持GPS 终端、开放获取的高分辨率遥感影像,以及个人空间认知的地理知识为基础参考,创建、编辑、管理、维护的地理信息[7]VGI 正在形成影响广泛的新兴地理信息行业。2012 年初,美国著名的社交媒体定位服务提供商Foursquare 和全球领先的IT厂商苹果公司均宣布弃用Google Maps,转向目前发展前景广阔且数据免费的VGI 网站OpenStreetMap[5]VGI 已经对传统的地理信息数据行业产生了强大的冲击。

通过以上分析,地理信息大数据的采集、分析、服务需要不断挖掘新思路,突破原有测绘专业部门进行数据采集、质检、处理、分析和建库的闭合环路,突破主要面向专业用户服务的制约。

 

4.1地理信息大数据采集

目前,大多数地理信息系统是基于自上而下的方式建立的,只有官方提供者可以采集、处理、发布和维护数据资源,这种机制导致了资源维护技术比较复杂,限制了用户的参与,造成贡献资源的不足。地理信息大数据的采集,一方面要坚持传统的数据采集的优点,适当扩大数据采集接收面(如地市级测绘单位),另一方面积极引入VGI数据。

VGI 数据主要来自于公众的自发行为,每一个人都可以成为地理信息数据的采集者,人人都是数据的生产者。长期居住的居民会对周边的地理环境(地名、交通路网)有着较为详尽的了解,在目前,其中的部分信息是难以通过自动化的手段获得的。例如,专业部门通过航空摄影获得一个区域清晰的像片后,需在后期投入大量的人力、物力和财力才可获取其详细的地名注记。因此,应发动公众,以人人都是传感器[6]的思路,打破地理信息专业人员和公众之间的界限,有效整合位于世界各个角落的人们掌握的自己周边的各种信息,降低成本,提高效率,将地理信息大数据快速分享和传播。

在地理信息行业内,将传统模式采集的地理信息数据与VGI数据的融合,创造出具有活力的满足移动互联网时代用户需求的大数据成果。

4.2地理信息大数据分析

对于传统的串行处理的大数据处理,基于涉密广域网,面向省级测绘单位开放国家级中心的高性能计算服务器,充分利用宝贵的计算资源;对于可以分布式并行计算的大数据处理,基于涉密广域网,充分利用省级测绘单位的中低端服务器资源,统筹协调,构建基于云计算的大数据分析环境。

对于VGI数据,由于志愿者是自发贡献数据,会存在数据分布不均匀,连续性不一致甚至错误等问题,给VGI 数据的处理带来挑战。VGI 数据必须经过处理和质量检查以保证数据的形式有效和内容合法合规[8]。在此基础上,基于Hadoop等云计算架构,利用MapReduce技术开发分布式并行算法,面向涉密广域网调用计算资源,进行地理信息大数据分析。

4.3地理信息大数据服务

公众是地理信息大数据的最终使用者,是地理信息大数据服务的主要对象。在国家保密法规许可的前提下,提高可公开大数据的分辨率和精度。同时,基于VGI数据,动态更新传统地理信息数据库,增强现势性,经济发达地区和灾害多发区数据时效应在1年之内;丰富内容,数据层和属性信息不应少于Google Map。另外,提升天地图站计算机和网络装备水平,采用性价比较高的Hadoop云计算架构和非关系型数据库,在全国布设多个云计算分中心,全面提升网站服务质量。

地理信息大数据分发服务,要快速将大数据及其分析成果与相关应用发布到最广大的用户群之中,到公众中去,为公众服务。

5结束语

将大数据与VGI理念相结合,立足传统地理信息数据成果,构建地理信息大数据,优化分析和服务机制,发挥地理信息大数据的核心价值,即地理信息大数据来自公众,地理信息大数据服务公众。

 

参考文献

[1] 百度.大数据[EB/OL].http://baike.baidu.com/subview/6954399/13647476.htm?fr=Aladdin.

[2] 周顺平,徐枫.大数据环境下地理信息行业发展的几点思考[J]. 地理信息世界,2014211:45-50.

[3] 金舒平,翟永国家测绘成果档案存储与服务设施项目初步设计[R.国家测绘地理信息局,201375-76.

[4] 熊伟.迎接测绘地理信息“大数据”. [2013-05-04].

http://fazhan.sbsm.gov.cn/article/zxkw/fzdt/sixtysec/201311/20131100136440.shtml.

[5] 张红平,顾学云,熊萍等.志愿者地理信息研究与应用初探[J.地理信息世界,20124,67-71.

[6] Goodchild M F. Citizens as sensors: the world of volunteered geography[J].  GeoJournal2007694:211-221.

[7] 维基百科.自发地理信息[EB/OL].

http://zh.wikipedia.org/wiki/%E8%87%AA%E5%8F%91%E5%9C%B0%E7%90%86%E4%BF%A1%E6%81%AF.

[8] 李德仁,钱新林.浅论自发地理信息的数据管理[J].武汉大学学报:信息科学版,201035(4)379383

来源URL:http://www.gissky.net/Article/3395.htm