联系我们

企业名称:上海瑾瑜科学仪器有限公司

电 话:(86-21)36320539
传 真:(86-21)50686293
邮 箱:sales@generule.com
地 址:上海市浦东新区金新路58号银桥大厦908室,201206

海洋大数据应用技术分析与趋势研究

海洋大数据应用技术分析与趋势研究

发布日期:2019-12-20 来源: 点击:35

大数据已成为全球科技、经济、社会等各领域的关注焦点[1-4], 通过数据的纽带,科学家可以发现人类与自然相互作用的规律,预测人类社会发展的趋势。随着海洋信息化的发展和各类探测设备的不断进步,导致海洋数据体量爆炸性增长,如:Argo计划从实施开始,总计已布放超过10 000个浮标,目前有约3 800个浮标在海上正常工作,截止2016年,由Argo所得到的数据体量比20世纪海洋观测资料的总和还多,并且Argo采样密度及深度还在不断提高[5];截止到2012年底,美国国家海洋和大气管理局(National Oceanic and Atmospheric Administration, NOAA)管理的年数据高达30PB,每日能从多源传感器设备收集超过35亿份观测数据[6]。海洋领域已然进入大数据时代,全方位、连续、多源、立体的观测使得海洋数据目前存量已达到EB级别,日增量也达到TB级别。对海洋科学研究而言,如何在大数据时代抓住机遇,更好的利用海洋大数据,将在一定程度上辅助解决21世纪人类面临的重要问题。
然而,前所未有的海洋大数据给海洋数据的存储管理,分析挖掘,产业应用带来了巨大挑战[3-4, 6-7],并且大数据技术的兴起也给传统的科研方式带来了革命,科学研究逐渐进入第四范式[8] ,传统的数据分析方法在应用在大数据时存在众多约束,数据密集型知识发现方法受到科学界的普遍关注,越来越多的海洋学研究开始从更大规模、更多维度、更多来源的数据进行深度的知识发现,指导人类社会的生产生活,海洋大数据亦带来巨大机遇。
本文根据目前海洋大数据研究相关热点从三个方面进行讨论和归纳。首先从海洋大数据的定义及特征方面进行说明。其次从技术方面,具体涉及海洋大数据的多源信息感知与探测技术、存储与管理技术、分析挖掘技术、动态可视化技术,覆盖了采集、存储、管理、分析到形成结果的整个过程。然后从实践方面,进行海洋大数据应用现状及应用前景的讨论。海洋大数据应用研究仍处于起步阶段,本文将尽可能的从海洋大数据的产生到海洋大数据应用整个链条进行研究梳理,涉及的技术内容较为广泛,交叉性较强,可能对部分技术存有偏颇或不足,但我们仍希望能从整体性上给相关研究人员以启发和借鉴,从而作为更深入研究及交叉性知识发现的起点。
1 海洋大数据定义及特征

1.1 海洋大数据定义

对于大数据,高德纳定义为利用新的处理方式才能具有更高价值的海量、高增长率和多样性的信息资产[9]。麦肯锡给出的定义是数据体量超过常规的数据工具存储、管理和分析能力的数据集[10]。维基百科将其定义为数据量巨大到无法在有效的时间内达到擷取、管理、分析、并处理为人类所能解读的形式[11]。
海洋本身是一个巨大、复杂、非线性的系统,各种现象及过程极其复杂,时空尺度千差万别,承担着各类物质与能量的运输,包含的学科、领域众多,涉及海洋化学、海洋地质学、物理海洋学、海洋生物学等。针对海洋大数据,研究人员从不同角度、层次给出不同定义,黄冬梅等将其定义为通过卫星、航空器、调查船、阵列浮标等方式获取的服务于海洋相关领域的一类大数据[6, 12]。洪阳等将其定义为基于多源观测手段,对海洋现象和要素进行快速实时获取,具有数据多元化和大体量、高价值的海洋数据的理论、技术、应用[13]。这些定义是从海洋数据的多源获取及数据的部分特征出发对其进行定义。我们希望从海洋大数据能力方面进行阐述:海洋大数据是观测或计算得到的不同时空尺度的海洋信息,是辅助了解海洋状态,发现海洋过程及规律,解决海洋系统所面临的挑战的基础,其核心能力是预测未来一段时间内的海洋环境、气候及资源的时空变化。
1.2 海洋大数据特征

理解海洋大数据的特征对于如何进行海洋数据的存储、管理、分析、挖掘,乃至可视化及知识发现至关重要。对于传统大数据特征的描述,高德纳最早将其描述为“3V”:即海量性(Volume)、快速性(Velocity)、多样性(Variety)[14]。此外,数据价值(Value)、数据真实性 (Veracity)、数据有效性(Validity)分别被IBM 、国际数据中心(IDC)等作为大数据重要特征纳入大数据特征描述中[15-16]。然而由于领域认知及获取的数据的不同,已有研究对于大数据特征的描述并没有统一的共识,至少都是认同高德纳提出的3V特征,以此也作为了与传统数据区分的条件。
海洋大数据在体量、数据类型以及数据速度上都满足传统大数据的特征,已有相关研究对此进行详细阐述[3, 6-7, 13, 17],主要体现在:
体量大 各类海洋观测计划覆盖全球几乎所有大洋,进行着各类周期性、实时性的数据采集,各类海洋模式如MOM、POP、ROMS也极大的扩充了海洋数据的体量,并且成为海洋数据中存量最大的和增长最快的数据分支[18],其分辨率也逐渐提高,目前MASNUM 第三代海浪数值模式,已经达到了全球空间分辨率约2 km。海洋大数据体量不断增长,目前其总体量已达到EB级。
高维度(多变量) 在数据种类方面,海洋数据涉及物理海洋、海洋遥感、海洋化学、海洋生态、海洋生物等方面,其中仅物理海洋就包括有风、气压、叶绿素、气温、水温、盐度、湿度、浊度、波浪等近200种不同的数据变量,数据维度及变量极多。
动态性 海洋数据具有明显的快速数据流转及动态的体系特征,各类观测网及设备不断对时刻变化的海洋系统进行探测,数据迭代更新速度快,并且随着处理能力的提升,对获取数据的实时性、近实时性要求也越来越高。
海洋大数据也表现出与其他大数据不一样的特性[6-7],主要体现在:
时空相关性 绝大部分区域相近的空间位置及时间点都具有相同或相近的物理属性,如温度、盐度等属性在临近区域不会存在显著差异。这也将会导致海洋大数据存在一定的冗余性,高度时空关联的特性使得大数据通用的数据挖掘算法普适性差,构建大规模海洋数据处理应用较为困难。
多尺度性 多尺度是海洋大数据的重要特征, 这是由于海洋系统是由不同层次的子过程组成, 各个物理过程都有各自的时空及区域尺度,在不同的层次上所遵循的规律和体现的特征不尽相同。时间上的多尺度从秒、分、时、日、季节内变化、季节变化、年际变化、一直到年代甚至世纪更长的年代际变化。空间上多尺度涉及湍流尺度、中尺度、海盆尺度、行星尺度。地域尺度包括近岸、近海、深远海以及极地。
异构性 由于海洋大数据的多源采集及应用目的不同,海洋大数据存在明显的异构性,一方面表现为系统异构, 即数据生产所依赖的观测系统存在显著差异, 如来自不同数据中心的数据; 另一方面表现为模式异构, 数据的逻辑结构或组织方式不同[7],如各种不同格式的海洋数据。
2 海洋大数据应用关键技术

2.1总述及数据处理流程

海洋大数据的数据来源广泛,类型及应用需求不尽相同,但与其他领域的大数据处理流程类似[6, 16],在此基础上我们总结出海洋大数据处理的基本流程,如图1所示 。通过各类设备及技术对海洋大数据进行多源感知及探测,按照一定标准进行数据存储及管理,利用合适的信息融合及挖掘技术对存储的数据进行分析,结合有益的知识对数据进行多维重构,并通过科学可视化的手段展示给用户,辅助对海洋过程的理解、应用决策等。根据Rowley提出了信息管理DIKW(Data、Information、Knowledge、Wisdom)层次模型[19],以数据为基层架构,按照信息流顺序以此完成数据到智慧的转换[20]。那么在海洋大数据的处理流程中,同样通过知识发现可以再辅助更针对性的数据获取,例如对年周期海面及水体温度“无变点”“无变柱”的研究确立了年际到年代际时间尺度全球变暖的理想观测点,可以指导海面浮标合理的设置和布放,提高全球和区域海洋及气候变化的观测效率[21-22]。在此流程基础上我们针对具体的应用技术细节,在以下几个分节进行详细介绍。

2.2 海洋数据多源感知与探测

随着各类新型技术和设备的不断更新应用,海洋观测体系已发展成为包括卫星遥感、海洋调查船、观测站、浮标阵列等在内的全球化多尺度的、多学科要素的综合性立体化海洋数据感知与探测网络, 本节将从空基、陆基、海基三方面进行海洋数据感知与探测技术的说明。
空基海洋感知与探测技术包括卫星遥感与航空遥感, 其具有高频动态、宏观大尺度、同步观测等优点[3],是现代海洋多源获取手段的重要组成部分。卫星遥感方面,目前已发射的海洋卫星主要包括以可见光探测为主载荷的海洋水色卫星,如我国的HY-1A、1B水色卫星,美国的SeaWiFS,EOS/MODIS等;以海上动力参数探测为主载荷的海洋动力卫星系列,如Jason,HY-2系列;以及以海洋目标监视为主要目的SAR载荷卫星,如我国的GF-3,加拿大的Radarsat,意大利的COSMO等,以及盐度卫星、静止轨道水色卫星等一些新型载荷[23]。航空遥感方面,主要采用飞机、气球、无人机等飞行器搭载各类传感器进行数据探测,传感器涉及激光测深仪、红外辐射计、侧视雷达等,具有易于海空配合、分辨率高、不受轨道限制等特点[23-24],可用于溢油和赤潮等突发事件的应急监测、资源监测等。
陆基海洋感知与探测技术主要指沿岸海洋台站观测,是建立在沿海、岛屿、海上平台或其他海上建筑物上的海洋观测系统。通过安装各类针对性的观测设备能够对人类活动最活跃、最集中的滨海地区进行水文气象要素的观测和资料获取,为沿岸和陆架水域的环境保护、资源开发、科学研究等提供依据。美国是最早建立海洋观测站的国家之一,目前有1 042个观测平台,其中758个能提供实时资料[25]。
海基海洋感知与探测技术主要包括海洋浮标、调查船、潜水器以及各类海洋观测阵列。海洋浮标是用于获取海洋水文、动力等参数的漂浮式自动化探测平台, 具有全天候、连续、自动观测等优点[26],作为离岸监测的重要工具,能够对诸多海洋要素进行综合的监测[27]。海洋调查船能够进行各类海洋环境要素探测、各学科调查等,利用船舶作为平台进行海洋调查是海洋调查观测技术发展的重要方面[23-24]。潜水器是水下观测、采样等必需的技术装备,包括水下观测型自主载具、水下滑翔器、水下无人航行器及自持式剖面探测漂流浮标,是现代海洋观测的标志性技术装备,丰富了海洋立体观测能力[28]。现代海洋观测也建立了各类区域性海洋观测系统、海底观测系统、全球海洋观测系统[28],如Argo、GOOS[29]、ONC[30]、IOOS[31]、OOI [32]、EMSO[33]、NEXOS[34]、HABSOS[35]、NEPTUNE[36]等,其中Argo计划作为历史上首个全球尺度上层大洋温盐测量系统,其数据无论是在空间范围或是数据精度,均达到了空前的高度,为全球大洋温盐场研究提供了历史性的难得机遇[5]。
整体来讲,海洋感知与探测技术向着自动、长期、实时观测和高分辨率方向发展,形成从空间、沿岸、水面、水下、海床的立体多学科观测。我们近年见证了海洋观测技术的巨大飞跃,然而,就整体而言,我们对海洋的观测还远远不足,对2 000 m以下的海洋仍缺乏了解[5],并且观测资料仍缺乏连续性、系统性,观测方面也仍然需要国际的合作。海洋感知与探测技术的发展是制约整个海洋领域发展的瓶颈所在,也是海洋大数据应用技术发展的基础。目前,众多海洋探测发展计划也在实施中,如国际Argo指导组描绘了未来10年该计划发展和扩张的蓝图[5],将在全球海洋特殊区域,包括海水特别湍流区域、海气相互作用特别强烈区域、气候影响剧烈区域增加空间采样频度,以及在2 000 m以下的深海、边缘海和季节性冰区海域进行布置等,这与原先的计划相比体现了真正意义上的全球观测覆盖。
2.3 海洋大数据存储与管理技术

海洋大数据的存储及管理是进行分析挖掘、可视化及知识发现的基础,有效的存储及管理对利用海洋大数据至关重要。不断增长的海洋大数据体量给有效的存储及管理带来新的挑战,改变了原有的存储管理方式[37],也带来了新的存储与管理需求,主要表现为:(1)可扩展性存储需求。海洋数据的存量已经接近EB级,日增量也达到TB级[3],存储规模日益增大,并且随着采样频率的提高,对实时存储及管理要求也日益增长。(2)异构性存储需求。数据结构愈来愈复杂,需要兼顾非结构化、半结构化和结构化数据,有效管理难度增大。(3)适应性的存储管理架构需求。传统的数据存储更多侧重于数据的一致性及容错性,并且现有数据存储及管理系统的扩展性及可用性不高,并且由于海洋数据的多源特殊性,获取方式不一,导致难以进行有效的集成管理及共享应用。
直接连接存储DAS(Direct Attached Storage)、网络附加存储NAS(Network Attached Storage)、存储区域网络SAN(Storage Area Network) 是常用的企业级存储架构[38],亦是部分海洋数据的存储参考[39],然而这些存储架构在面对大规模分布式系统应用时同样存在缺点及限制,例如高并发性及每台服务器的吞吐量是大部分应用的核心需求。并且集中式数据存储及管理方式对于海洋大数据存储存在局限性,主要在线存储资源有限,随着数据体量的增长,难以实现在线存储资源的灵活配置和动态扩展,离线数据获取耗时,无法在线直接访问任意数据。针对遥感数据的存储管理,吕雪峰等在综合对比美国航空航天局(National Aeronautics and Space Administration, NASA), 国家海洋卫星应用中心, World Wind等国内外13个存储中心或系统的基础上,从存储方式、架构、管理方面进行比较,提出分布式集群化存储是存储技术的发展趋势,针对地学数据,也需结合地学数据特点,建立基于空间位置为主导的存储架构[39]。然而目前基于分布式集群存储的研究大部分集中在非空间数据,对空间数据研究较少。随着数据结构的不断复杂化,关系型数据库无法管理半结构化数据及非结构化数据,Google采用的GFS[40]和BigTable[41]技术以及开源Hadoop采用的HDFS[42]和HBase[43]技术有效解决了大数据存储管理需求。相关研究人员针对海洋大数据特征提出需要进行专有云平台建设,黄冬梅等探讨了海洋数据如何适应云存储的相应对策,并讨论了数据划分,构建索引架构等问题[6],赖积保等构建了一种基于云计算的分布式遥感数据存储模型架构[44]。海洋大数据的存储及管理涉及内容广泛,还包括数据分发共享[45],数据备份[46],数据安全[6]、数据有效迁移[12]等问题 。据IDC分析,到2020年90%的数据库将会基于内存优化技术[47],基于内存数据库In-memory Database(IMDB)的实时数据将会需要新的数据管理架构。
2.4 海洋大数据分析挖掘技术

在海洋大数据时代,如何处理异构数据,从多源数据中进行分析挖掘是非常重要的研究课题,是整体数据流程中重要的一环。由于数据多源观测,数据的优势及完整性不同,对相关海洋大数据挖掘研究首先需要进行数据融合,使能够在一定程度上排除冗余与噪声、降低不确定性,提高信息的精确度和可靠性等[48]。Bahador等对多传感器数据融合方法及概念共性等作了综述[49],郑宇对跨领域的大数据不同融合方法进行讨论[48],并与传统的数据融合方法进行了对比,如图2所示,在大数据时代,对于跨领域的海洋大数据融合应首先进行分类知识提取,然后进行知识融合,这也与传统的融合方法不同。相关研究人员还研究了变分同化法、最优插值法、卡尔曼滤波等数据融合技术在海洋环境监测与预测方面的应用[50-52]。
分析挖掘技术是目前海洋科学领域最重要的研究课题之一,众多数据挖掘方法被应用于多源海洋数据进行知识发现。虽然数据挖掘方法已经非常成熟[53],然而海洋大数据的特征也给有效的分析挖掘带来许多挑战,有效的海洋大数据分析必须根据其特征进行挖掘算法的研究及应用,否则挖掘技术无法发挥其在其他领域相似的影响力[54]。传统的应用于海洋数据挖掘的算法众多,Thomson等按照统计方法与误差处理、空域分析方法、时域分析方法、数字滤波器详细介绍了物理海洋学中的数据分析及挖掘方法[55],相关研究还从统计分析、分类、聚类、回归分析、关联规则等算法方面进行不同程度的应用介绍[25, 56-57]。特别是针对Argo数据,许多针对不同海洋参数的新的目标性算法及信息提取方法被提出用来进行海洋现象的发现,如用来估计最大的海洋混合层深度[58],提取飓风轨迹[59],追踪及分析中尺度涡[60-62] 及揭示新的海洋现象“涡旋沙漠”[63]等。
海洋大数据的分析和挖掘方法与传统的小体量数据的挖掘有着根本的不同,众多技术用于大体量复杂海洋数据时更需要进行相应调整改进,海洋大数据的分析挖掘具体存在如下趋势:首先是大规模数据下的实时性分析。随着数据生成的自动化以及生成速度的加快,实时性要求愈来愈高,特别是在重大自然灾害及紧急事件处理时能及时反馈指导信息将至关重要。并行计算是实时计算解决的重要途径,然而以MapReduce 为代表典型并行计算模型并不适合于直接处理海洋数据。并行计算需与海洋数据数据分析挖掘方法结合,这将会大大加速海洋知识发现过程,如研究人员通过将传统的中尺度涡旋识别方法与并行计算结合,识别速度提高约100倍[64-65]。同时维持了近半个世纪的摩尔定律已然失效[66], “后摩尔时代”的计算提升何去何从仍是讨论的核心问题,传统的计算架构在大数据时代逐渐不能满足需求,新的快速计算架构将持续演进融合。其次是自动化智能分析。由于数据规模很大,挖掘过程需要大量自动化辅助有效分析。这就要求计算机能够一方面理解数据在结构上的差异,另一方面理解数据的语义。对大数据分析挖掘来说,设计一个好的分析模式非常重要,Li等将人工智能领域的生物群集智能算法引入遥感影像聚类领域,构建了完整的信息提取技术体系[67-68]。最后是高维多变量分析。需要在传统海洋挖掘算法的基础上进行适应性改进符合高维多变量挖掘特点,如Chen等提出4D-HEM方法能够从高分辨率时空数据中提取出“自然模态”的精细结构[69-71]。随着数据维度的不断提高,多变量联合分析挖掘海洋特征,并且克服多变量、类型复合且相互交织的特点[48],将是海洋大数据分析挖掘的趋势之一。

2.5 海洋大数据可视化技术

可视化技术是人们发现、解释、分析、探索和学习客观世界规律的重要手段[72],并且在大数据时代,可视化对于感知及最大化利用大数据进行知识发现和决策支持有着不可替代的作用[73],多学科协同形成可视化结果的过程中甚至会催生新的交叉研究领域[1]。在面临海洋数据洪流及维度、复杂度提升后,利用海洋可视化技术展示海洋数据以及更进一步的利用可视化分析技术挖掘海洋物理过程规律是一个非常重要的研究课题也吸引了越来越多的学者研究。
海洋可视化领域起源非常早,中世纪时期,人们就开始使用表示海洋主要风向的箭头图和天象图,随着计算机图形学的发展,可视化从单一的创建图形图表,发展到利用更高级的渲染技术创建更复杂的可视化模型。目前,海洋可视化工作从数据类型上区分,主要包含矢量场可视化及标量场可视化,其中矢量场可视化采用的方法主要有:图表法,几何法[74-75],纹理法[76],拓扑法[77]。其中Jobard等人最早进行了基于纹理和粒子追踪的流场可视化方法研究[75, 78],为复杂流场可视化奠定基础。NASA下属的科学可视化工作室目前已完成超过5 300个海洋可视化视频,其中利用流线技术完成的“Perpetual Ocean”视频[79],发布后引起了海洋学家的广泛关注,效果如图3所示。在标量场可视化算法方面,主要集中在体绘制算法方面研究,其中加州戴维斯马匡六团队在大规模体绘制[80-82]、实时光照[83-84]、多变量特征提取[82, 85]等方面都取得相应成果。此外,在科学可视化分析平台方面,World Wind平台、Skyline平台、OSG平台及Google Earth均可进行海洋或大气环境等的仿真及可视化[86-87],许多工作亦基于此进行二次开发及研究[72, 88]。陈戈等基于MVAR架构搭建了i4Ocean平台,并进行了基于LIC及Ray-Casting算法的海洋可视化相关工作研究[89-91]。在海洋可视化分析方面,其基本理论与方法,仍然是正在形成、需要深入探讨的前沿科学问题。Daniel 等提出了可视化分析流程[92],如图4所示,起点是输入的数据,中间是对数据的可视化结果和从数据中提炼的数据模型,终点是提炼的知识,可对可视化结果进行交互的修正,也可调节参数以修正模型。针对数据可视化的交互设计,Shneiderman[15]提出了经典的探索流程: 先总览、缩放和过滤, 再分析细节。已有相关研究利用多种可视化分析方法对海洋数据进行特征提取及知识发现,如在高分辨率海洋大气模型中对涡旋进行的可视化分析探索[93]等。这对海洋数据的可视化提供了许多经验与借鉴。

海洋数据的爆炸性增长给可视化带来了新的挑战。首先是数据体量及多维度的问题。当前针对大规模海洋数据可视化能力还较弱,相关研究亦是欠缺,大规模的数据单机绘制主要依赖于硬件加速、信号处理与特征表达等手段,例如利用GPU构建分布式计算与可视化架构,在大规模标量场数据上进行并行可视化[94]。针对多维数据分析中,结合信息可视化方法的多维科学分析应用是一个非常有前景的研究方向,目前已有在信息可视化领域常用的平行坐标坐标方法应用在海洋数据上的研究案例[95-97]。其次是可视化与海洋常规挖掘分析算法结合的应用问题。目前已有的结合分析如将小波分析结合可视化进行分析探索[98],将原位可视化应用于海洋模式的计算改进[97, 99]。最后是可视化平台及架构的研发。Chris总结了科学可视化领域的面临的重要问题[100],其中指出集成的问题处理环境是始终存在的重要问题。目前的海洋数据可视化工具处理问题能力仍相对单一,扩展性不强,科学家所需要的不仅仅一个可视化结果,集成的交互处理方式及扩展分析架构,特别是对海洋多源异构数据的整合及对多种可视化算法综合利用仍是海洋大数据可视化面临的问题。
3 海洋大数据应用现状及应用前景

3.1 海洋大数据应用现状

海洋大数据蕴含着难以估量的巨大价值,能够为气候、生态、灾害等领域提供可靠的科学依据,为人类感知、预测物理世界提供前所未有的丰富信息。例如:通过对气候模型及海洋数据分析,发现了全球水循环的强化将导致全球2~3 ℃的升温[101],以及全球的升温将会导致小麦及咖啡的大幅减产[95, 102];通过对遥感及声学数据研究,可获知海洋中的生物群落和物种分布,为保证海洋生态平衡提供了丰富的科学参考[103] ;发现厄尔尼诺以非线性方式对印度尼西亚干旱条件作出响应,并加剧火情及烟污染[104];通过对“海王星”计划获取的洋中脊岩浆活动观测数据进行分析,能够对海底地震活动进行预警预报[36]。通过对海洋浮游生物数据的研究发现,海水变暖及气候变化将导致美国及欧洲霍乱和其他传染病的增加[105];
如何更好地发挥海洋大数据优势,挖掘其蕴含的巨大价值将对人类社会的发展至关重要。NOAA建设了综合海洋观测系统[31],整合海洋观测的资源和技术来应对海洋应用的各类需求,同时为了应对不断增长的大数据处理需求,其将三个数据中心(气象数据中心,地质数据中心,海洋数据中心)联合组成国家环境信息中心NCEI,专门处理及应对地球系统数据信息相关应用需求。法国海洋开发研究院IFREMER作为欧洲领先的海洋数据研究机构,为应对海洋大数据管理及应用需求建设了9个数据发布中心,负责海洋大数据产品处理、存储和发布,支持不同领域的研究活动和基于空间数据的应用。2011年,法国海洋数据实验室的Nephelae平台项目率先采用大数据和云计算的相关技术,在云端对用户的请求以及数据进行处理,并返回结果。
海洋大数据的应用目前还存在以下问题:(1)在海洋数据标准方面,由于观测设备及应用的不同,以致数据难以得到统一管理与应用,因此如何打破壁垒,建立统一数据标准,以一种集成共享的模式分发空间数据、协同完成传统数据的处理是问题之一。(2)在海洋大数据共享方面,由于领域的独立性及数据的安全性,导致海洋数据往往产生众多信息孤岛,无法充分发挥数据价值,如何解决数据共享难题,避免信息系统的重复建设及资源的浪费是问题之二。(3)在海洋大数据分析方面,由于数据口径的不同,对于一体化的数据从融合、挖掘、可视化等技术存在兼容性较差的问题,如何将各学科融会贯通,突破关键通用分析技术,实现海洋数据一体化的分析是问题之三。(4)鉴于大数据全链条中前段问题的存在,导致海洋大数据应用落地的困难,如何实现海洋大数据的一体化产业化应用,为政府部门提供决策支撑,解决民生、国防、安全、环保等领域的问题,保障人类社会的健康持续发展是问题之四。综上所述,目前海洋大数据的应用仍存在许多问题仍需更深一步的研究与拓展。
3.2 海洋大数据应用前景

未来海洋大数据将广泛应用于海洋环境监测、防灾减灾、海洋资源开发、经济建设等领域,通过海洋大数据的挖掘分析,推动海洋行业应用的发展。在风暴潮监测中,利用海洋大数据结合沿海城市信息,通过大数据分析和挖掘,提升风暴潮预警报、防灾减灾、灾害评估水平;在远洋渔业中,利用海洋大数据结合船舶位置信息、作业信息、渔情预报,做到未捕先知,挖掘远洋渔业的规律和潜力;在溢油监测中,通过海洋大数据结合船舶交通信息、港口航道信息,分析溢油的特征和规律;在海洋资源开发中,利用海洋大数据,对油气开发的勘探、开发、维护提供全方位的支撑,提高油气田的生产效率。
此外海洋大数据充分挖掘及应用还很有可能解决一些长期困扰科学家的重要科学问题。如厄尔尼诺/拉尼娜,作为典型的气象异常,它会直接引起海温异常,导致天气、气候等不同尺度的海-气灾害,同时还会引起全球众多区域的极端天气、火灾、滑坡等次生及衍生陆地灾害。但是目前科学界对厄尔尼诺/拉尼娜的发生周期(2~7年)及机理研究尚不确定,无法做到准确预测及预报,特别在厄尔尼诺/拉尼娜发生当年,容易在西北太平洋和东北太平洋形成威力强大的登陆型台风和飓风,它们或北上或西移,对沿线国家的人类生命财产安全、社会经济发展等带来巨大的破坏。我们认为很有可能在海洋大数据支撑下解决这类重要的科学问题。
4 结语

从海洋大数据技术发展的趋势:看到这里在数据获取手段上,海观测技术向着更高(灵敏度)、更强(多任务、多功能)、更精(分辨率)、更准(标定能力)、更宽(观测范围)、更微小、更轻型以及更节省能源的方向发展。在数据分析技术上,随着探测及计算技术的不断发展,海洋领域内的数据体量、增长量和复杂性正在以前所未有的速度发展,这些丰富的数据资源对原有研究方法提出了挑战,也使得利用数据挖掘、机器学习等知识发现方法解决领域内的具体科学问题成为可能,科学研究范式从仿真模拟逐步转换为数据驱动。在数据行业应用上,随着人类对于海洋探测的不断推进,在此过程中产生了大量的数据,海量的数据资源如何处理对研究人员带来了巨大的挑战,但同时也为领域内重大问题的解决带来了机遇。相较于其他大数据领域,海洋大数据应用起步较晚,存在巨大挑战,并有待进一步推广及产业化。但同时针对海洋大数据的研究亦是巨大的机遇,既可影响到国家战略安全决策的宏观方面,也可影响到社会经济生活的微观层面[4]。大数据时代的到来孕育着海洋科学的新使命,海洋学理论指导下的大数据挖掘将成为海洋科学的新的生长点,也预示着透明海洋及智慧海洋时代的到来。