在全球工业步入4.0时代之时,智能化也在航运与船舶工业中兴起。赛博物理系统(CPS)、物联网(IoT)、大数据(Big data)在航运与船舶工业界也开始成为热点话题。MARINTEK公司长期在航运和船舶信息化方面投入研究,在业界拥有较高的知名度。海事研究中心编译整理了该公司2016年中发表的关于未来航运和船舶中大数据应用的相关研究成果以供参考。尽管目前航运和船舶工业中的数据规模尚与“大数据”有所差距,但不妨从大数据的视角审视未来智能化的航运业中对大规模数据的组织和利用趋势,发掘未被利用的数据资源,实现更安全、更经济、更环保的航行。
1 航运和船舶中的主要数据源
1.1 船桥数据网络、各类船载设备
船桥系统与设备间常有标准化或定制的数据接口,使得数据的集中收集成为可能。随着IMO和船旗国对船用设备的种类要求逐渐增多,数据源也在随之增加。此外,一些特殊设备如波浪雷达、溢油监测装置、惯导设备等也能够通过标准或非标准的接口提供大量数据。
1.2 自动化控制系统和赛博物理系统
无论是传统的自动控制系统和新兴的CPS中都集成了多种设备和信息系统,产生大量数据。但系统中数据的可获取性和数据质量常有参差不齐的情况。
1.3 性能监控系统
过去几年,船舶装载性能监测和优化设备的情况较多。这类设备包括轴扭矩测量仪、燃油流量计、环境状态传感器等,通常都是高质量的数据源。但因一些监测和服务由第三方机构提供,除数据可获取性会受到一定影响,成本因素也需要考虑。
1.4 船舶报告数据
船舶向岸端发送的大量运营和管理报告是重要的数据源,是很有价值的数据输入。但由于部分内容需要依靠人工输入,加之存在刻意误报(以逃避监管)的情况存在,数据质量存在不确定性。
1.5 外部监控数据:AIS和VTS
AIS的推广提供了大量的数据(例如位置、速度、航向等更新频率可高达每10秒1次)。获取AIS数据较为便利,但数据质量和花费会随着提供方不同而发生变化。另一方面,VTS中包含与船舶运行和状态有关的大量数据,但通常不可公开获取。
1.6 气象数据
包括气象预报数据和历史数据,获取较为便利。
1.7 港口数据
港口和船舶代理对船舶近港和港口内的活动情况有详细的记录,可提供详细的误期、装卸货时间等数据。这类数据常用于相关资费的计算,因此较为准确。
2 船舶数据收集中的障碍因素
2.1 场景相关的数据质量问题
用于不同目的(如用于精确控制和阈值警告)的传感器在数据质量上也有差异;同类的传感器在使用场景不同的情况下,对数据质量的要求也会有所差异,于是便导致了整个系统中的数据质量不统一问题。对于在脱离原始场景情况下获取的原始数据(例如船舶上安装有相当数量的位置传感器,但每个传感器都有独立的参照位置点),需要对其可用性仔细核对并在必要时予以校正。
2.2 外部环境影响问题
外部因素可导致数据质量下降的问题。例如对水船速、风速等的测量可能因传感器设置的位置不同而产生差异。设置在船体外部的传感器可能因外力损坏、污染物附着、性能衰退等因素造成无效数据的出现。
2.3 人工输入引起的错误问题
人工数据录入错误是一种重要的数据错误来源。随着船舶自动报告成为IMO E-航海战略实施计划中的高优先级方案之一,这一问题将有望得到逐步解决。
2.4 主观/蓄意误报数据问题
一些有商业用途的敏感数据存在被认为误报的可能性。虽然现今数据的真实性可被很大程度地交叉验证,但处理商业敏感信息时仍需警惕这一问题。
2.5 专有数据和接口问题
部分船舶设备和系统没有配备通用的数据格式和接口,导致信息的获取需要付出额外的成本(包括转接设备、人工服务等)。随着更多新造船舶自设计之初就具有较高的集成度和标准化的数据格式和接口,这一问题有望得到逐步解决。
2.6 AIS 和卫星数据获取中的伪数据问题
由于AIS和卫星数据的获取与基站和接收弧段等因素有关,船舶获取数据的时间间隔可能呈不规则分布状态。相应的数据过滤和插值可能导致伪数据的产生,并导致部分数据的可信度降低。
2.7 赛博空间安全问题
高度数字化和信息化的船舶系统对赛博空间安全提出的很高需求。例如对船舶通信链路的入侵可能导致导航设备被“劫持”,从而产生错误数据。因此通过技术手段确保网络安全和对数据进行查验十分必要。
3 船舶和航运大数据的管理和使用
对数据的管理和使用主要分为三个角度考虑:即存储管理、数据质量管理和分析利用。
3.1 存储管理
存储大量数据的过程中,对冗余数据的处理直接影响到存取效率和后期分析的准确性,即需要在不丢失重要信息的情况下对冗余数据进行合理取舍。该研究提出了一种二级数据处理机制:在第一级对数据进行简单初筛,并存储尽可能多的信息;第二级使用专用算法对数据进行提取并进行结构化处理,供后续分析使用。
3.2 数据质量
数据质量问题大致可分为四类:(1)不可靠数据、(2)场景相关的伪数据、(3)技术性伪数据、(4)非对应数据。可通过对传感器系统的校正、异常值检测、统计学检测等技术手段和数学方法进行质量控制和管理,去除或减少无效数据。
3.3 数据利用
对大数据的利用主要有两种模式,即“基于模型”和“基于发现”。前者可利用大量数据对各种模型和理论假设进行验证,但前提是要有已知模型的存在。后者的优势在于发现新的数据关联性和规律,但要考虑结果适用性的风险(即结果可能存在较大的随机性)。
4 大数据应用的时效性
航运业有多种潜在的基于大数据的应用场景,时效性可从实时的在线决策到长期的船队数据统计分析等。
4.1 在线决策支持
此类应用将使用实时数据或调用短期历史数据记录进行计算处理,以支持与动力输出、船舶航向控制等相关的实时任务,例如恶劣气象条件下的决策支持、动力优化等。
4.2 船舶性能优化和维护
此类应用基于较长期的数据积累,例如对船舶机械设备运行状况进行长期跟踪,以相应地监测船舶设备状态,对维护计划进行优化管理。
4.3 船队优化
更大的数据集合可以用于比较同类船舶在一定时间内的性能,可用于特定航线船队的性能分析,提供优化的运营策略。
4.4 预测分析
大数据可用于新船的设计和性能预测,即结合新船的虚拟模型,引入历史数据用于预测新船在各种工作条件下的性能特点,为设计迭代提供依据。
大数据应用是一把双刃剑。一方面,对大量数据的利用无疑将能够提供更多支持航运和船舶工业的工具和手段;另一方面,数据的质量和处理方法可能使分析结果产生偏差,为管理和运营产生负面影响。但获取、存储、积累、传输和最大化利用大量数据的趋势在航运中是明确的,与航运和船舶工业的智能化密不可分,正在成为智能时代全新的挑战和机遇。(来源:吴笑风 国际海事研究中心)