摘要:为实现铁路基础设施检测监测数据资源的全面整合,打破各专业、各应用系统间的数据壁垒,形成检测监测数据资源的全景视图,支撑全路检测监测数据的资产化管理,本文基于大数据技术,围绕铁路基础设施检测监测数据的接入(传输)、存储、治理、共享等数据管理业务设计并实现了铁路基础设施检测监测数据管理和集成分析服务平台,在完成检测监测数据资源全面集成整合的同时提供数据处理分析算法的注册管理、调度运用等集成分析服务,支持数据资产的精细加工和价值管理,支撑基础设施故障诊断、故障预测、状态评价等大数据分析应用。通过实际应用,验证了平台的可行性与实用性。
关键词:数据资产管理;检测监测;集成分析;大数据平台;铁路基础设施
世界各国铁路系统正积极探索利用大数据、人工智能等新一代信息技术,期望大幅提升铁路运输组织效率效益、优化客货运输服务品质和提高铁路运输安全水平。德国提出铁路数字化战略(铁路4.0),以提升乘客满意度为目标,通过建设统一的数据服务平台实现对经营状况和设备故障的精准分析。瑞士提出SmartRail4.0战略,意图进一步提高铁路系统运输能力和安全性,有效维护和利用基础设施,长期保持瑞士铁路的竞争力[1]。荷兰利用物联网技术监测铁路基础设施运营状况,综合运用大数据和人工智能技术预测基础设施服役状态的变化趋势,提出预防和修理建议[2-3]。提高检测监测数据的资产管理和深度挖掘能力,持续优化基础设施运营维护管理体系,实现基础设施运营安全和维护成本可控,已成为世界各国铁路基础设施运营维护可持续发展的共识和必由之路。随着我国铁路运营维护技术的快速发展,逐渐构建了移动周期检测、固定在线监测、现场人工检查等方式于一体的铁路基础设施检测监测技术体系。近十年积累了海量的基础设施运营状态检测监测数据,涵盖轨道、钢轨、桥梁、路基、隧道、接触网、通信、信号等专业,包括非结构化原始数据和结构化数据。这些数据对于铁路基础设施健康管理具有很高的应用价值,但其存储管理和分析应用的技术不够完善,导致无法完全发挥出其应用价值[4]。因此,有必要面向铁路基础设施综合一体化检测监测体系构建统一的检测监测数据管理分析服务平台,提供检测监测数据的统一接入(传输)、存储、治理、共享等数据管理业务,同时基于标准化算法的注册管理和调度应用支持检测监测数据的自动化处理和智能化分析,为检测监测数据分析技术创新提供开放的孵化生态环境。
1技术架构
在数据存储管理方面,既有业务系统相对独立,形成了专业范围的信息孤岛,且传统采用文件传输协议(FileTransferProtocol,FTP)的文件管理模式不能适应海量数据高效、安全的共享服务,导致数据资源难以共享,综合应用难以展开,整体效益难以发挥。在数据分析效率方面,各专业管理信息系统众多且相互独立,数据访问接口、分析算法、结果展示功能重复开发;数据处理分析算法版本管理困难,针对不同系统业务需求的算法接口不一致;非结构化数据缺少批量处理能力,数据分析时效性难以保证;不能有效支持非结构化数据的共享开放,权限及数据安全无法得到保障[5-鉴于以上问题,以模块化、标准化、服务化、平台化、架构易扩展为指导方针,以构建共享服务生态为中心思想,采用分层设计,坚持高内聚、低耦合、渐进性原则,设计了铁路基础设施检测监测数据管理分析服务平台(简称平台)。平台包括数据层和服务层,技术架构如图1所示。数据层对接各专业检测监测数据系统,具备灵活、可伸缩拓展的数据接收能力;将各专业信息系统数据和外部相关数据进行分类存储和有效组织,完成多渠道数据信息整合;不仅存储管理时序数据、图像数据、结构化数据等各类检测监测数据,还引入基础台账数据、外部数据(维修数据、运输数据、环境数据等),为数据集成分析提供全业务、全类型的数据信息资源。服务层为各业务应用提供数据批量处理、智能化数据处理、算法模型管理、标准化数据服务接口等能力,全面支撑基础设施检测监测数据统计、故障诊断、趋势预警、状态评价、维修决策等工作。
2关键技术
在数据分类存储、高效检索、大数据组件整合、平台界面优化、资源利用与部署等方面采用高新且成熟稳定的信息技术,构建新一代数据管理平台,便于日后进行平台升级改造,保证平台的长久运转。平台关键技术如图2所示。
2.1数据分类存储技术
平台支持多源异构的数据存储。采用关系型数据库(OracleDB)存储结构化原始数据;采用分布式文件存储非结构化原始数据;采用NoSQL数据库(MongoDB)存储非结构化分析结果文件;采用基于Hadoop分布式文件系统(HadoopDistributedFileSystem,HDFS)的数据仓库(Hive)存储面向主题的结构化分析结果数据;采用关系型数据库(MySQL)存储面向分析的结构化分析结果数据;采用时序数据库(InfluxDB)存储时间序列的高频分析结果数据[7-8]。
2.2数据高效检索技术
通过Elasticsearch解决分布式、高扩展、高实时的搜索与数据分析需求,使大量检测监测数据具有搜索、分析、探索能力,实现平台检测监测数据全生命周期管理及高效全文检索。充分利用Elasticsearch的水平伸缩性,提高数据的价值。Elasticsearch的实现原理为:首先用户将数据提交到Elasticsearch数据库中,再通过分词控制器将对应的语句分词,将其权重和分词结果一并存入数据库;用户搜索数据时,再根据权重将结果排名、打分;最后将返回结果呈现给用户[9]。
2.3大数据组件整合技术
通过SpringCloud对平台开发过程中使用的大数据相关组件进行有效整合,实现服务的高可用性,提高平台稳定性。SpringCloud为平台提供了微服务开发所需的配置管理、服务发现、断路器、智能路由、微代理、控制总线、全局锁、决策竞选、分布式会话、集群状态管理等组件。与SpringBoot框架一同使用可以使开发微服务架构的云服务非常便捷[10]。
2.4平台界面优化技术
通过Vue构建用户界面的渐进式框架,优化平台界面展示效果,提升用户体验。与其他重量级框架不同,Vue作为渐进式框架,采用自底向上增量开发的设计。Vue的核心库只关注视图层,易学习,易与其他库或已有项目整合;Vue完全有能力驱动采用单文件组件和Vue生态系统支持的库开发的复杂单页应用,通过简单的API(ApplicationProgrammingInterface)实现响应的数据绑定和组合视图组件[11]。
2.5平台资源利用与部署技术
采用K8S+Docker的容器化管理策略和基于YARN(YetAnotherResourceNegotiator)的资源调度管理器实现应用负载及平台资源调度管理,实现更高效的平台资源利用、更便捷的可持续部署工作。Docker在容器的基础上进行了平台功能组件的进一步封装,从文件系统、网络互联到进程隔离等,极大地简化了容器的创建和维护[12]。
3主要功能
平台支持多源异构数据归集、存储、治理和共享能力,以及数据处理分析算法的注册管理和调度应用,为故障诊断、趋势预测、状态评价等智能分析业务提供平台支撑。平台功能架构如图3所示。
3.1数据汇聚
平台支持多源异构数据、多类型的数据接入及多种协议的数据接入;支持数据汇聚过程的日志管理,对日志进行可视化展示,以便监控采集的整个过程。数据归集涵盖基础设施台账(主数据)和检测监测数据,后者按照数据来源可分为移动检测数据、固定在线监测数据、现场小型仪器检查或人工观测数据。
3.2数据存储
对于结构化数据(结构化检测监测数据、偏差数据、台账数据、元数据等),其中结构化检测监测数据、偏差数据、元数据等通常会有修改要求,要具备事务处理能力,采用关系型数据库(如Oracle、MySQL)进行数据存储。对于半结构化二进制文件,如各类检测车检测的原始波形文件,会有高频处理分析需求,采用时序数据库(InfluxDB)进行数据存储。对于图像、视频、文档类非结构化数据,由于数据量较大,采用分布式文件存储和NoSQL数据库(MongoDB)进行存储。
3.3数据治理
通过汇聚各类型检测监测数据生成元数据信息,形成检测监测数据资产目录。根据不同数据源的特点,规范化数据文件格式、编码规则,配合元数据实现数据标准化治理。以后续自动化分析能够使用质量良好的数据源为最终目标进行数据治理和质量评价,主要包括完整性、规范性、有效性和可用性等[13]。
3.4数据共享
基于对检测监测数据的权限控制、设置检测监测数据的更新策略和频次,实现信息资源同步。通过数据的访问、下载和标准化API服务接口等方式为各部门间信息共享交换和业务协同提供数据支撑服务。
3.5算法注册
提供数据处理分析算法的封装、配置、发布的统一管理。封装带有业务逻辑的组合算法、独立算法和数据服务接口;基于算法的最小单位提供注册、创建、配置算法运行所需资源环境;变更、发布、监控算法全生命周期管理。保存算法组件的元数据,包括调用方式、请求协议、功能介绍、参数配置、版本、算法仓库地址等信息。各部门根据不同业务需求在权限范围内调用平台上已注册算法,实现灵活可控的算法共享。
3.6任务调度
对数据采集、数据清洗、数据分析等大量任务单元执行顺序进行配置,并完成各任务的调度执行。
3.7资源监控
实现对数据接入、数据存储和数据服务全面监控,同时对CPU、内存、磁盘、网络等状况进行底层服务集群的主机级监控。
3.8安全服务
使用HTTPS(HyperTextTransferProtocoloverSecureSocketLayer)安全协议和SFTP(SecretFileTransferProtocol)进行业务信息的安全传输与文件机密性保护;对数据进行完整性验证,对缺失和异常数据进行记录跟踪与恢复,对敏感数据进行加密与脱敏;通过WebService接口和XML文件,与第三方系统进行集成和数据交互,同时保存收发数据的消息日志,禁止第三方系统直接访问数据库[14];采用双机部署拓扑,确保关键节点发生故障时能迅速进行服务节点切换及故障节点恢复;审核并记录针对平台数据进行的业务逻辑操作及事件的详细描述;通过单点登录、密码强口令等方式控制用户登录,按照业务职能进行角色划分,对于平台功能细化至菜单级,控制用户权限粒度。
3.9应用服务
通过对数据“入-存-管-出”全过程管理和数据处理分析算法管理,为业务应用提供检测监测数据与数据分析算法方面的支撑,支持各业务应用实现数据展示、故障诊断、趋势预警、状态评价和综合展示,为检测监测数据分析技术创新提供开放的孵化生态环境。
4结语
本文面向铁路基础设施检测监测数据资产化管理、自动化和智能化分析要求,设计并实现了铁路基础设施检测监测数据管理分析服务平台。平台提供检测监测数据的接入、存储、治理、共享等专业化管理服务;整合检测监测数据资源,打破各专业、各应用系统间的数据壁垒,形成检测监测数据资源的全景视图;支持数据资产的精细加工和价值管理,为检测监测数据融合分析、深度挖掘等智能化分析提供平台支撑和数据服务。平台在成都铁路局正式投入使用,已完成2019—2020年度轨道几何检测数据的资产化管理和检测里程校正自动化处理,充分验证了平台的可行性与实用性。后续将利用5G无线通信技术,将检测监测数据自动接入数据管理服务平台,逐步形成数据驱动的基础设施故障诊断与健康管理分析能力;同时完善检测监测数据管理分析服务平台的兼容性,为算法研发提供开放的测试验证和应用孵化生态环境。
作者:陶凯 郭奇园 代春平 单位:中国铁道科学研究院集团有限公司 基础设施检测研究所 北京铁科英迈技术有限公司
返回管理论文列表