老哥学习网 - www.lg9.cn 2024年04月29日 03:28 星期一
当前位置 首页 >公文范文 > 公文大全 >

大数据技术在油气行业事故事件致因分析中的应用

发布时间:2023-03-15 15:40:12 浏览数:

阎红巧,樊志强,郝壮远

(中国石油集团安全环保技术研究院有限公司HSE信息中心,北京 102206)

油气行业具有易燃易爆炸、有毒有害、高温高压等生产特点,一旦发生事故,不仅会造成重大的经济损失,而且会带来严重的社会影响,因此防范安全事故的发生是石油及天然气企业安全管理的重要目标和方向。然而,近年来油气生产企业同类型安全事故重复发生,其重要原因是企业对历史事故事件发生的原因认识不足。随着信息化技术的发展,企业积累了大量的事故事件报告数据,但文本挖掘技术的不足限制了事故事件资源利用的程度。

目前,我国对事故事件资源的利用水平仍然处于落后阶段,主要表现在以下两个方面:一是在某起重特大事故发生后对事故原因进行深刻剖析,以预防同类型事故再次发生;
二是采用人工方式批量分析事故数据,统计各类事故发生的规律,为事故预防提供依据。上述两者都是针对油气生产企业事故发生原因和发生规律展开的分析与研究,但均存在一定的局限性:前者主要是针对某一起事故开展事故原因的分析,其数据量小,因而难以发现事故发生的共性原因;
后者利用人工方式对事故原因开展分析,虽然其分析结果有一定的价值,但效率低。相比之下,挖掘方法将事故调查报告作为数据源,可从事故调查报告中获取事故发生时的特征信息,有利于解释事故发生的规律。基于文本挖掘方法的思路,许多学者利用文本挖掘方法对事故原因进行了分析,如薛楠楠等通过对334份建筑施工安全事故报告进行分析,识别出8项建筑工人不安全行为和27项影响因素;
李解等首次运用 R语言和文本挖掘方法,从151份地铁施工事故报告中提取了6项关键因素和23项一般因素。但这些研究大多只是关注施工安全事故的原因,对油气行业事故影响因素的研究相对较少。为此,本文以油气生产企业事故事件数据为基础,通过建立领域专业词库和停用词库对事故事件数据进行分词,建立了词向量并基于FastText算法形成了与油气生产企业事故事件信息相匹配的HSE文本语义分析模型,并利用其自动提取大量事故调查报告中失效屏障类型、屏障失效原因,进而揭示导致事故屏障失效的管理因素,为寻找油气生产企业安全管理缺陷与事故预控提供依据。

本研究收集了某油气生产企业2000—2018年事故数据,数据类型为非结构化文本数据,包括事故经过描述、事故原因描述等,并考察数据的完整性和可用性。原始事故数据示例如表1所示。

表1 原始事故数据示例Table 1 Example of raw accident data

基于自然语言处理技术,利用事故数据建立训练样本,构建了HSE文本语义分析模型,并利用该模型从1万余条事故数据中自动提取失效屏障类型、屏障失效原因和导致屏障失效的管理因素,进而进行了统计分析,其流程主要包括数据预处理、建立机器学习样本、建立HSE文本语义分析模型、模型应用、结果可视化分析和建议与措施6个环节,见图1。

图1 事故事件归因分析流程Fig.1 Cause analysis process of accidents and incidents

2.1 数据预处理

本文数据预处理主要包括数据清洗、数据集成和数据缺失标记三项任务。本文主要分析事故事件发生的原因,由于原始事故文本数据中一些不相关的信息并不会为分析模型的构建提供重要信息,反而会在模型训练期间制造噪音,因此需要通过数据清洗将其从训练集中去除;
此外,原始事故文本数据中还存在缺少“事故经过描述”或者“事故原因描述”字段的事故,因此需要通过数据集成以完善事故事件报告信息;
最后,针对数据集成之后依然缺失信息的事故事件数据,则标记为数据来源不明,后续不参与建模。

2.2 建立机器学习样本

本文在屏障理论的基础上建立了机器学习样本。屏障是指在事故早期阶段可以阻止危害因素进一步向事故演变的措施,它可以限制危害因素产生的伤害和后果。每一个屏障,如果其完好,都应该能够完全阻止事件的进一步发展。

2.2.1 数据标注

在屏障理论的基础上,通过注解、打标签的方式建立机器学习训练样本。建立训练样本是本文的关键,这项任务需要具备石油领域专业知识和安全专业素养的人员完成,需逐一识别出事故中失效的屏障类型,并依次分析屏障失效原因和导致屏障失效的管理因素。值得说明的是,失效屏障类型、屏障失效原因和导致屏障失效的管理因素具有对应关系。针对每一份事故调查报告,标记其失效的屏障类型、每类屏障的失效原因和导致屏障失效的管理因素,形成机器学习训练样本。训练样本建立的流程见图2,训练样本示例见表2。

图2 机器学习样本建立流程Fig.2 Process of constructing training samples for machine learning

表2 机器学习训练样本示例Table 2 Examples of training samples for machine learning

2.2.2 事故事件归因

形成事故事件归因分类列表是建立机器学习样本的基础。基于建立机器学习样本的需要,事故事件归因列表包括三部分,分别为屏障类型列表、屏障失效原因列表和导致屏障失效的管理因素列表。

(1) 屏障类型列表。本文参照国际油气协会(International Association of Oil & Gas Producers,简称IOGP)的做法,将屏障划分为技术屏障和人员屏障。其中,从安全功能角度将技术屏障分为8类,见表3;
基于人员在人机系统中的典型活动将人员屏障分为5类,见表4。

表3 技术屏障类型Table 3 Technical barrier types

表4 人员屏障类型Table 4 Human barrier types

(2) 屏障失效原因列表。本文将屏障失效原因列表分为技术屏障失效原因列表和人员屏障失效原因列表。其中,技术屏障失效的原因分为7类,见表5;
人员屏障失效的原因分为7类,见表6。

表5 技术屏障失效的原因Table 5 Reasons for technical barrier failure

表6 人员屏障失效的原因Table 6 Reasons for human barrier failure

(3) 导致屏障失效的管理因素列表。基于国际HSE管理体系和油气行业特点,将导致屏障失效的管理因素分为13类,见表7。

表7 导致屏障失效的管理因素Table 7 Management factors leading to barrier failure

2.3 建立HSE文本语义分析模型

HSE文本语义分析模型的构建过程即为训练HSE文本分类器的过程。本文采用监督式的FastText模型训练HSE文本分类器。FastText模型架构如图3所示,其包含输入层、隐含层和输出层。其中,隐含层是模型固有结构,在此不做具体说明;
输出层为分类器;
输入层是文本向量,其处理方式决定了HSE文本语义分类模型的分类效果。

图3 FastText模型架构图Fig.3 Architecture diagram of FastText Model

FastText模型架构图中

x

表示文本中第

i

个词的特征向量,文本向量为词向量的平均值,因此分词效果对于文本向量的正确表达至关重要。本文通过爬虫技术、行业标准和新词发现等功能建立了包含19 999个领域的专业词库,并将基于领域专业词库形成的文本向量作为模型输入层。在训练分类模型之前将数据分割为训练集和验证集,其比例分别为70%和30%,验证集用来评估分类器的性能。构建HSE文本语义分析模型的步骤,见图4。

图4 HSE文本语义分析模型的构建步骤Fig.4 Construction steps of HSE text semantic analysis model

值得说明的是,由于本文训练数量有限,因此在建立机器学习样本时采用的是关键词标注方式,这样机器可以高效、精准地学习事故事件归因知识,从而大大提高模型构建的效率。通过两次模型调优和迭代,本文最终训练得到的分类器模型的准确率为85%、召回率为82%,模型基本可以满足事故事件归因信息的提取需求。

2.4 结果可视化分析

本文利用构建的HSE文本语义分析模型自动提取海量事故事件报告中失效屏障类型、屏障失效原因和导致屏障失效的管理因素,并通过统计其分布规律,将结果以图像的形式直观地展示出来,达到所见即所得的效果。

2.5 建议与措施

基于事故事件归因分析结果,结合企业风险特点及其事故事件相关管理办法,从防范事故事件发生的角度,提出了相应的防控建议与措施。

本文首先采用某油气生产企业300个事故报告数据作为训练样本,构建了事故事件归因分类器,并利用此分类器从1万余条事故事件数据中自动提取失效屏障类型、屏障失效原因和导致屏障失效的管理因素,最后通过可视化的方式展示失效屏障类型的分布规律,并将其与屏障失效原因和导致屏障失效的管理因素进行关联,寻找HSE管理的缺陷和短板,为持续改进HSE管理提供建议。

3.1 失效屏障类型分析

几乎每起事故事件都是技术屏障和人员屏障失效叠加所导致的,图5和图6分别展示了不同技术屏障类型和人员屏障类型对事故事件影响的比例。

由图5和图6可知:技术屏障类型中结构完整性屏障失效导致的事故事件数量最多,其导致了22%的事故事件;
人员屏障类型中人员操作屏障失效导致的事故事件数量最多,其导致了59%的事故事件。

图5 不同技术屏障类型失效对事故事件的影响比例Fig.5 Influence ratio of different types of technical barrier failure on accidents and incidents

图6 不同人员屏障类型失效对事故事件的影响比例Fig.6 Influence ratio of different types of human barriers failure on accidents and incidents

3.2 屏障失效原因分析

本文利用热力图展示了事故中13类失效屏障类型与屏障失效原因之间的关联关系,见图7。其中,横轴为失效屏障类型,纵轴为屏障失效原因;
颜色的深浅代表了占比大小,颜色越深表明两者之间的关联关系越密切。

由图7可知:装置/设备设计缺陷和装置/设备运行控制缺陷分别造成了40%和19%的结构完整性屏障失效,它们是结构完整性屏障失效的关键原因;
安全意识缺乏/疏忽/失误和安全知识/技能不足分别造成了60%和13%的人员操作屏障失效,它们是人员操作屏障失效的关键原因。

图7 事故中失效屏障类型与屏障失效原因之间的关联关系Fig.7 Correlation relationship between failure barrier types and barrier failure causes of accidents and incidents

3.3 导致屏障失效的管理因素分析

事故中失效屏障类型与导致屏障失效的管理因素之间的关联关系,见图8。

图8 事故中失效屏障类型与导致屏障失效的管理因素之间的关联关系Fig.8 Correlation relationship between failure barrier types of accidents and incidents and management factors causing barrier failure

由图8可知:设备管理因素和风险防控与隐患排查治理因素分别造成了27%和11%的结构完整性屏障失效,它们是结构完整性屏障失效的关键管理因素;
风险防控与隐患排查治理因素和教育培训因素分别造成了31%和14%的人员操作屏障失效,它们是人员操作屏障失效的关键因素。

本文采用国际石油及天然气行业主流的事故致因理论——屏障理论分析了事故事件调查报告数据,建立了适用于石油石化行业的HSE文本语义分析模型,并从1万余条事故事件数据中自动提取与分析了事故事件中失效屏障类型、屏障失效原因和导致屏障失效的管理因素,得到如下结论与建议:

(1) 59%的事故事件与人员操作屏障失效有关,22%的事故事件与结构完整性屏障失效相关;
安全意识缺乏/疏忽/失误和安全知识/技能不足是导致人员操作屏障失效的关键原因,装置/设备设计缺陷和装置/设备运行控制缺陷是导致结构完整性屏障失效的关键原因。

(2) 员工教育培训不到位和风险管控与隐患排查管理不到位分别是导致人员操作屏障失效和结构完整性屏障失效的共性管理因素,建议从事故预防的角度,采用虚拟现实技术、借助模拟操作机来切实提高员工的安全技能水平,并设计科学的员工培训效果考核指标,减少员工违章、误操作不安全行为,同时提高员工的风险辨识能力,加强风险隐患排查治理工作,切实减少事故的发生。

(3) 采用本文构建的HSE文本语义分析模型,只需1 min即可实现对1万余条事故事件报告信息的提取,而人工提取每份事故事件报告信息至少需要30 min,分析效率提高了约30万倍,为事故事件资源价值的利用奠定了技术基础。

(4) 语义分析模型领域专业词库和事故事件样本的全面性、均衡性、数量对模型性能指标的影响较大,未来计划完善领域专业词库、补充事故事件样本数据数量和质量,持续迭代优化模型,以提高HSE文本语义分析模型的准确率和召回率。

猜你喜欢 分析模型屏障语义 韩国语“容入-离析”关系表达及认知语义解释东疆学刊(2022年2期)2022-04-22基于语义的在线协作会话学习投入自动分析模型及应用研究电化教育研究(2022年3期)2022-04-14屏障修护TOP10小资CHIC!ELEGANCE(2021年36期)2021-10-15一道屏障艺术评鉴(2020年5期)2020-04-30基于大规模弹幕数据监听和情感分类的舆情分析模型华东师范大学学报(自然科学版)(2019年3期)2019-06-24防洪屏障发明与创新·中学生(2018年11期)2018-11-30基于Hadoop的商业数据可视化分析模型的研究电脑知识与技术(2016年6期)2016-06-06层层深透 肌底的保湿屏障Coco薇(2015年1期)2015-08-13

推荐访问:油气 事故 事件

相关文章:

Top