论文部分
- 619 -
基于语义匹配的电力两票工作内容解析
南京南瑞信息通信科技有限公司,雷丙华、李盛盛、王沈亮、李莉、唐建
摘
要:针对电力生产过程中部分工作票与操作票未关联作业设备与作业类型,导致成本无法随作业伴生、设备成
本量化缺失等问题,提出一种基于语义匹配的电力两票工作内容解析方法,利用命名实体识别技术提取两票工作内容中
作业设备与作业类型的实体语义向量,并建立设备名称与作业类型名称的标准语义向量库,通过构建融合相似度与重合
度的语义匹配模型,运用语义匹配范围控制策略,进行实体语义与标准语义的匹配,实现工作内容中标准作业设备名称
与标准作业类型名称的准确提取。以某电力公司变电专业两票为数据集开展解析实验,结果表明,所提方法的检出率为
89%,准确率为 72%,可有效实现电力两票工作内容解析。
关键词:语义匹配;BERT;电力两票;工作票;操作票
引言
两票是指电力生产中的工作票和操作票,它们
记录了工作人员在设备运行维护过程中的具体操作
步骤、安全要求等信息,由于两票管理颗粒度不足、
信息录入不准确等原因,部分票据存在未与作业设
备、作业类型关联的情况。生产成本量化根据作业
类型与作业成本实现两票成本随作业伴生,根据作
业设备与作业成本实现设备成本量化,作业设备与
作业类型缺失的票据无法实现成本伴生及量化至设备。
解析两票工作内容,提取作业设备与作业类型,
构建票据与设备、作业的关联关系,成为生产成本
量化提升的重要手段。由于电力设备层级关系复杂、
人为填写习惯不同等原因,工作内容中填写的作业
设备名称与作业类型名称表现出较强的多样性,无
法直接建立与台账中标准设备名称、标准作业成本
库中标准作业类型名称的关联关系。传统的信息提
取与匹配方法往往依赖于关键词或规则,难以适应
不同的场景和语境变化,准确率较低。基于语义的
信息提取与匹配方法通过预训练的语言模型学习词
语之间的语义关系,可以更好地理解文本内容,适
用于不同领域和语境,能够有效提升匹配的准确性。
但在电力两票工作内容解析方面,目前未见相关研
究和应用。
为此,本文提出一种基于语义匹配的电力两票
工作内容解析方法,利用基于 BERT(Bidirectional
Encoder Representations from Transformers)的
命名实体识别技术提取工作内容中作业设备与作业
类型的实体语义向量,并建立标准语义向量库,对
实体语义和标准语义在相似度、重合度方面进行匹
配,实现两票工作内容中标准作业设备名称与标准
作业类型名称的提取。
1 相关研究
语义匹配是自然语言处理领域的一个重要研究
方向,旨在衡量两个文本之间的语义相似度或相关
性,其主要包括两方面任务,一是从文本中提取语
义信息,二是基于语义信息进行文本的搜索匹配。
早期,研究者们通过 one-hot 编码、TF-IDF 等方式
将文本表示为向量,通过计算向量之间的空间距离
或相似度来进行文本匹配,这种方法主要基于词频
统计实现文本向量化,虽然一定程度上提高了匹配
的准确性,但是存在词语歧义和语义理解不足的问
题。随着深度学习技术的发展,研究者们开始利用
神经网络进行语义匹配任务,通过神经网络学习输
入数据的分布式表示,更好地捕捉词语之间的复杂
打分:
0 星