基于图计算的电力系统知识推理方法:考虑知识图谱的稀疏性

《CSEE Journal of Power and Energy Systems》:Graph Computing Based Knowledge Reasoning in Electric Power System Considering Knowledge Graph Sparsity

【字体: 时间:2025年11月20日 来源:CSEE Journal of Power and Energy Systems 5.9

编辑推荐:

  针对电力领域知识图谱稀疏性带来的计算效率低和分类精度不足的问题,提出基于Haar基的多尺度图神经网络方法,通过构造稀疏Haar基优化计算,引入多尺度机制整合不同层信息,有效提升分类准确性和模型泛化能力。实验验证在NCI-1、CEPRI_UHVP、CEPRI_EQUIP数据集上优于传统GNN模型。

  知识图谱作为一种快速发展的技术,已在商业和工程领域展现出强大的应用潜力。它在推荐系统和决策支持中发挥着重要作用,尤其在电力行业,其应用场景更加广泛。然而,电力领域的知识图谱具有复杂的因果关系网络,节点数量庞大、边的类型多样且结构稀疏,这些特性使得传统的人工处理方式难以保证数据质量和准确性。因此,如何在这些挑战下提升知识图谱的分类和推理性能成为亟待解决的问题。本文提出了一种基于图计算的知识推理方法,通过考虑电力知识图谱的稀疏性,以提升图分类任务和知识推理任务的准确性。该方法采用Haar基来实现快速计算,并引入多尺度网络结构以确保分类的准确性和模型的泛化能力。通过在NCI-1、CEPRI_UHVP和CEPRI_EQUIP三个数据库上的实验验证,该方法在精度和损失方面表现出显著的优势。

知识图谱是知识工程的一个成功应用,是人工智能技术中的关键技术。我们日常使用的搜索引擎、电商平台的智能推荐等都依赖于知识图谱的构建和推理。知识图谱被定义为一种结构化的语义知识库,用于描述客观世界中的实体及其关系。追溯至20世纪50年代,知识图谱与当时提出的语义网络理念有着相似之处。随着电力系统数字化进程的加快,所产生的数据和知识呈现出规模大、类型多样、处理效率低等特点。知识图谱及其推理技术可以将电力系统的网络拓扑、设备信息、管理系统等信息有机融合,从而实现对电网运行的数字化和对电网决策的智能化。

然而,在电力系统中应用知识图谱仍然存在诸多困难:1)知识元素的标注依赖于业务经验,需要大量的人工投入;2)人工标注的知识图谱质量难以保证;3)推理模型的性能和泛化能力不足。因此,电力领域的知识图谱无法像其他领域那样被广泛应用于批量任务。本文主要针对第三个问题进行研究,而前两个问题的成果将在后续论文中发布。

除了简单的统计分析和最优路径搜索,基于图计算的知识推理已经成为一个热门研究领域。随着越来越多的图数据集展现出非欧几里得的隐藏模式,这种研究变得尤为重要。复杂且不规则的图数据对传统卷积神经网络和循环神经网络提出了巨大挑战。在这种情况下,出现了针对图数据的神经网络学习方法。

尽管传统的图神经网络(GNN)以知识图谱中的节点、边和子图作为输入,但大多数方法并未充分考虑知识图谱的拓扑结构或节点之间的依赖关系。因此,传统GNN方法通常存在计算效率低和模型复杂度高的问题。为了解决这些局限性,本文提出了一种基于图计算的知识推理方法,该方法充分考虑了电力知识图谱的稀疏性,以提高图分类的准确性。针对传统谱聚类算法如DiffPool所需的大量傅里叶基计算,我们采用了小波池和快速小波变换来降低计算成本。此外,考虑到Haar基在业务知识基础上易于计算,我们提出用Haar基替代傅里叶基,以进一步节省计算资源。为了减少池化层中信息传递过程中的损失,我们引入了多尺度结构,将多个池化结果整合后送入读取模块进行计算,从而提高GNN模型的性能。

本文的主要贡献如下:

1)高效池化计算策略
我们提出了一种基于Haar基的高效池化计算策略,以降低GNN的计算成本,同时考虑到电力知识图谱结构的稀疏性。

2)多尺度机制
我们提出了一种多尺度机制,将多个池化层的多个池化结果进行整合。这种机制能够减少图神经网络在信息传递过程中可能产生的损失,防止分类精度和模型泛化能力的下降。

知识图谱的构建是实现其应用的基础。在电力领域,知识图谱的构建方法通常采用自上而下、自下而上以及两者结合的方式。自上而下方法利用现有的结构化知识数据获取电力知识图谱的结构信息,并将其添加到知识库中。自下而上方法则从开放的非结构化数据中提取实体、概念、关系、属性、属性值等信息,逐步构建知识图谱的结构。在电力领域,通常采用自上而下和自下而上相结合的方法。首先,我们利用结构化数据和专家知识引导电力知识图谱的构建,随后,将实际电力运行中产生的各种数据与已建立的知识图谱结构进行对齐,以实现自下而上的知识图谱构建。知识图谱的构建涉及知识提取、知识融合和知识处理三个核心步骤。知识提取是指通过识别、理解、归纳和存储等过程,从信息源中提取知识,形成知识元数据库。知识融合旨在解决同一实体或概念在多源描述中的整合问题,以及多知识库或知识图谱中的知识整合问题。通过语义层面的结合、推理和创造,可以获得新的知识。知识处理则是基于前两个步骤形成结构化的知识系统和高质量的知识,并实现对知识的统一管理。知识处理的主要问题是如何在编纂和组织知识时保留知识的来源信息。

在获得领域知识图谱后,我们可以将图谱中的节点、边和子图作为GNN的输入。由于电力知识图谱的特性,我们更关注如何处理其稀疏性和拓扑结构。稀疏性意味着边的数量远少于节点数量。具体而言,|E| ? |V|2,其中E表示边,V表示节点。拓扑结构反映了图的不变特性,即使图的形状发生变化,它仍然保持不变。它仅考虑节点之间的相对位置,而不考虑它们之间的距离。由于知识图谱中的节点并非全部相互连接,因此需要考虑其拓扑稀疏性,并采用如k-means、pSCAN、图社区检测等节点聚类算法或经验判断方法来构建GNN的稀疏基。

稀疏基的构建过程通常将一组具有相似特征或特性的节点视为一个簇。簇不仅展示了低层节点的连接方式,还整合了该组节点的特征。然而,在基于层次结构的聚类过程中,簇不仅包含节点的拓扑信息和特征,还包含簇自身的特征。因此,每一层的层次结构都会将更多的信息传递给下一层,并考虑具体应用场景的数据集。

由于电力业务知识相对确定,本文可以借助知识图谱的拓扑信息来完成稀疏基的构建。以电力设备知识图谱为例,通过参考技术标准和管理规范,可以看出设备、部件、组件和缺陷之间存在清晰的从属关系,因此可以基于业务知识构建层次结构,而无需使用聚类算法。稀疏基的构建过程输出一个包含K+1个图的聚类序列。其中,G?与原始输入知识图谱G相同,而G_K是该序列中的顶层,仅包含一个节点。对于i=1,?,K,每个图G_i中的节点代表图G_{i-1}中的一个节点集合(即簇)。一个从电力知识图谱中提取的简要示意图如图4所示。在该图中,输入图G包含28个节点和27条边。通过应用领域知识聚类过程,聚类序列包含五个图,其中G?仅包含一个节点。

稀疏Haar基被用于图神经网络模型的池化层,作为节点聚类机制。每个池化层都在稀疏基上对输入图G_{i-1}进行池化,输出一个更小的图G_i。稀疏Haar基可以确保最终输出的固定大小为一个节点,而无需考虑输入图的大小。此外,计算成本较低,其池化过程可以在几乎线性时间内完成。

多尺度图神经网络模型如图5所示,基于之前获得的聚类序列构建。输入为知识图谱G(即G?),输出为一个代表标签的向量。整个多尺度GNN模型包括三个部分:将输入传递给层次池化模块,将每个池化层的多个结果在读取模块中进行整合,最后利用多层感知机(MLP)重新加权读取模块的结果以生成输出标签。

传统的图卷积网络(GCN)模型如图6所示,仅包含一对图卷积层和一个池化层。池化后的图被传递给读取模块和MLP,以获得最终的图表示。

本文提出的多尺度GNN模型有两个关键区别:层次池化模块和多尺度机制。层次池化模块允许图中信息的逐层传递,从最细的层开始,输出最粗的层,从而提供比传统GCN模型更多的信息。多尺度机制则将所有池化结果整合到读取模块中,以缓解因图规模减小而导致的信息损失。这样,我们的模型能够充分利用拓扑信息,从而提高分类精度。

为了说明多尺度机制的工作原理,我们表示层次池化模块的输入为X_{in}^0, X_{in}^1, ?, X_{in}^{K-1},输出为X_{out}^1, X_{out}^2, ?, X_{out}^K。输入和输出的下标与聚类序列G?, G?, ?, G_K的下标相匹配。多尺度计算如公式(5)所示:

X_{cat} = ∑_{i=1}^{K} w_i ? σ(GAP(X_{out}^i) ° GMP(X_{out}^i))

其中,w_i是第i个池化结果的权重因子,σ(?)是激活函数,如ReLU和Sigmoid,GAP和GMP分别是全局平均池化和全局最大池化函数,°是连接函数。

在层次池化模块中,每个池化层的计算方式类似于公式(3)中的图傅里叶变换。我们表示第i个池化层为公式(7):

X_{out}^i = \tilde{U}_i^T X_{in}^{i-1} = ∑_{j=1}^{N} \tilde{U}_{i,j}^T x_{i-1,j}

其中,i=1,?,K,X_{in}^{i-1}和X_{out}^i分别表示第i-1层和第i层的输入和输出,N是图G_i的节点数,d是特征数。稀疏矩阵\tilde{U}_i提供了池化过程的信息传递方式,其尺寸为N_i × N_{i-1},将输入尺寸为N_{i-1} × d的矩阵转换为输出尺寸为N_i × d的矩阵。稀疏矩阵\tilde{U}_i的含义进一步说明:在包含两个图G_{i-1}和G_i的聚类序列中,池化过程涉及将图G_i中的某些节点视为图G_{i-1}中节点集合(即簇)的表示。这可以通过使用尺寸为1 × N_{i-1}的向量来体现,这些向量表示图G_{i-1}中节点属于图G_i中节点的程度。稀疏矩阵\tilde{U}_i实际上是正交矩阵U_i的前N_i个列向量,这些列向量表示图的低频信息,而其余列向量则表示高频信息。因此,稀疏矩阵\tilde{U}_i可以被视为正交矩阵U_i的前N_i个列向量。

在图分类任务中,我们进行了模拟实验,使用传统GCN模型作为对照组,本文提出的算法作为实验组。实验数据集包括NCI-1、CEPRI_UHVP和CEPRI_EQUIP三个数据集。NCI-1是一个广泛使用的数据集,包含化学分子和化合物。每个节点代表一个原子,边代表化学键。该数据集包含4110个样本,分为两组。图分类任务的目标是判断化合物是否具有抑制癌细胞生长的特性。平均而言,每个样本包含29.87个节点和30.30条边。

我们将数据随机分为80%用于训练,10%用于验证,10%用于测试。为了验证我们的方法,我们使用相同的Haar基比较了带有和不带有多尺度机制的GNN在图分类任务中的表现。模拟结果如表I和图7所示。表I的结果表明,当引入多尺度机制时,神经网络的分类精度有所提高。可以看出,不带多尺度机制的GNN和带多尺度机制的GNN分别在49次和192次迭代后收敛,带多尺度机制的GNN测试精度提高了17.762%。

在传统GCN模型中,我们选择了GCNConv、SAGPool、HGPSL、SAGE-Conv、CGIPool、GSAPool、NPool、ASAPool和DiffPool等基线模型作为对照组。NCI-1数据集上的分类结果如表II所示,根据80%:10%:10%、45%:45%:10%和35%:15%:50%的样本划分比例。这些划分比例可以代表我们可能遇到的常规和非常规情况。

根据表III和图9,我们的方法在电力项目初步设计数据分类任务中表现优异。与不带多尺度机制的GNN相比,带多尺度机制的GNN在测试精度上提高了25%。尽管网络运行时间排名中等,但在实际应用中,为了实现更高的精度,这种额外的计算时间是值得接受的。此外,CEPRI_UHVP数据集的分类精度略高于NCI-1数据集,这表明多尺度机制在电力系统中充分利用了聚类信息。然而,较高的测试损失也表明该模型在UHV项目数据集上存在一定的不稳定性,这可能是由于样本数量有限且分布不均造成的。未来,我们可以通过优化数据集来进一步解决这一问题。

在电力设备缺陷分级任务中,我们使用了自建的CEPRI_EQUIP数据集,该数据集来源于电力设备知识图谱。数据集包括八种设备组件(如导线、连接件和绝缘件)及其相应的部件、缺陷描述、责任人、责任单位等信息。每个图中的节点代表一个特定的设备组件或与某个电力项目相关的指标,如图10所示。CEPRI_EQUIP数据集包含60个图,分为三组,分别代表一般缺陷、严重缺陷和关键缺陷。目标是根据提供的信息确定设备或组件的缺陷等级。平均而言,每个样本包含15.48个节点和14.48条边。

我们将样本分为训练集、验证集和测试集,比例为45%:45%:10%。对于传统的GCN模型,我们使用了GCNConv、SAGPool、HGPSL、SAGEConv、CGIPool、GSAPool、NPool、ASAPool和DiffPool等基线模型。表V展示了在CEPRI_EQUIP数据集上的电力设备缺陷分类结果。

根据表V所示的电力设备缺陷分级性能,我们的方法在准确性和损失方面表现出色。表中的结果与我们的预期一致,即多尺度机制会增加计算资源的使用,但考虑到其对精度的提升,额外的网络时间消耗是可以接受的。

在电力系统中,知识图谱的构建和应用是一个复杂但关键的过程。传统的知识图谱构建方法通常依赖于人工标注和专家经验,这不仅耗费大量人力,而且容易导致知识图谱的质量不稳定。为了克服这些挑战,本文提出了一种基于图计算的知识推理方法,该方法充分考虑了电力知识图谱的稀疏性,通过引入Haar基和多尺度机制,提高了图分类任务和知识推理任务的效率和准确性。该方法通过构造稀疏基,实现了快速计算,同时通过多尺度机制整合了多个池化结果,减少了信息损失,从而提升了模型的分类性能和泛化能力。

本文的方法在多个数据集上的实验结果表明,其在精度和损失方面均表现出色。在NCI-1数据集上,我们的方法在不增加过多计算时间的情况下,显著提升了分类精度。在CEPRI_UHVP数据集上,我们的方法在多种样本划分比例下均表现优异,尽管测试损失较高,这可能与样本数量有限和分布不均有关,但未来可以通过优化数据集来进一步改善。在CEPRI_EQUIP数据集上,我们的方法在缺陷分级任务中取得了更高的分类精度,表明多尺度机制在电力系统中具有良好的应用前景。

综上所述,本文提出的方法不仅解决了传统GNN在处理稀疏图结构时的效率和准确性问题,还为电力行业的知识图谱应用提供了新的思路。随着知识图谱技术的不断发展和广泛应用,本文的方法将在未来的电力系统分析和推理任务中发挥更大的作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号