图神经网络专栏

GVP-GNN

2024年12月27日

1、Geometric Vector Perceptron GVP-GNN包含标量和向量两个处理通道，如图1所示。向量通道处理向量特征$\text{V}$，这些特征是三维空间中的向量，通常代表方向性数据。$\text{V}$乘以权重矩阵$W_{\nu h}$和$W_{\nu\mu}$，可以分别得到两个新的向量集合 $V_{h}$和$V_{\mu}$。接着，这些向量使用L2范数进行归一化，其中$V_{h}$归一化后的结果与标量特征$\text{s}$进行拼接参与后续标量信息的更新；$V_{\mu}$归一化后的结果经过激活函数$\sigma^{+}$的处理得到一个非负的缩放因子$\sigma^+(V_\mu)$。激活函数$\sigma^{+}$可以将其视为一种修改版的ReLU函数，专门被应用于向量$V_{\mu}$的L2范数，得到一个非负的缩放因子，这个缩放因子起到一种门控函数的作用。具体来说，激活函数$\sigma^{+}$对于任何负输入和介于0与𝜖之间的输入输出一个小的正常数𝜖。对于大于𝜖的正输入，输出等于输入值。公式表示为： $\sigma^+(x)=\max(\epsilon,x)$ […]

GVP-GNN Read More »

PAINN

2024年12月26日

1.PAINN的向量信息的引入 PAINN（Polarizable Atom Interaction Neural Networks）可极化原子相互作用神经网络，通过考虑原子间的可极化相互作用来预测分子的性质。这种模型的开发旨在克服传统图神经网络在化学建模中的一些局限性，尤其是在描述电荷转移和极化效应方面。PAINN 的伟大在于，它是第一个将等变模型调参到超越不变模型的。 PAINN在输入数据的Embedding阶段不仅使用标量形式，还采用了向量形式。这种方法的核心思想是通过更丰富的表示来捕捉分子内部的复杂相互作用，这是传统的基于标量的方法难以实现的。例如，在化学中，分子的属性通常被描述为旋转不变的标量，例如，分子的总电荷。然而，有些属性是仅用标量表示不了的，比如一个分子的电荷分布情况，需要从单极（电荷q ）、偶极（ μ ）、到四极矩（Q ）以及更高阶的项进行多极展开来量化，公式表示如下： $n(r)=q+\mu^\top r+r^\top Qr+…$

PAINN Read More »

GNN经典论文推荐

2024年12月5日

GNN经典工作推荐本资源汇总了图神经网络（GNN）领域的经典论文和工作，涵盖从基础模型到高级应用的广泛内容。参考： GNN: graph neural network Contributed by Jie Zhou, Ganqu Cui, Zhengyan Zhang and Yushi Bai. 文档按照以下章节组织：

GNN经典论文推荐 Read More »

EGNN

2024年12月3日

EGNN（Equivariant Graph Neural Network）是一种经典的具有保持等变性（Equivariance）的图神经网络。这意味着如果输入数据通过某种变换（如旋转、翻转等），网络的输出也会以相同的方式变换，从而保证输出与输入在几何上是一致的。这一特性使得EGNN在处理几何数据和物理系统模拟中表现出优异的能力。 1.EGNN等变性的引入方式在EGNN这篇工作中，首先对GNNs的框架进行了公式化的定义。具体来说其框架分成三部分：边特征的定义（Edge）、边特征的聚合（Agg）和节点特征的更新（Node）。对于朴素的GNN模型而言，边特征（Edge）的公式可以定义为$m_{ij} = \phi_{e}\left( h_{i}^{l}, h_{j}^{l}, a_{ij} \right)$，网络会为每对相连的节点（ $\mathrm{i}$ 和 $\mathrm{j}$ ）计算一个消息向量$m_{ij}$ 。这个计算是通过一个特定的函数（一般是神经网络层的映射）$\phi_{e}$完成的，该函数取决于两个节点的特征向量$\boldsymbol{h}_i^l$ 和$\boldsymbol{h}_j^l$ ，以及它们之间的边特征$a_{ij}$

EGNN Read More »

ComENet

2024年11月1日

ComENet计算二面角的方式与GemNet、SphereNet等模型不同，它是从边的角度出发的。在GemNet和SphereNet等模型中，通常是从原子的立体结构和位置出发，使用球坐标系统来建模分子的几何结构。GemNet直接计算原子间的距离、夹角和二面角，依赖于对原子三维坐标的精确描述；而SphereNet则通过投影的方式对二面角的计算进行的简化。 ComENet则采用了一种更为抽象的方法，其专注于边的角度。ComENet首先定义了分子结构中的边，然后利用这些边来构建一个图的局部表示。在这种表示中，二面角不是直接通过计算四个原子的空间位置来得到的，而是通过分析连接这些原子的边之间的相对方向和转动。这种方法有助于模型更好地理解和预测分子在不同化学环境中的行为，因为它抓住了化学键之间相互作用的本质，具体方式如图1所示。如图1所示，对于图中的任意一条边$e_{ij}$，选取两个参考节点$f_j^i$和$f_i^j$，分别代表除了节点j之外节点i的最近邻节点，以及除了节点i之外节点j的最近邻节点，$\mathcal{I}_{ij}$是从由$f_i^j,i,j$形成的平面到由$f_j^i,j,i$形成的平面的角度。这种计算方式的侧重点是边的相对方向而非原子的绝对位置，因此降低了对计算资源的需求。具体来说，在传统的计算方法中，二面角的计算需要四个原子组合参与。而针对一个分子结构而言，四个原子的组合方法要远远多于边的数量，因此ComENet实际上是通过减少计算次数来提高计算效率的。以乙醇（Ethanol）分子为例，如图2所示。其分子式为 C2H5OH，包含两个碳原子、一个氧原子，以及六个氢原子（共9个原子）。在乙醇中，主要的化学键包括碳-碳键、碳-氧键、以及碳和氧的氢键。具体连接如下：CH键5个、CC键1个、CO键1个、OH键1个，总共有8条边。但是，对于CH和OH边来说，H原子没有其他的邻居，ComENet二面角的计算方法并不适用，对于这种情况，通常会忽略这些边的转动角计算。实际上，单个氢原子的转动对分子的整体构象变化影响较小，尤其是在它只连接一个碳的情况下，因此这种情况下不计算边转动角也不会有太大影响。所以，实际参与二面角计算的边只有2个（CC键和CO键）。对比之下，如果是随机选择四个连续的原子进行二面角的计算，则共用12种，分别是H1-C1-C2-H4、H1-C1-C2-H5、H2-C1-C2-H4、H2-C1-C2-H5、H3-C1-C2-H4、H3-C1-C2-H5、H1-C1-C2-O、H2-C1-C2-O、H3-C1-C2-O、C1-C2-O-H6。对比之下，ComENet二面角的计算方法效率更高。从另一个角度来说，ComENet计算二面角的过程中参与的四个原子是相互之间距离最近的，这使得模型能更有效地捕捉到分子内部的局部结构变化。这种局部信息特别重要，因为分子的化学性质和反应活性常常由其局部结构决定。因此，通过专注于这些局部连接的原子，ComENet不仅提高了计算效率，也增强了模型对分子行为的预测能力。

ComENet Read More »

SphereNet

2024年10月29日

为了更好的描述解释SphereNet的二面角计算方式，我们首先正式定义一个三维分子图，通常表示为一个四元组$G=(u,V,E,P)$。其中$u\in R^{d_{u}}$是分子图的全局特征向量。$ V=\left\{\boldsymbol{v}_{i}\right\}_{i=1}^{n} $是原子特征集，其中每个$v_{i}\in R^{d_{\nu}}$是原子i的特征向量。$E = \left\{ (e_k, r_k, s_k)\right\}_{k=1}^{m}$是边集，其中每个$e_k\in\mathbb{R}^{d_c}$是特征向量，$r_{k}$是接收原子的索引，而${s_{k}}$是发送边k的原子的索引。$P= \left\{ p_h\right\}_{h=1}^{n}$是包含每个原子三维空间信息的三维笛卡尔坐标集。另外，我们使用$E = \left\{ (e_k, r_k, s_k)\right\}_{k=1}^{m}$表示指向原子i的边集，$N_{i}$表示进入原子i 的节点的索引集。信息传递过程后的输出包括更新的全局特征向量$u^{^{\prime}}\in R^{d_u}$、更新的原子特征$V’ =

SphereNet Read More »

Gemnet

2024年10月22日

GemNet专门设计用于精准预测分子之间的相互作用，相比之前广泛使用的DimeNet，GemNet通过引入几何二面角信息，使其能够更好的捕捉原子之间复杂的空间关系，考虑它们的位置和类型。 1.1 引入二面角信息对比DimeNet的消息传递机制，GemNet 的思路比较好理解，既然在DimeNet中，引入方向性的夹角消息传递能够提升精度，那么引入更高维的二面角信息理论上应该能更进一步，如图1所示。（1）角度表示：图1中展示了三种角度类型：$\phi_{\mathrm{cab}},\phi_{\mathrm{abd}}$和二面角$\theta_{\mathrm{cabd}}$。这些角度被用来更新原子a和b之间的嵌入$m_{\mathrm{ca}}$和$m_{\mathrm{db}}$。（2）二面角的可视化：当分子被旋转使得原子a和b重合时，二面角$\theta_{\mathrm{cabd}}$变得可见。二面角是由四个原子a,b,c和d形成的，它关乎两个平面之间的角度，这在化学结构中非常重要，因为它影响了分子的形状和功能。 GemNet中，上述角度信息的公式化表述如公式1、2、3所示，每个公式都定义了特定的数学函数，用于计算原子间相互作用的几何特征。 $\boldsymbol{e}_{{_{{\mathrm{RBF},n}}}}(x_{{_{{\mathrm{db}}}}})=\sqrt{\frac{2}{c_{{_{{\mathrm{emb}}}}}}}\frac{\sin(\frac{n\pi}{c_{{_{{\mathrm{emb}}}}}}x_{{_{{\mathrm{db}}}}})}{x_{{_{{\mathrm{db}}}}}}$ $e_{\mathrm{CBF,ln}}(x_{\mathrm{ba}},\varphi_{\mathrm{abd}})=\sqrt{\frac2{c_{\mathrm{int}}^3j_{l+1}^2(z_{\mathrm{ln}})}}j_l(\frac{z_{\mathrm{ln}}}{c_{\mathrm{int}}}x_{\mathrm{ba}})Y_{\mathrm{l0}}(\varphi_{\mathrm{abd}})$ $e_{\mathrm{SBF,lnm}}(x_{\mathrm{ca}},\varphi_{\mathrm{cab}},\theta_{\mathrm{cabd}})=\sqrt{\frac2{c_{\mathrm{emb}}^3j_{l+1}^2(z_{\mathrm{ln}})}}j_l(\frac{z_{\mathrm{ln}}}{c_{\mathrm{emb}}}x_{\mathrm{ca}})Y_{\mathrm{lm}}(\varphi_{\mathrm{cab}},\theta_{\mathrm{cabd}})$ 公式1称为径向基函数，其中$e_{\mathrm{RBF},n}(x_{\mathrm{db}})$是第n个径向基函数，用于编码两个原子d和b之间的距离$x_{\mathrm{db}}$。$c_{\mathrm{emb}}$是归一化常数，用于调整函数的周期性。公式1的作用是捕捉原子对之间的距离信息，它通过正弦函数形式的径向基函数来表示原子间距的信息，并将该信息编码为神经网络可以处理的形式，这种编码对于理解原子对之间的相互作用是重要的。公式2称为复合基函数（Continuous Filter，CBF），这个表达式结合了球贝塞尔函数$j_{l}$和第l阶的球谐函数$Y_{_{l 0}}$，以编码原子b和a之间的距离$x_{\mathrm{ba}}$，以及它们与第三个原子d形成的角度$\varphi_{\mathrm{abd}}$。$c_{\mathrm{int}}$是另一个归一化常数，而$z_{ln}$表示l阶球贝塞尔函数的第n个零点。公式2结合了球贝塞尔函数和球谐函数，它的作用是捕捉原子三元组之间的角度关系，用于表征由三个原子构成的角度特征，这些信息对于定义分子结构中的角度依赖性特征至关重要。公式3称为结构基函数（Structural Basis Function，SBF），这个公式用于编码原子c和a之间的距离$x_{\mathrm{ca}}$，以及它们与其他两个原子b和d形成的角度$\varphi_{\mathrm{cab}}$和二面角$\theta_{\mathrm{cabd}}$。这里使用了l阶球贝塞尔函数和l阶m次球谐函数$Y_{\mathrm{lm}}$。类似于CBF，SBF的作用是通过考虑更多的角度信息（如二面角）来编码原子四元组间的空间关系，这种复合的基函数允许模型捕捉分子结构的更复杂几何特征，如扭曲和立体排列。值得注意的是，在公式3中，球谐函数的参数m，当m=0时，球谐函数$Y_{l}^{m}\left(\theta,\varphi\right)$只依赖于极角$\theta $，与方位角\(\varphi

Gemnet Read More »

DimeNet

2024年10月18日

DimeNet（Directional Message Passing Neural Network）是一种专门用于分子图结构的神经网络，在预测分子性质和模拟分子间相互作用方面表现出色。DimeNet 的独特之处在于它引入了方向性消息传递机制，使其能够更好地捕捉分子中的几何和角度信息。DimeNet的关键特点之一是方向性消息传递，传统的消息传递神经网络（Message Passing Neural Network, MPNN）主要考虑节点和边之间的消息传递。SchNet进一步的对节点之前的相对距离进行建模。而DimeNet则更进一步引入了方向性消息传递的概念，这意味着它不仅考虑节点和边的信息，还将相邻边之间的角度信息纳入计算。 1.1引入角度信息在SchNet模型中介绍的连续卷积中，存在一个截断距离C的概念。通过截断距离的设置，可以限制仅在这个距离范围内的原子之间才允许信息的传递。这种方法相当于在分子图中引入了一个局部邻域的概念，每个原子只与它的近邻原子“交流”，而不是与整个分子中的所有原子交流，这其实就是卷积算法中“关注局部”的思想与优点。这种局部化的方法可以大大降低计算负担，因为它减少了模型必须处理的消息数量。同时，它也减少了模型可能学习到的噪声或不相关信息，因为远离的原子对通常对当前原子的化学性质影响较小。但是，这种方法也有其局限性，特别是当两个结构上不同但在局部尺度上相似的分子，例如在大约2埃的截断距离下，一个常规的GNN可能无法区分六边形分子（例如环己烷）和两个三角形分子（例如环丙烷）。这是因为在图神经网络（GNN）的常规处理方式中，原子之间的关系通常是基于它们之间的距离来建模的，而非它们在空间中的具体方向或者角度。当我们说一个原子的“邻域”时，是指在一定截断距离内与该原子相连的其他原子。在截断距离限制下，原子只能“看到”它周围一定范围内的其他原子，并与这些原子交换信息。以环己烷（一个六边形分子）和环丙烷（一个由两个三角形组成的分子）为例，如果它们的键长相同，每个原子在截断距离内的邻域将是相似的，如图1所示。也就是说，每个原子周围可能都有两个相邻原子，它们之间的距离大约是2埃，因此从每个原子的局部视角来看，它们的邻域模式看起来是无法区分的。这样，基于局部信息的GNN将无法区分这两种分子的整体结构。为了区分这两个分子，模型需要能够识别原子之间关系的角度特征，也就是需要知道这些原子是如何在三维空间中定向的。在三维空间中，六边形的角度和三角形的角度是不同的，因此这是区分这两种分子的关键。然而，如果模型仅仅基于距离信息而不考虑角度信息，它就会丧失这种区分能力。因此，为了更准确地建模分子结构，需要引入能够处理角度信息的机制，这便是DimeNet的设计动机。 1.2球谐函数和贝塞尔径向模型在构建分子的基础表示时，DimeNet采用了球谐函数和贝塞尔径向模型这两类数学函数。球谐函数用于捕捉分子形状及原子在不同方向上的分布，这对于理解分子的三维结构至关重要。贝塞尔径向模型则在处理问题时更加关注于原子间的实际距离，这些函数特别适合于描述原子间距离相关的性质。在DimeNet模型中，球谐函数和贝塞尔径向模型的应用是一种关键的数据预处理步骤，旨在从分子的三维结构中提取空间特征，尤其是原子间的距离和角度信息。具体来说，几何深度学习模型在处理原子问题时的输入一般是原子在笛卡尔坐标系(x,y,z)下的三维坐标。通过计算任意两个原子之间的欧几里得距离，并把这个距离作为贝塞尔径向模型的输入，贝塞尔径向模型能够捕捉到原子间距离上的波动特征。类似的，可以将笛卡尔坐标系下原子的位置表示转换为球坐标系中的角度表示，这些角度信息再作为球谐函数的输入，球谐函数能够捕捉到原子间方向上的角度特征。基于上述距离和角度，我们使用球谐函数和贝塞尔函数公式中的系数组合作为几何深度学习模型的输入特征。球谐函数和贝塞尔函数的数学特征正交性可以确保从这些转换得到的特征在信息上是独立且互补的，减少了特征间的冗余。值得注意的是，球谐函数和贝塞尔方程公式中的系数是固定的数学函数，不需要被训练。只要有点的三维坐标作为输入，球谐函数和贝塞尔方程拆解的结果就是固定的。球谐函数和贝塞尔方程的使用更像是一种基于原子坐标的特征工程手段，用于将原始的几何数据转换成一种对模型更有用的形式。这种特征转换方法为DimeNet提供了一种“强大的语言”，使其能够精确描述并利用原子间的距离和角度相互作用信息。正交性保证了转换得到的特征集中每个特征都携带有用且独特的信息，有助于模型从数据中学习到更多独立的特征，从而提高预测分子性质的准确性。最后，还有一个关键问题是模型如何习得这些系数特征的含义？毕竟球谐函数和贝塞尔函数并没有被内置在模型的结构中作为模型的一部分。实际上，DimeNet并不需要“知道”这些系数代表了什么。模型有能力通过训练过程学习这些转换后的系数特征与目标属性（如分子的能量或其他化学性质）之间的关系。通过大量的训练数据，DimeNet能够识别哪些模式（在这些系数表示的特征中）与预测的化学性质有关联。这种学习过程是数据驱动的，不需要模型对系数的物理意义有先验的理解。使用球谐函数和贝塞尔函数作为输入预处理步骤是因为它们提供了一种有效的方式来表达分子结构中的三维空间信息。这些信息是传统图神经网络（例如GCN、GraphSAGE、GAT等）难以直接处理的，因为它们通常设计用于处理图结构数据，而没有考虑到原子间复杂的空间和方向性关系。

DimeNet Read More »

SchNet

2024年10月14日

SchNet是一种用于分子和材料的量子化学计算的深度学习模型，最初由德国的研究人员在2017年开发。它是一种基于图的神经网络，专门设计来处理三维分子结构中的原子间相互作用。SchNet的独特之处在于它使用了连续卷积操作，可以捕捉到原子之间复杂的距离依赖关系，从而能够预测分子的能量、力以及其他重要的化学性质。这种模型通过学习原子环境的表示来实现高精度的预测，而不依赖于任何人工定义的特征或先验的物理知识。SchNet已经在多种化学和材料科学任务中展现出了卓越的性能，成为了分子模拟领域的一种重要工具。 1.1 SchNet模型结构 SchNet的架构如图1所示，这是一个针对分子和材料建模而设计的深度学习网络。图中分为三个主要部分：架构总览、交互模块和滤波器生成网络。 1.架构总览如图1左图所示，输入表示为$(Z_1,\cdots,Z_n)$和$(r_1,\cdots,r_n)$，其中$\mathbf{z}_{i}$是原子类型（例如氢、氧、碳等）被编码成的一个one-hot编码的向量。这是基本的化学信息，对于识别不同原子的性质非常重要。$r_{i}$是每个原子在分子中的三维坐标，这些位置信息对于模型来说至关重要，因为它们直接决定了原子之间的距离和相互作用，这些都是决定分子性质的关键因素。输入数据首先经过嵌入层（embedding），这是一个常见的深度学习技术，一般使用神经网络层将每个原子的one-hot节点特征向量转换成一个固定大小的连续特征向量。在这个例子中，每个原子经过神经网络层映射成的新特征向量的维度是64，即每个原子被映射为一个包含64个元素的向量。这个向量编码了原子的某些属性，可以在网络训练过程中进行学习和优化。接下来是多个交互层，每个层都旨在捕捉和更新原子之间的相互作用信息，得到更有效的原子特征向量表示。之后，一个原子级别的操作（atom-wise）对每个原子的特征进行转换。原子级别操作将对每个原子的特征向量独立地进行学习变换。这意味着网络在进行这些操作时，不会考虑原子之间的相互作用或原子的邻居，而是将注意力集中在单个原子的特征向量上。在实践中，这通常通过应用一个全连接层来实现。 Shifted softplus是一种激活函数，用于引入非线性，该激活函数定义为：$\text{Shifted softplus}(x)=\ln(0.5e^x+0.5)$ 其函数图像如图2所示。它是一个平滑的非线性函数，可以将非线性引入神经网络。Shifted Softplus类似于激活函数ReLU，但对于负输入值具有非零梯度。即使输入具有负值，也可以帮助网络继续学习，且在x=0的位置过度的更加平滑。值得注意的是，Shifted Softplus 在处理几何数据时往往比ReLU更受欢迎，主要原因有下面几个：（1）平滑的梯度：Shifted Softplus 函数在整个定义域中都有一个平滑的导数。这意味着梯度不会突然变为零（如ReLU在负输入时的表现），从而避免了神经网络在训练过程中的梯度消失问题。在几何结构的数据中，原子或节点的特征可能涉及复杂的相互作用和细微的变化，平滑的梯度允许模型更细致地调整其参数以捕获这些特征。（2）非饱和性：Shifted Softplus是一个非饱和激活函数，这意味着它的输出不会在较大的正输入值时饱和到一个固定值（与Sigmoid或Tanh不同）。非饱和性有助于减轻训练过程中的梯度饱和问题，提高网络在深层结构中的信息流动。

SchNet Read More »

Graph Attention Network（GAT）

2024年10月10日

接下来介绍图注意力网络GAT，GAT可以有两种运算方式，一种被称为全局注意力（Global Graph Attention），顾名思义，就是每一个顶点都对于图上任意顶点都进行Attention运算。这样做的优点是完全不依赖于图的结构，即不依赖图的邻接矩阵，对于Inductive任务无压力。缺点也很明显：首先，丢掉了图结构的特征。其次，当图数据规模很大的时候，运算面临着高昂的成本。第二种被称为掩码图注意力机制（Mask Graph Attention），每个节点的Attention计算仅限于其邻接节点（即邻接矩阵所定义的直接连接）。这样做保留了图的结构特性，并利用了局部邻域信息。与全局注意力相比，掩码图注意力机制大大降低了计算成本，因为每个节点只与其直接邻居进行交互，而不是图中的所有节点。这种方式有效地利用了图的拓扑结构，可以捕捉到节点之间的局部关系，这对于许多图数据分析任务是非常有价值的。值得注意的是，虽然在掩码图注意力机制的GAT中用到了邻接矩阵，但是并不像GCN一样是利用全部的邻接矩阵信息，而是仅利用邻接矩阵查询某节点的邻居是谁。因此可以来处理Inductive任务。换句话说，GAT中节点可以通过注意力权重动态地选择其信息的重要来源，即它的邻居。这些权重是由模型通过学习自动确定的，并不依赖于预先定义的结构。这一点区别于GCN，后者使用的是固定的邻接矩阵加自环的归一化形式来确定节点之间信息传递的权重。接下来主要讲解GAT中的 Attention机制。类似于Transformer中的注意力机制，GAT的计算也分为两步：计算注意力系数（Attention Coefficient）和加权求和（Aggregate）进行特征重要程度的重分配。对于顶点i，逐个计算它的邻居们（$j\in N_{i}$）和它的注意力系数$e_{ij}=\alpha([Wh_i\parallel Wh_j]),j\in\mathcal{N}_i$，具体流程如图1所示。在图1中$h_{i}^{l}$是节点i的特征向量，${h_j^l}$是的节点i所有邻居的特征向量的集合，W是一个共享参数，通过一个单层的神经网络层来实现。$[\cdot||\cdot]$代表对节点i,j经过神经网络层W变换后的特征进行拼接操作（Concat）。最后通过$\alpha$把拼接后的高维特征映射到一个实数上，也是通过一个单层的神经网络层来实现。显然学习节点i,j之间的相关性系数，就是通过可学习的神经网络层的参数W和$\alpha$映射完成的。有了相关系数，再对其进行Softmax归一化操作即可得到注意力系数$\alpha_{ij}$。至于加权求和的实现也很简单，根据计算好的注意力系数，把特征加权求和聚合（Aggregate）一下。即： $h_i’=\sigma(\sum_{j\in\mathcal{N}_i}\alpha_{ij}Wh_j)$ $h_i^{\prime}$就是GAT 输出的对于每个节点i的新特征，这个新特征的向量表示融合了邻域信息，$\sigma(\cdot)$是激活函数。最后，与Transformer一样，GAT也可以用多头注意力机制来进化增强： $h’_i(K)=\|_{k=1}^K\sigma(\sum_{j\in\mathcal{N}_i}\alpha_{ij}^kW^kh_j)$ 其中K是注意力机制的头数，每个头都会维护更新自己的参数，计算得到自己的结果，$||_{k-1}^K$表示将所有头的计算结果进行拼接（Concat）得到最后更新好的新节点向量。多头注意力机制也可以理解成用了集成学习的方法，就像卷积中，也要靠大量的卷积核才能有比较好的特征提取效果一样。最后通过一个示例来复习一下GAT的计算过程，图数据如图2所示。计算注意力系数的两个神经网络层的参数分别是W和$\alpha$，假设其初始化的值为W=[1,1],$\alpha$=[1,1,1,1]。注意，这些参数都是可学习的，随着网络的训练而更新。首先，计算注意力系数$e_{ij}=\alpha(Wh_i,Wh_j)$，以节点1为例，与其它节点的相关性系数为： \(\begin{aligned}&e_{12}=\alpha\cdot[0.1,0.2,0.2,0.2]=0.7 \\&e_{13}=\alpha\cdot[0.1,0.2,0.25,0.2]=0.75 \\&e_{14}=0

Graph Attention Network（GAT） Read More »