为了账号安全,请及时绑定邮箱和手机立即绑定

基于差分图变换器的股票市场预测方法

斯坦福CS 224W(结合图的机器学习)课程作业,由Xiang Li和Farzad Pourbabaee完成。

许多人都试图通过投资股市来赚钱,从专业的基金经理到普通民众,但很少有人能够超越市场表现。事实上,S&P 道琼斯指数的 2024 年 SPIVA 美国半年度报告显示,57% 的主动管理的大型美国股票基金经理表现不及标普 500 指数,这与 2023 年观察到的 60% 的表现不佳率一致 [Ganti, 2024]。

预测股票价格被认为是非常具有挑战性的,这是因为市场的非线性、短期和长期的时间依赖性以及股票之间的复杂关系。在这项工作中,我们旨在探索建模股票间关系在预测股票价格中的益处。我们提出了一种名为Differential Graph Transformer的新颖图变换器架构,该架构能够在实时更新股票相关性图以跟踪波动的市场条件。我们证明,与不考虑股票间关系的基线模型相比,我们的模型表现出显著的优越性,并展示出基于统计相关性的先验条件有助于模型泛化到未来未知的市场条件。

股票呈现出共同趋势

由于市场基本面因素的影响,股票价格通常会一起波动。然而,特殊因素也可能导致不同股票之间的差异。例如,图1显示了苹果公司(AAPL)、发现金融服务公司(DFS)和特斯拉公司(TSLA)这三只高度相关股票的价格时间序列。从图中可以看出,这三只股票既遵循市场的共同趋势,也表现出各自的独特变化。

图1. 三只紧密关联股票的历史股价走势

以前的股市预测方法通常将每只股票视为独立的个体,仅考虑目标公司的单一情况 [Patel等,2024]。然而,实际上,股票价格并非独立,还会受到其他因素的影响。例如,同一行业或同一领域的股票往往相互关联,可能同涨同跌(正相关)或一涨一跌(负相关)。不过这种信息往往被传统方法忽视,实际上却可以成为预测股市走势的重要线索。

不同股票之间的相互依赖性可以通过它们的相关性来衡量。如图2所示,我们展示了10只与苹果公司(AAPL)高度相关的股票的图形表示。相关性越高,节点之间的距离就越近,而边的颜色也表示了相关性的强弱。

图2. 高度相关的十只股票的相关图

统计关联图表因其容易构建和及时性而更受欢迎

为了捕捉股票间的关联关系,通常使用三种主要类型的股票图谱:公司关系图谱、文本图谱和统计图谱 [Patel 等人,2024]。构建公司关系图谱不仅耗时费力,而且成本高昂,需要扎实的金融领域知识和大规模的数据工程 [Tian 等人,2023]。这些预定义的图谱通常是静态的,不一定最及时,还可能包含错误、缺失或无关的连接,这会带来很多噪音,从而阻碍学习和泛化能力 [Tian 等人,2023,Kim 等人,2019,Ma 等人,2024]。文本图谱也有类似的缺点。虽然公共新闻和投资者情绪会影响未来的股价,但情绪数据的影响会随时间减弱,而且新闻影响股价的时间也是不确定的 [Shantha Gowri 和 Ram,2019]。因此,该领域正在转向仅依赖历史数据的统计图构建方法。最常用的统计度量是股票对之间的皮尔逊相关系数。最近,有人提出使用互信息来解决皮尔逊相关在捕捉非线性股票模式方面的局限性问题 [Feng 等人,2022,Yan 等人,2020]。

虽然统计度量被证明能够捕捉到像工业板块之间 [Yan et al., 2020] 这样的重要关系以及股票之间的相关依赖性 [Patel et al., 2024],但由于其稠密和完全连接的特性,使得GNN难以有效利用这些度量。为了避免过度平滑现象,通常会将低于给定阈值的相关值截断,并将剩余的正相关值转换为二值 [Yin et al., 2021]。虽然阈值处理可以生成适合GNN处理的稀疏图,但它也会丢弃一些关键信息,比如股票间相关性的强度。研究表明,GNN的表现对阈值非常敏感,这个超参数可能对所有股票都不一定是最优的 [Yin et al., 2021]。接下来的小节中,我们将回顾从历史数据构建统计图的发展过程,从全球相关图到完全动态且可学习的图。

构建全球关联图谱容易但能捕捉不断变化的市场动态

尹等人[2021]首次使用基于所有过去价格的全局相关图。根据训练数据中所有历史价格构建无向皮尔逊相关图,仅保留超过任意阈值的强连接,以对抗过度平滑。使用混合图卷积网络(GCN)和门控循环单元(GRU)模型来预测道琼斯工业平均指数(DJIA)和交易所交易基金(ETFs)中选定股票的次日价格。与其在每个GRU时间步骤中独立考虑每只股票,他们的模型使用GCN在给定时间步骤中为所有股票创建嵌入,条件是这些股票的先前隐藏状态和当前价格。尽管超越了独立处理股票的GRU基线,这种类型的固定全局相关图本质上存在局限性。由于消息传递GCNs的工作原理,股票只能从预定义的全局相关邻居中接收消息,这使得模型难以捕捉股票间随时间变化的关系。

结合局部和全局相关图能更好地反映市场的动态变化。

超越静态全局相关图,Ma等人[2024]结合了不同时间尺度上的多个相关图,以捕捉全局和局部的关系。采用与Yin等人[2021]类似的阈值技巧来实现稀疏性,并采用多图卷积网络(Multi-GCN)模型来结合全局和局部的相关图。在ETF、道琼斯指数(DJIA)和上海股市(SSE)数据集上,Multi-GCN优于仅使用全局相关性的变体。多分辨率的相关性有助于模型适应波动的市场条件,但预定义的统计相关性可能不会形成最优的消息传递路径,因为这可能会将复杂的股票间依赖关系简化为标量相关值,从而无法形成最优的消息传递路径。

可学习的动态股票关系图使得股票间的关系更具灵活性

田等[2023]走得更远一点,使用动态图神经网络自动学习历史股票特征中的演变依赖关系,并且表现优于预定义的相关性和行业股票图谱。通过引入一个多头稀疏自注意力网络,在每个时间点上显式地从原始股票数据中学习股票间的依赖关系,从而开发了自适应动态图学习(ADGL)模块。虽然注意力机制自然地生成了一个密集的权重矩阵,但由于担心权重过于密集会稀释注意力得分,因此只保留每行中最大的前k个元素。然后对该稀疏化的权重矩阵进行softmax归一化,并通过混合GCN-GRU架构来建模学习到的股票依赖关系的动态变化。

差分图变换器:股票市场预测的统一框架

在整个基于历史数据构建图的过程中,图的稀疏化过程仍然是随意的,依赖于一个单一的超参数阈值,该阈值可能对所有股票并不总是最优,特别是在市场变化时。GCN的过平滑问题和注意力权重的扩散问题,要求一种新的图模型,能够有效地学习关注稠密全连接图中的相关节点。此外,该模型应该能够捕捉不同尺度的股票关系,无论是全局的还是局部的,以应对波动市场的复杂挑战。

我们提出了一种新的图变换器模型——差异图变换器(DGT),该模型旨在过滤市场中的噪音,并在密集图中发现相关连接。该模型能够灵活地整合预定义的局部和全局相关图,并且可以通过最近提出的差异注意力机制[Ye et al., 2024]实时调整这些图。完全动态地构建图也是可能的,只需传递一个单位矩阵作为相关图即可。结合时间维度上的因果注意力(见图3),我们的方法能够有效地捕捉股票之间的复杂时空依赖关系。

图3. 我们差分图变换器的基本结构,插图由[Zheng等,2019]提供。节点代表股票,加权边代表预定义的股票相关性。在每个时间步t,应用差分图注意力到预定义的相关性上,生成动态注意力矩阵。随着时间步的推进,时序注意力捕捉短期和长期的时间依赖。

问题说明

给定N只股票在T天的价格序列P = {p1, p2, …, pT} ∈ R^(T ×N),其中每天的价格表示为向量,以及股票间的相关性矩阵A ∈ R^(N ×N),任务是预测第T+1天的价格p_(T +1)。

价格、库存和时间信息结合在一起的输入映射

为了给我们的模型创建输入嵌入,我们将每个时间步的股票价格投影到d维空间中的嵌入,并将其与可学习的股票和时间嵌入相加,以此方式。

股票间的时间联系

对于每个节点 s,一个纯解码器变压器能够基于 t 个过去的节点嵌入来编码 t + 1 的时间步。

其中 (X^s) 表示股票 s 的输入节点的嵌入向量,(X'^s) 表示股票 s 的输出节点的嵌入向量。(M) 是一个因果掩码,确保未来的时间步不会影响到过去的时间步。

差异注意力能够学会过滤噪声,集中于相关上下文部分。

在介绍如何将差分注意力应用于图结构之前,我们先简要解释一下这种新注意力机制的要点。实验表明,Transformer 往往只给相关部分分配很少的注意力分数,而过多地集中在无关的上下文中(即注意力噪声)[Ye et al., 2024]。因此,差分注意力被提出以增强对相关部分的注意力,同时消除噪声。具体而言,差分注意力机制将注意力分数计算为两个单独的 softmax 注意力图之间的差值。这种相减操作可以消除噪声,促进稀疏注意力模式。在语言建模实验中表明,差分Transformer在长上下文建模、关键信息检索、幻觉抑制、上下文学习和减少激活异常值等方面表现优于Transformer[Ye et al., 2024]。差分注意力的计算公式如下:

其中$W_Q$,$W_K$,$W_V$是参数,而$\lambda$是一个可学习的权重,由$\lambda_q1$,$\lambda_q2$,$\lambda_k1$和$\lambdak2$参数化。该权重的初始偏移量为$\lambda{\text{init}}$,对于第一层,$\lambda_{\text{init}}$的经验设置值为0.2。微分注意力很容易扩展到多头自注意力[Vaswani et al., 2023],通过在每个头计算微分注意力并将每个头的输出合并。

基于图的差分注意力扩展

差分图注意力在时间步 t,将预定义的相关图与多头自注意力机制结合,来学习动态图。我们不是计算和取差值,而是将预定义相关图的邻接矩阵直接作为先验加入注意力计算。从该先验中减去一个动态注意力矩阵,以反映市场的变化。差分图注意力的具体公式如下:

其中 ( X_t ) 表示时间 ( t ) 时的输入时间节点嵌入,( X'_t ) 表示输出节点嵌入,而 ( A_t(h) ) 表示时间 ( t ) 时头 ( h ) 的相关图的邻接矩阵。第一组键、查询和值对输入邻接矩阵进行缩放,而第二组则作为偏置。由于局部相关性和全局先验被证明可以相互补充 [Ma et al., 2024],可以将局部相关性先验应用于一个头,将全局先验应用于另一个头,以动态捕获多尺度依赖。下面展示了一个从 UniLM 的差分注意力模块改编而来的差分图注意力参考实现,为了简洁,这里仅展示了 forward() 函数:

    class MultiheadDiffAttn(nn.Module):  
        def forward(  
            self,  
            x,  
            A=None,  
            attn_mask=None,  
        ):  
            bsz, tgt_len, embed_dim = x.size()  
            src_len = tgt_len  

            # 将输入 x 映射为 query、key 和 value  
            q = self.q_proj(x)  
            k = self.k_proj(x)  
            v = self.v_proj(x)  

            q = q.view(bsz, tgt_len, 2 * self.num_heads, self.head_dim)  
            k = k.view(bsz, src_len, 2 * self.num_kv_heads, self.head_dim)  
            v = v.view(bsz, src_len, self.num_kv_heads, 2 * self.head_dim)  

            q = q.transpose(1, 2)  
            k = repeat_kv(k.transpose(1, 2), self.n_rep)  
            v = repeat_kv(v.transpose(1, 2), self.n_rep)  
            q *= self.scaling  

            # 通过将 query 和 key 相乘来计算注意力权重  
            attn_weights = torch.matmul(q, k.transpose(-1, -2))  
            attn_weights = torch.nan_to_num(attn_weights)  
            # 应用注意力掩码  
            if attn_mask is not None:  
                attn_weights += attn_mask  
            # 使用 softmax 计算注意力分数  
            attn_weights = F.softmax(attn_weights, dim=-1, dtype=torch.float32).type_as(  
                attn_weights  
            )  

            # 计算用于差异注意力的 λ 值  
            lambda_1 = torch.exp(torch.sum(self.lambda_q1 * self.lambda_k1, dim=-1).float()).type_as(q)  
            lambda_2 = torch.exp(torch.sum(self.lambda_q2 * self.lambda_k2, dim=-1).float()).type_as(q)  
            lambda_full = lambda_1 - lambda_2 + self.lambda_init  

            # 可选地,根据图先验 A 对差异注意力进行条件化  
            attn_weights = attn_weights.view(bsz, self.num_heads, 2, tgt_len, src_len)  
            attn_weights = attn_weights[:, :, 0] * (1 if A is None else A) - lambda_full * attn_weights[:, :, 1]  

            # 通过根据注意力分数混合值来计算输出嵌入  
            attn = torch.matmul(attn_weights, v)  
            attn = self.subln(attn)  
            attn = attn * (1 - self.lambda_init)  
            attn = attn.transpose(1, 2).reshape(bsz, tgt_len, self.num_heads * 2 * self.head_dim)  
            return (attn, attn_weights)
将所有内容结合起来形成一个差分图变压器

在时间步T产生的最终嵌入被投影为第二天的价格。在训练时,我们采用教师强制并行预测每个时间步t的次日价格,类似于标准解码器的处理方式。

我们的损失函数是预测价格与实际价格之间的L2范数距离。

我们使用常见的回归指标,包括均方根误差(RMSE)和平均绝对误差(MAE),来评估我们的模型 [Patel et al., 2024]

构建S&P500数据集的过程:股票预测的实际基准

我们的数据集包括了从2014年10月31日到2024年10月2日,为期10年的标普500股票每日收盘价格。标普500通常被用作股市预测的基准,因为该指数是美国股市的重要指标,代表了美国上市公司总市值的80% [Patel等,2024,Global,2024]。我们直接从雅虎财经获取了这个包含2496个交易日的数据集,并将其分为每64天一组,每组大致对应一个财季(约三个月)。前80%的组用于训练,接着的10%用于验证,剩余的10%用于测试。换句话说,前8年或31个财季用于训练,接下来的1年或4个财季用于验证,最后1年用于测试。这种划分方式确保了模型可以在连续且不重叠的时间段内进行训练、验证和测试,从而能够准确评估其在未见过的未来数据上的表现。所有原始价格均按照Tian等[2023]的方法依据训练数据集进行了z分数标准化处理。

对S&P500进行数据探索分析证实了相互信息是更好的相关度量方法

此前,我们介绍了皮尔逊相关系数(Pearson相关系数)和互信息这两种用于构建相关图的主要统计度量。为了更直观地了解它们的效果,我们在标普500数据集上进行了一些探索性数据分析。我们首先基于整个10年的数据集,使用互信息和皮尔逊系数绘制出与苹果公司相关性最高的前三只股票,如图4和图5。

图4. 与苹果公司(AAPL)全球互信息相关性最大的前3只股票。

图5. 如下所示,基于全球皮尔逊相关系数,与苹果(AAPL)相关性最高的三只股票

从视觉上看,我们可以注意到互信息指标在寻找具有相似趋势的股票方面优于皮尔逊。这很可能是因为皮尔逊仅衡量股票之间线性关系的强度和方向,在波动的市场中它无法很好地捕捉长期趋势。然而,当我们考虑一个大约相当于一个财政季度长度的小窗口(约64天)时,在图5和图6中,这两种方法的性能差距在这个小窗口内显著缩小。我们发现,无论是互信息还是皮尔逊,都挑选了与苹果相似的前两只股票,但在第三只股票的选择上有所不同。

图5. 使用局部互信息(LMI)找出与苹果(AAPL)相关性最高的前3只股票

图6. 使用局部皮尔逊相关系数法找出与苹果(AAPL)关联度最高的前3只股票

PyG的时序模块用于构建 S&P500 时序图数据集非常方便

我们可以使用PyG Temporal包来构建一个包含静态或动态图的时间序列数据集。在处理全球相关性时,我们可以创建一个StaticGraphTemporalSignal数据集,其中图是固定的,信号则随着时间变化。在处理局部相关性时,我们可以创建一个DynamicGraphTemporalSignal数据集,其中图也会随着时间变化。无论数据集类型是哪种,我们都需要实现4个核心函数:

  1. _get_edges(): 返回图的边列表序列。对于静态图,这将是一个单一的numpy数组。对于动态图,这将是一个边的numpy数组列表,每个数组代表该时间步的图。在我们的情况下,所有的图都是全连接的,因此我们可以简单地使用np.nonzero将填充有1的方阵扩展为对应的边列表。
  2. _get_edge_weights(): 返回边的权重。边的权重的形状应与边相同,不过最后一维为1而不是2。
  3. _get_targets_and_features(): 返回一个包含特征和目标的元组。特征是模型的输入,在我们的情况下是所有标普500股票过去64天的价格数据。目标是模型期望的输出,在我们的情况下是所有股票第65天的价格数据。
  4. get_dataset(): 将上述三个函数的结果整合成一个StaticGraphTemporalSignal或DynamicGraphTemporalSignal,以构建数据集。

以下是我们的S&P500指数数据集的一个简化的版本,省略了加载相关矩阵的辅助函数和划分数据集的代码。

    从torch_geometric_temporal.signal导入StaticGraphTemporalSignal, DynamicGraphTemporalSignal  

    # 加载SP500股票价格数据集的类  
    class SP500CorrelationsDatasetLoader(object):  
        def __init__(self, corr_name, corr_scope):  
            self._read_csv(corr_name, corr_scope)  

        def _get_edges(self, times, overlap):  
            # 构建一个全连接的图  
            def helper(corr_index):  
                return np.array(np.ones(self._correlation_matrices[corr_index].shape[:2]).nonzero())  

            if len(self._correlation_matrices) == 1:  
                _edges = helper(0)  
            else:  
                _edges = []  
                for time in range(0, self._dataset.shape[0] - self.batch_size, overlap):  
                    if time not in times:  
                        continue  
                    corr_index = max(0, time // self.days_in_quarter - 1)  
                    _edges.append(  
                        helper(corr_index)  
                    )  
            return _edges  

        def _get_edge_weights(self, times, overlap):  
            # 边的权重代表了股票之间的相关性  
            def helper(corr_index):  
                w = self._correlation_matrices[corr_index]  
                # 扁平化前两个维度  
                return w.reshape((w.shape[0] * w.shape[1],) + w.shape[2:])  

            if len(self._correlation_matrices) == 1:  
                _edge_weights = helper(0)  
            else:  
                _edge_weights = []  
                for time in range(0, self._dataset.shape[0] - self.batch_size, overlap):  
                    if time not in times:  
                        continue  
                    corr_index = max(0, time // self.days_in_quarter - 1)  
                    _edge_weights.append(  
                        helper(corr_index)  
                    )  
            return _edge_weights  

        def _get_targets_and_features(self, times, overlap, predict_all):  
            # 根据之前的batch_size个股票价格...  
            features = [  
                self._dataset[i : i + self.batch_size, :]  
                for i in range(0, self._dataset.shape[0] - self.batch_size, overlap)  
                if i in times  
            ]  
            # 预测次日的股票价格  
            targets = [  
                (self._dataset[i+1 : i + self.batch_size+1, :, 0]).T if predict_all else (self._dataset[i + self.batch_size, :, 0]).T  
                for i in range(0, self._dataset.shape[0] - self.batch_size, overlap)  
                if i in times  
            ]  
            return features, targets  

        def get_dataset(self, batch_size) -> Union[StaticGraphTemporalSignal, DynamicGraphTemporalSignal]:  
            # 设置批次大小  
            self.batch_size = batch_size  

            total_times = list(range(0, self._dataset.shape[0] - self.batch_size, self.batch_size))  

            times = list(range(0, int(len(total_times) * 0.8)))  
            overlap = self.batch_size  
            predict_all = True  

            _edges = self._get_edges(times, overlap)  
            _edge_weights = self._get_edge_weights(times, overlap)  
            features, targets = self._get_targets_and_features(times, overlap, predict_all)  
            dataset = (DynamicGraphTemporalSignal if type(_edges) == list  
                      else StaticGraphTemporalSignal)(  
                          _edges, _edge_weights, features, targets  
                      )  
            return dataset
对标普500的实验显示,基于图先验的差异化注意力机制具有优越性。

为了研究在价格预测中加入板块间关系的实用性以及不同类型和范围的相关性的影响,我们在S&P500数据集上训练了一个GRU基准模型和几种DGT变体。我们尝试了两种依赖度量方法:皮尔逊相关系数和互信息。对于每种相关类型,我们分析了三种范围:全局、局部和双重相关。全局相关覆盖整个训练数据集,而局部相关则聚焦于最近一个财政季度(64天)。为了减少计算成本,我们使用上一个批次计算出的相关矩阵为当前批次的预测提供支持。双重相关同时结合了全局和局部相关,每个时间步骤都会将这两个相关图输入模型。在DGT模型中,我们分别将一个注意力头设定为全局相关图,另一个设定为局部相关图。以下为实验结果:

图7. 标普500上的实验结果,包括GRU基线模型和DGT变体

要点1:不带空间注意力的DGT表现优于GRU,体现了时间注意力的优势

与 GRU 这样的 RNN 模型相比,我们的时间注意力模块实现了显著更低的测试误差率。这一结果证明了变压器在处理股票复杂非线性时间依赖上的强大之处。

要点 2:在局部相关性条件下的 DGT 优于完全动态 DGT 和没有空间注意力的 DGT

总体来说,我们发现局部互信息的DGT模型表现最佳,并且相比于完全动态的DGT模型,其测试RMSE降低了45%,相比于未使用空间注意力的DGT降低了51%。局部皮尔逊相关性的DGT也大幅超越了这两种变体。我们认为局部相关性为模型创建了一个有用的归纳偏差,有助于更好地泛化。结合差分图注意力,模型可以动态调整最新相关性以在未见过的数据上实现更好的表现。我们还观察到局部相关性始终优于全局相关性,这证明了在市场预测中需要更细致的统计分析。

第三点是:基于双重相关性的条件变分生成器可以达到很好的表现,但对相关性很敏感

一个自然的问题是,结合全局和局部相关性是否可以带来更好的性能,考虑到马等人的观察,即不同分辨率下的相关性可以互补(Ma等人[2024])。我们的实验表明,双皮尔逊相关在与局部互信息变体的比较中表现出色,尽管它的Test MAE更好,但Test RMSE更差。然而,我们尚不清楚这个问题的确切原因,但假设在双相关性情况下,每种相关变体中的注意力头数量减少可能会导致训练过程中的不稳定。在双相关性情况下,每个相关图只对应一个注意力头,而在全局或局部相关性情况下,则每个相关图都有两个注意力头。这可能使得训练过程更加不稳定,尤其是考虑到局部相关性变体的动态性。

测试集上模型预测的可视化展示

最后,我们可以使用针对不同相关类型和范围的DGTs来可视化测试集上的预测股票价格。为了清晰起见,我们将可视化分为两张图。如图8展示了使用基于皮尔逊相关性的DGTs预测的苹果公司股票在测试集上的价格,而如图9则展示了基于互信息条件下的预测价格。我们可以看到,图7中显示的测试误差在图中得到了视觉上的再现。如图8所示,双重皮尔逊相关性与实际股票价格的匹配度最高,其次是局部皮尔逊相关性,最后是全局皮尔逊相关性。如图9所示,局部互信息与实际股票价格匹配度最高。全局变体误差较大,而双重变体则明显不如局部或全局变体稳定。

图8. 基于皮尔逊相关系数的DGT预测与实际的苹果(AAPL)股价在测试数据集上的对比

图9. 基于互信息的DGT模型预测与实际的苹果(AAPL)股票价格在测试集上的对比

查看一下Colab上的完整代码:

https://colab.research.google.com/drive/1giTiIwPRgwgwhSAhqp1rz37m48asWQQj?usp=sharing

参考

Feng S., Xu C., Zuo Y., Chen G., Lin F.,以及 XiaHou J. 基于关系感知动态属性图注意力网络的股票推荐系统。模式识别, 121:108119, 2022,ISSN 0031–3203. doi: https://doi.org/10.1016/j.patcog.2021.108119. URL: https://www.sciencedirect.com/science/article/pii/S003132032100306X.

A. R. Ganti. SPIVA® 2024年中报告, 2024. URL: https://www.spglobal.com/spdji/en/spiva/article/spiva-us.

S&P 全球. S&P 500, 2024年10月的 URL为: https://www.spglobal.com/spdji/en/indices/equity/sp-500/

侯X., 王K., 钟C., 和韦Z. ST-Trader: 用于建模股市动态的时空深度神经网络. IEEE/CAA 自动化学会学报, 8(5):1015–1024, 2021. doi: 10.1109/JAS.2021.1003976.

D. Y. Kenett, X. Huang, I. Vodenska, S. Havlin, 和 H. E. Stanley. 金融市场的部分相关分析,论文, 2014. URL: https://arxiv.org/abs/1402.1405.

金 R., 苏 C. H., 郑 M., 李 S., 金 J., 康 J. HATS:一种层次图注意力网络用于股票价格预测,2019 年。URL: https://arxiv.org/abs/1908.07999

马大,袁大,黄明,和董亮。VGC-GAN:一种用于股票价格预测的多图卷积对抗神经网络。Expert Systems with Applications, 236:121204, 2024. ISSN 0957–4174. doi: https://doi.org/10.1016/j.eswa.2023.121204. URL: https://www.sciencedirect.com/science/article/pii/S0957417423017062.

M.帕特尔,K.贾里瓦拉,和C.查特普拉迪亚。基于图神经网络的股票市场预测方法综述文章。ACM Comput. Surv., 57(2), 2024年10月刊。ISSN 0360–0300。DOI: 10.1145/3696411。网址: https://doi.org/10.1145/3696411

B. Shantha Gowri 和 V. S. Ram. 新闻对金融市场投资者理性决策的影响研究。《Investment Management and Financial Innovations》(投资管理与金融创新),(第16卷第3期):142–156, 2019年。

田田 (Tian H.), 张晓 (Zhang X.), 郑晓 (Zheng X.), 和 曾丹丹 (Zeng D. D.). 使用图演化递归单元学习动态依赖关系进行股票预测。《IEEE系统、人和控制论:系统》杂志,53(11):6705–6717, 2023年。doi: 10.1109/TSMC.2023.3284840.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., Polosukhin, I. 等人. 注意力就够了, 2023年. URL: https://arxiv.org/abs/1706.03762.

颜毅,吴波,田甜,张宏. 利用部分互信息和澳大利亚股市数据开发的股票网络. Entropy , 22(7), 2020. ISSN 1099–4300. doi: 10.3390/e22070773. URL: https://www.mdpi.com/1099-4300/22/7/773.

T. Ye, L. Dong, Y. Xia, Y. Sun, Y. Zhu, G. Huang, 和 F. Wei. 微分Transformer, 2024, URL: arXiv: https://arxiv.org/abs/2410.05258.

X. Yin, D. Yan, A. Almudaifer, S. Yan, 和 Y. Zhou. 利用股票关联图预测股价:采用图卷积网络的方法. 发表于 2021 年国际联合神经网络会议 (IJCNN) ,第 1 至第 8 页. IEEE, 2021.

郑正, 范晓, 王晨, 和 齐嘉. GMAN:用于交通预测的图多注意力网络模型, 2019,. URL: https://arxiv.org/abs/1911.08415.

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消