`

CrossGRU: 基于交叉注意力的时序+截面端到端模型

创建于 更新于

摘要

本报告提出CrossGRU模型,结合GRU时序模型与交叉注意力截面交互机制,通过“市场隐变量”假设实现高效截面信息融合。模型在中证全指的量价因子挖掘任务中表现优异,5日和10日RankIC分别达到10.9%和11.7%,分组测试中TOP组年化超额收益提升7%,最大回撤明显减少至8%。消融测试显示,截面交互模块和市场隐状态数量显著提升模型表现。简化模型CsAGRU也验证了截面信息融合的有效性,为量化投资提供新思路与工具。[page::0][page::5][page::10][page::16][page::22][page::25]

速读内容


CrossGRU模型设计与创新 [page::0][page::6][page::10][page::11]

  • CrossGRU基于GRU时序信息抽取,利用交叉注意力机制引入端到端截面信息交互。

- 采用“市场隐变量”作为中间路由,避免引入外部截面变量,提升截面信息融合效率。
  • 引入可学习的残差连接自适应融合时序与截面特征,实现个股独立行情的灵活建模。

- 交叉注意力机制具有线性时间复杂度优势,适用于股票截面维度信息交互。




数据集与训练框架 [page::14]

  • 使用2007-2024年A股中证全指日频量价数据,截面选股,30日历史窗口。

- 数据处理包含MAD异常缩尾,截面归一化及Z-score标准化。
  • 年度滚动训练验证架构,采用Adam优化器,随机种子为0、42、3407。



CrossGRU因子表现与对比 [page::15][page::16][page::17][page::18]


| 模型 | 5日RankIC | 10日RankIC | TOP组年化收益率 | 夏普比率 | 最大回撤(%) | 超额收益率 |
|----------|------------|------------|-----------------|----------|-------------|-------------|
| GRU | 0.106 | 0.112 | 19.3% | 0.91 | -30.4 | 22.0% |
| CrossGRU | 0.109 | 0.117 | 26.6% | 1.16 | -25.8 | 29.4% |
  • CrossGRU 5日和10日RankIC分别微升至10.9%和11.7%。

- TOP组多头组合年化超额收益提高7%,最大回撤从-30.4%缩减至-25.8%。
  • 在2018年和2024年表现最差年份,CrossGRU显著跑赢传统GRU。

- 两模型因子相关性90%,TOP组选股重叠度71.2%。



截面交互模块消融测试 [page::18][page::19][page::20]

  • 不同市场隐状态数c (30/50/100/200/300)对IC表现影响呈先升后降波动。

- TOP组年化收益提升3%-7%,最佳效果出现在c=30和c=200。
  • 简化加性注意力截面模块CsAGRU模型,TOP组收益较GRU提升4%,最大回撤减少3%。




CrossGRU集成策略及实盘模拟 [page::23][page::24]

  • 采用c取值30、50、100、200模型等权组合提升模型稳定性和泛化能力。

- 在中证1000指数成分股构建指数组合,实盘回测超额年化收益12.28%,最大回撤6.8%。
  • 换手率保持适中,合规约束保障行业及市值中性。



深度阅读

跨时序与截面交互机制的量价因子挖掘报告详尽分析



---

一、元数据与报告概览



本报告题为《CrossGRU:基于交叉注意力的时序+截面端到端模型》(以下称“CrossGRU报告”),由华创证券研究所发布,撰写者为秦玄晋、王小川等证券分析师,发布日期大致为2024年初,目标聚焦于量化投资领域的技术革新,特别是围绕时序深度学习模型结合截面信息设计用于A股市场的量价因子挖掘。

核心论点提出了传统时序网络模型无法充分利用股票间的截面信息,因而在市场环境变化时表现欠佳。CrossGRU模型通过引入交叉注意力和市场隐变量假设实现时序与截面信息的端到端融合,提升因子预测能力和策略表现。报告对CrossGRU模型进行了详细介绍,包含设计理念、消融测试、实证检验(多指标回测对比)、参数敏感性分析以及风险提示,整体展示了CrossGRU在量价因子挖掘领域的优越性和实用价值。

---

二、逐章深度解读



1. 前言与动机



报告指出现有端到端时序模型(如GRU、PatchTST)缺乏对股票截面依赖的考虑,而市场行情往往是截面相关的,使得纯时序模型可能出现显著回撤。文章提出通过引入截面交互,弥补股票间缺乏交互信息的漏洞,从而增强模型鲁棒性和表现。在设计中要避免截面规模动态变化(股票数量不定)以及超长序列计算瓶颈,将基于路径独立设计的时序模块与交叉注意力的截面模块有效结合形成CrossGRU。

逻辑推理指出:
  • 股票间影响不可忽视,截面特征交互具备重要信息价值

- 传统割裂截面与时序模型,加工造变量耗时且强依赖专家知识
  • 交叉注意力优秀的多序列信息融合能力可有效实现截面信息自适应提取和融合

- 端到端设计保证效率和简洁性,避免引入额外手工特征和图结构复杂度增加[page::0-1, 5]

2. 模型介绍



(1)时序模型
采用GRU时序网络作为骨干结构,利用其门控机制较好捕捉序列依赖。选择通道混合(channel-mixing)而非通道独立结构,主要基于两个考虑:(a)与截面融合更加契合,流程更简洁;(b)通道独立设计在本任务尚无明显优势,避免复杂度增加[page::6]。

(2)交叉注意力机制与市场隐变量假设
基于Transformer的交叉注意力概念,由Query、Key、Value三要素组成,通过Query与Key相似性赋权Value,捕获两序列间交互信息。CrossVit在图像多尺度特征融合上的成功为CrossGRU的多维截面信息融合提供参考,突出交叉注意力灵活多模态融合的优势。

模型用可学习的“市场隐状态”作为截面的中间路由,避免了依赖人工定义先验截面变量的难题:
  • 首先利用市场隐状态作为Query,对GRU产生的股票表征序列进行交叉注意力以抽取截面表征。

- 其次再用股票表征作为Query访问截面表征,完成最终截面信息融合。
  • 此设计兼顾效率和表达力,隐状态数量远小于股票总数,交叉注意力复杂度近似线性。


此外,模型采用可学习残差连接机制自适应融合时序与截面信息,允许个股信息保留个性化特质,体现因市场截面所带动的全局影响,实现动态权重适配[page::7-13].

(3)模型结构整体总结
CrossGRU设计中对输入数据维度 $[N,T,D]$ 分别独立处理时间维度(GRU编码)、截面维度(交叉注意力市场隐状态路由融合)、特征维度(基于FFN模块)。这一解耦设计增强模型灵活度和效果提升空间。训练耗时约20-30分钟(RTX 4090显卡),满足效率要求[page::13].

3. 因子挖掘测试



(1)数据集与训练设计
  • 使用2007年至2024年的A股日频量价数据,选取6个序列(高、开、低、收、均价、成交量),每周最后交易日作为截面,截面回溯30个交易日

- 剔除上市不满120天、流通市值最低10%、数据缺失个股
  • 滚动训练集划分,滚动11年训练+1年验证+1年测试,重复训练3次取均值

- 异常值处理(MAD法缩尾)、归一化及Z-score标准化
  • 预测目标为未来10日收益,RankIC作为损失函数衡量预测相关性。


(2)参数设定
  • CrossGRU隐藏层64,市场隐状态数量200,注意力头数2,FFN瓶颈设计(维度*2)

- 比较模型GRU隐藏层64,含BatchNorm和MLP
  • 训练批次大小随截面股票动态,不固定[page::14-15]


(3)模型表现:IC指标
  • CrossGRU 5日RankIC为10.9%,10日RankIC为11.7%,胜率均超过80%,均优于GRU模型。

- 累积IC趋势平稳上升,表现稳定(图表13、14)[page::15-16]

(4)分组测试与收益表现
  • 以20分组按因子值分组做多头测试,CrossGRU组年化收益较GRU提升显著,约7个百分点。

- TOP组年化多头收益表现和最大回撤优于GRU,后者最大回撤21%,前者降至8%。
  • 两因子相关度达90%,TOP组选股重叠度71.2%,表现出集成但改进明显的特点。

- 多年表现对比中,CrossGRU在2018、2024等极端年份恢复较强势,反映对尾部风险和结构变化适应力提升[page::16-18].

(5)消融测试:市场隐状态数影响
  • 市场隐状态数c取30、50、100、200、300测试,IC表现均保持优于GRU,呈“先降后升再降”的非线性变化趋势。

- TOP组年化收益提升幅度3%-7%不等;回撤区间因c值不同而产生明显差异,200设定下表现较优。
  • 年度收益趋势受参数影响呈轻微波动。

- 结论是隐状态供应充分但不过度设置是重要调优方向[page::18-20].

(6)简易截面交互的效用验证(CsAGRU模型)
  • CsAGRU放弃复杂的交叉注意力,使用简易加权注意力机制整合截面信息。

- 在IC表现略逊于GRU的同时,TOP组多头年化收益提升约4%,最大回撤降低3%。
  • 综上,截面信息嵌入无论精简或复杂均提升多头收益表现,确认截面交互对模型增量价值[page::20-22].


(7)CrossGRU(ensemble)模型
  • 采用参数c的多模型等权组合,避免单参数过拟合,提升泛化能力。

- 在中证1000构建指增组合,设置多项风险约束并考虑交易成本。
  • 回测表现超额年化12.28%,最大回撤6.8%,风险调整后稳健增长,换手率适中(~17%)。

- 表明该模型在实际投资组合构建中的有效应用价值[page::23-24].

4. 总结与风险提示



总结回顾跨时序截面信息融合的创新设计,强调以下几点:
  • CrossGRU模型通过引入可学的市场隐变量和交叉注意力机制弥补了时序模型遗漏的截面信息,提升了因子预测稳定性和策略表现。

- 模型结构灵活、高效,无需引入额外变量,从理论和实践两方面均体现了优越性。
  • 实证分析证实CrossGRU因子IC与多头收益均优于基线GRU,且在极端市场环境下表现突出,增强策略韧性。

- 消融测试验证了隐状态数量的关键影响,并结合简单截面交互验证整体增量贡献。
  • 组合实操维度表现也较为理想,有望应用于实际量化投资。


风险提示涵盖基于历史数据回测的固有限制,深度学习可能存在过拟合潜在风险,以及模型实现与文献可能存在细微差别,提醒读者谨慎参考。

---

三、图表深度解读



图表1:经典RNN网络示意(第6页)



展示了GRU的主要结构,输入序列中当前时刻与历史时刻状态自动门控关联,说明GRU具备建模序列依赖的能力,为后续因子挖掘分解时序信息的基础。

图表2-4:交叉注意力与CrossVit示意(第7-9页)



以Transformer模型为背景,突出交叉注意力实现两个序列间信息交互的机制示意图,进一步引入视觉领域Multiscale Transformer CrossVit作为案例,强化交叉注意力多信息融合灵活性,为应用于股票截面与时序的理论依据。

图表5:CrossGRU架构示意(第10页)



清晰展现输入股票量价序列通过GRU编码(时序编码器),以及引入市场隐状态环节和截面编码器(交叉注意力),最后采用可学习残差融合机制生成最终股票表征,反映模型端到端结构设计思路。

图表6:特征维度信息交互示意(第11页)



以市场隐状态作为两阶段交叉注意力的中转站连接股票表征和截面表征序列,极大提升计算效率,说明了核心截面交互机制。

图表7:门控自适应连接(第12页)



残差连接模块图示中,门控机制对时序与截面表征加权融合,体现了模型自适应截面信息利用方式。

图表8:FFN层设计(第13页)



标准transformer中多层感知机模块的细节,支撑特征维度提炼能力,示意后续任务预测输入层处理过程。

图表9:训练集划分方法(第14页)



时间序列滚动训练验证集切分方案,保证模型训练的时间连续性,符合时间序列预测实际需求。

图表10:训练参数表(第15页)



展示了关键超参数,如Batch Size、优化器参数及随机种子设置,保障训练合理性与复现性。

图表11-14:IC统计和走势(第15-16页)



数值展示CrossGRU均优于GRU的IC表现;趋势图反映了IC波动及累积趋势稳定,“红线”累积IC不断上涨,表示模型持续捕获有价值信息。

图表15-16:分组超额收益及年化收益对比(第16页)



展示20分组策略按因子排序的超额收益增长趋势和年化收益柱状对比,CrossGRU快速拉开跑赢各组,表现明显优于GRU。

图表17-19:TOP组收益表现及逐年走向(第17-18页)



TOP组多头收益差异明显,CrossGRU优势集中表现于年化收益和极端年份抗风险性上,尤其2018与2024年,突显模型提升的关键价值。

图表20-24:不同市场隐状态数消融测试(第18-20页)



多模型参数和IC、超额收益指标变化趋势映射,验证了参数选择对性能的敏感性及拟合适中原则。

图表25:简易截面注意力模块结构(第21页)



简洁的加权投影学习模块,阐释在CsAGRU模型中截面信息的构建思路及权重生成流程。

图表26-31:CsAGRU模型表现(第21-22页)



数据显示简易加权注意力引入截面信息后相比GRU获得较好的多头年化收益与回撤控制,支持截面交互的价值论证。

图表32-35:CrossGRU(ensemble)策略在中证1000组合表现(第23-24页)



分组收益、绩效统计和超额收益历史趋势,体现了模型组合在实盘策略中的风险调整收益,年化超额12.28%,最大回撤6.8%,回撤和风险控制优异,验证了实用价值。

---

四、估值分析



本报告并未采用传统的股票估值工具如DCF或市盈率方法;其焦点为量化模型设计与因子预测性能,核心在于IC指标和策略回测表现,因此无估值部分。

---

五、风险因素评估



报告明确风险提示:
  • 历史数据回测不保证未来有效性,模型性能存在变化风险

- 深度学习模型潜在的过拟合风险,需警惕模型泛化性不足
  • 模型训练受随机数种子影响,存在结果波动

- 模型实现细节与相关文献存在异同,实际应用时需保持谨慎。

风险评估充分,提醒专业投资者理性参考模型结果,避免盲目追随。

---

六、批判性视角与细微差别


  • 报告强调端到端无需外部变量设计的简洁性,但未详述市场隐状态数量设定对应用中的稳定性及过拟合细节影响;虽然消融测试有所涉及,但模型整体的泛化能力与市场结构转换应进一步长期跟踪验证。

- CrossGRU与GRU的高相关性(90%)表明截面信息主要在极端年份或部分市场情境下发挥突出作用,对日常交易中整体提升有限,模型实际优势有可能局限于特定市场环境。
  • 报告对截面交互效用充分验证,但未涉及在更多截面变量和其他深度学习架构集成的对比,未来研究尚有扩展空间。

- 量价数据预处理及截面动态变化带来的潜在样本选择偏差和非平稳风险虽被部分剔除策略规避,但仍需关注。
  • 报告语言较为稳健,避免绝对化主张,风险提示合理且清晰,整体专业度和客观性较高。


---

七、结论性综合



华创证券研究所在本报告中提出了创新性的CrossGRU模型,基于GRU时序编码引入了交叉注意力驱动的截面信息交互模块,采用市场隐变量设计简化截面表征,实现了效率与性能兼顾的端到端量价因子挖掘框架。

详尽的量化测试显示,CrossGRU相比传统GRU模型在信息系数(IC)和因子策略表现均有稳健提升,尤其是在截面多头TOP组年化收益(约提升7%)和最大回撤控制(从21%降至8%)方面表现突出。在2018和2024年极端行情环境下优势明显,显示其市场结构适应力。消融实验进一步验证参数敏感性和截面信息价值,简单截面交互(CSAGRU)和多参数集成方案提出了实用的提升路径。

图表分析系统且全面,图文结合方式清晰展示模型架构及实证性能。报告风险说明充分,保证读者对模型约束有清晰认知。

综上,CrossGRU成功填补了时序模型忽略截面交互信息的空白,提出了实际可行、有效的深度学习方法学创新,为中国A股量化选股提供了先进的因子挖掘技术支撑,具有较高推广和应用前景。

---

参考溯源



引用页码:
[0], [1], [5-25], [26-27]

---

注:所有图表均符合逻辑分析,部分关键图片如下展示示意:















以上为本次报告的深度详尽解析。

报告