【AI+HI 系列（5）】CrossGRU-2:基于 Patch 与多尺度时序改进端到端模型

创建于 2025-07-18T11:39:42.501915+08:00 更新于 2025-07-18T12:56:58.854445+08:00

摘要

本报告提出了CrossGRU-2模型，通过双分支Patch和交叉注意力机制实现多尺度时序与截面信息的深度交互，提升量价因子挖掘效果。实证显示，在30D、90D及30分钟数据集上，CrossGRU-2的年化超额收益分别达到28.60%、32.01%和23.26%，明显优于基准GRU模型。消融测试表明双分支和截面模块均贡献正向增益，长序列输入配合Patch设计进一步提升了模型表现及训练效率。基于90D数据集的CrossGRU-2在中证1000指数增强组合中实现年化超额收益19.43%，跟踪误差2.83%。模型基于历史回测，存在过拟合及未来有效性风险 [page::0][page::4][page::13][page::15][page::18][page::19]

速读内容

CrossGRU-2模型架构及核心机制介绍 [page::5][page::6][page::7]

双分支时序模块采用不同Patch大小对序列进行切片，提取不同时间尺度信息，其后分别通过GRU处理时序依赖，最终用交叉注意力融合。

- 截面模块利用市场隐状态及Cross Attention机制实现个股间信息交互，特征模块以前馈网络完成特征维度交互。

Patch机制显著减少序列长度输入，有效提升模型计算效率和多尺度特征提取能力。

因子测试结果与模型性能对比 [page::11][page::12][page::13]

| 数据集 | 模型 | 10日RankIC | 年化超额收益率(%) | 夏普比率 | 最大回撤(%) |
|---------|------------|------------|-------------------|----------|-------------|
| 30D | GRU | 11.8% | 23.96 | 1.05 | -26.02 |
| 30D | CrossGRU-2 | 12.3% | 31.13 | 1.30 | -21.65 |
| 90D | GRU | 12.2% | 26.24 | 1.13 | -29.57 |
| 90D | CrossGRU-2 | 12.5% | 34.54 | 1.43 | -19.37 |
| 30min | GRU | 12.0% | 21.64 | 0.92 | -31.27 |
| 30min | CrossGRU-2 | 11.9% | 25.79 | 1.12 | -26.83 |

CrossGRU-2模型在分组测试中尤其顶层20%分组表现更优，年化超额收益率平均提升约7%-8.3%。

- 2024年TOP组合在30D、90D及30min数据集累计收益稳定优于GRU模型，最大回撤明显更小。

消融测试揭示模块贡献及Patch效用 [page::14][page::15][page::16][page::17]

剔除截面模块或时序模块均导致模型性能下降，显示双分支时序与截面信息交互模块均为性能提升关键。

- 长序列上通过引入Patch机制，特别是双分支多尺度Patch，模型因子表现及训练效率显著提升。

Patch对30D短序列无明显提升，90D及30min数据集表现明显优于基线GRU模型，Patch提高年化收益约4%-6%。

指数增强组合实证效果 [page::18]

以90D数据集CrossGRU-2模型构建的中证1000指数增强组合，实现超额收益年化19.43%，年化跟踪误差仅2.83%，换手率约32%。

- 组合展现稳定的逐年超额收益和较低的最大回撤，表明模型在实际投资应用中具备较强的盈利能力和风险控制能力。

风险提示 [page::0][page::19]

策略基于历史回测，未来有效性不保证。

- 深度学习模型存在过拟合风险，且结果受随机种子影响。

深度阅读

【AI+HI 系列（5）】CrossGRU-2:基于Patch与多尺度时序改进端到端模型——详尽分析报告

---

一、元数据与报告概览

报告标题：【AI+HI 系列（5）】CrossGRU-2:基于 Patch 与多尺度时序改进端到端模型

- 发布机构：华创证券研究所

分析师：秦玄晋、王小川

- 发布时间：2024年（具体日期未明）

研究对象：基于深度学习技术的量化投资因子挖掘模型——CrossGRU-2，及其在股票量价时序数据上的应用与表现

- 核心论点：
- 本报告提出了一个结合Patch技术和多尺度时序交互机制的端到端因子挖掘深度学习模型——CrossGRU-2。
- 该模型通过双分支结构实现不同时间尺度的时序信息提取与交叉融合，进一步结合截面信息交互模块，显著提升了量价因子挖掘效果。
- 实证测试表明，CrossGRU-2在多种频率（30D、90D、30min）数据集均优于传统GRU模型，特别是在长序列输入和多尺度Patch处理下表现更佳。
- 通过消融实验验证了双分支时序模块和截面模块对模型性能的增益作用。

投资评级或态度：报告体现出对CrossGRU-2模型的积极评价，推荐关注其在量化投资领域的应用潜力，同时提醒存在风险和模型过拟合可能。

[page::0,1]

---

二、逐节深度解读

1. 前言与动机（页0，4）

核心内容及逻辑：

- 时序数据在不同时间尺度存在不同的趋势和波动特征（分钟、日、周、月尺度差异明显）。
- 深度学习模型需兼顾序列中的局部短期特征和整体长期趋势，推进多尺度模型设计。
- “Patch”机制通过将时序分割成多个连续子序列（子序列被视为单个Token），帮助模型更有效地学习局部时间特征并降低计算负担。
- 基于CrossGRU-1模型的截面交互模块，报告设计了双分支时序模块（利用不同大小Patch获取多尺度信息）和交叉注意力融合，形成CrossGRU-2端到端模型。

数据支撑：

- 30D、90D及30min三个频率数据集的测试，强调模型能覆盖短、中、长序列长度。

[page::0,4]

---

2. 模型介绍（页5至9）

模型总体结构：

- 分成三个子模块：时序维度交互、截面维度交互和特征维度交互（图表1）。
- 通过双分支GRU分别处理不同Patch大小的时序数据，再用交叉注意力实现多尺度融合。
- 截面交叉注意力模块利用可学习的市场隐状态与股票表征进行双向交叉注意力，增强股票间的相互影响表达。
- 特征交互层采用前馈神经网络（FFN），结合残差连接与层归一化，实现特征维度的信息融合。

关键技术点解释：

- 交叉注意力机制：区别于自注意力，Query (Q)、Key (K)、Value (V)来源于两个不同序列，用以捕获序列间相关性，计算复杂度从 $O(n^2)$ 降为 $O(m\cdot n)$。
- Patch机制：通过1D卷积滑动窗口将时序拆分成“时间块”，单个Token含更丰富局部信息，降低序列长度，提升计算效率。
- 双分支结构：每个分支采用不同Patch大小，一个负责高频、局部信息，一个负责低频、整体信息，交叉注意力机制实现两种尺度信息融合。
- 在时序模块中，频率更高的分支GRU输出的最后时间步作为Query，频率较低分支GRU的全部输出作为Key和Value，进行交叉注意力，融合各尺度信息，并与高频分支输出残差连接完成时序输出。

图表解读：

- 图表1：展示模型整体结构及双分支时序模块的流程；表征维度d均保持一致，序列长度$l1,l2$由Patch大小决定。
- 图表2：参考CrossVit图像分类中的双分支多尺度Transformer设计，启发本模型时序双分支结构的设计。
- 图表3：时序模块双分支细节流程，明确Patch Embedding→GRU→交叉注意力顺序。
- 图表4：截面交叉注意力模块结构示意，逐步实现股票间信息交互。
- 图表5：特征维度信息交互结构，展示层级模型设计细节。

变量说明：

- 时间序列长度 $l$，变量数 $m$，嵌入维度 $d$，股票数量 $n$，市场隐状态数 $c$。

[page::5,6,7,8,9]

---

3. 测试结果（页10至14）

数据集特性：

- 30D、90D日频数据集中6个变量（高开低收均价、成交量）；30分钟频数据集5个变量（高开低收、换手率）。
- 样本筛选严格，剔除上市不满120天和市值最低10%股票。
- 数据集时间跨度11年，训练集、验证集和测试集年度滚动切分，保证时间序列稳健。
- 目标预测标签为未来10日收益率，采用IC (Information Coefficient)作为损失函数。

模型参数：

- 1D卷积通道64，GRU隐藏单元64，GRU单层，注意力头数4，截面市场隐状态数30。
- 双分支Patch大小：30D、90D为3和5，30min为2和8。
- Adam优化器，学习率1e-3，训练最多150轮，早停7轮。
- 3个随机种子取均值融合，保证预测稳定性。

IC指标：

- 5日IC中CrossGRU-2与GRU表现相近，数值均在11%-12%左右。
- 10日IC中CrossGRU-2优于GRU，尤其90D数据集RankIC为12.5%最高，显示模型预测能力提升。

分组年化收益测试：

- 按每周末因子排行，股票分为20组，次周调仓，无交易成本。
- 三个频率数据集均显示CrossGRU-2在TOP组（最高因子值组）年化超额收益领先GRU模型，分别提升7.1%、8.3%、4.2%。
- 2024年TOP组累计收益依然优于GRU，且最大回撤显著更小，风险指标呈改善趋势。
- 夏普比率和Calmar比率均优于基线，体现更稳定收益与风险控制。

图表分析：

- 图表8、9展示IC统计结果，具体数值差异突出提升和稳定指标。
- 图表10-15呈现三频率数据集的分组及TOP组年化收益和超额收益走势，图形清晰展示CrossGRU-2的持续领先。
- 图表16汇总TOP组多项风险收益指标，验证模型效果的稳健性。

[page::10,11,12,13,14]

---

4. 消融测试（页14至17）

目的：分别剔除截面交叉注意力模块（w/o CSAttn）和双分支时序注意力模块（w/o TSAttn），探查各模块对整体表现的贡献。

结果：

- 对30D和90D日频数据集，同时加入截面和时序双分支模块效果最佳。剔除截面模块对模型表现影响较大，尤其2024年回撤显著增加。
- 对30min分钟频数据集，截面模块作用表现不明显，甚至略差于单独双分支时序模块，推测与分钟级数据多为个股短期信息且复杂的股票交互关系相关。
- 在部分指标上剔除时序模块后模型表现下降，但差异相对截面模块剔除较小。

Patch作用验证：

- 对90D和30min长序列数据集，单分支加入Patch后较基线GRU模型多个指标（年化收益率、夏普率）显著提升约4%；双分支多尺度Patch相较单分支Patch再度提高约2%。
- 对30D短序列数据集，加入Patch反而降低表现，推断Patch对短序列信息压缩可能不利。

图表辅助：

- 图表17-22分组收益及TOP组超额走势展示了各模块剔除对模型的影响。
- 图表24-28展示了Patch及双分支设计对长序列模型表现提升。

总结：

- Patch技术对于序列较长情形下的GRU模型有效缓解长期依赖和计算瓶颈，提升因子捕捉能力和效率。
- 多尺度Patch设计更好捕捉时序数据不同层面信息，比固定Patch性能更优。

[page::14,15,16,17]

---

5. 总结部分及实际应用（页18至19）

最终模型表现：

- CrossGRU-2模型，结合双分支Patch时序模块和截面交叉模块，在中证1000股票池构建指数组合，限制股票权重、市值及行业暴露，交易频率为周调仓，持仓10天。
- 回测期间（含2024年至今），组合实现超额年化收益19.43%，跟踪误差2.83%，换手率合理。
- 年度表现稳定，风险控制能力优于基线。

投资意义：

- 多尺度时序信息及跨股票截面交互信息对于深度因子模型建立是关键。
- Patch机制是处理长序列时序数据有效手段，提升模型泛化和计算效率。
- 融合多尺度、多维度信息，端到端学习因子让量化投资研究更加系统、深入。

图表解析：

- 图表29展示组合超额收益与回撤走势，显示成效稳定。
- 图表30列出年度超额收益，持续正向。

[page::18,19]

---

三、图表深度解读

此研究报告中图表内容丰富且核心：

图表1（CrossGRU-2模型结构）展示了时序模块的双分支GRU+Patch嵌入、交叉注意力融合过程，截面模块和特征模块分别使用交叉注意力及MLP实现维度交互，通过整体流程体现了模型设计系统性和各模块功能分担。
图表2（CrossVit模型示意）表明本报告双分支Patch思想借鉴视觉Transformer领域应用，阐释了多尺度信息融合的跨领域通用性。
图表3（时序双分支流程）直观显示Patch切割、GRU编码及交叉注意力融合操作，为具体实现细节提供清晰脉络。
图表4与5则体现截面维度及特征维度交互的精细设计，保证股票间及特征间信息有效传递，确保深度因子学习的全面性。
图表8和9（IC统计结果）定量展示模型不同时间窗口的预测能力，特别是10日RankIC数值的细微提升可视作模型预测增强的直接证据。
图表10-16（分组收益）多频率样本测试表明，CrossGRU-2在前20%股票的因子选股效果明显优于基准，尤其年化超额收益提升率达7-8%，风险调整后表现也有所提升。
图表17-28（消融测试与Patch效果）通过系统剔除模块及不同Patch设计的对比，体现各模块独立贡献及整体协同作用，特别指出Patch在长序列处理中的关键价值。
图表29、30（组合实盘测试）将模型训练指标成功迁移到实际投资组合，实现实质性超额回报及风险控制，验证了模型研究成果。

全部图表组合形成了从理论设计、参数配置、训练检验、消融分析到实战回测的完整闭环，充分支撑了报告论点。

[page::5-30]

---

四、估值分析

此报告并不涉及具体的公司估值分析，而是围绕深度学习模型构建和回测表现展开，故无传统意义上的估值方法（如DCF、市盈率等）论述。模型性能用IC指标、分组收益、超额收益率以及回撤与风险指标进行衡量，构成模型“估值”的替代视角。

---

五、风险因素评估

策略基于历史数据回测，未来表现不具保证，存在历史数据与未来市场环境不匹配风险。

- 深度学习模型易受过拟合影响，模型泛化能力存在不确定性。

模型训练过程受随机初始权重和随机种子的影响，稳定性存在一定不确定性。

- 文中模型实现与原文献或通用模型不完全相同，细节差异可能对性能有潜在非预期影响。

频率转换及多尺度Patch设计虽提升表现，但在不同市场波动结构下效果差异尚待更广泛验证。

报告中已明确并多次强调上述风险，提醒投资者审慎评估并结合自身风险承受能力。

[page::0,19]

---

六、审慎评估与细节注意

报告对CrossGRU-2模型整体表现给予积极评价，但从IC指标看，相较于传统GRU模型提升有限（约1%-3%），提醒关注实际提升空间是否充分。

- 分组收益指标显示差异更为明显，提示模型对极端选股能力增强，但模型整体风险收益曲线仍需更多验证。

Patch技术对不同频率数据集影响不一，30D短序列数据中加入Patch反而表现略减，提示该技术并非对所有时序均适用，模型推广需得当。

- 截面模块对日频数据贡献突出，但在分钟数据集效用较弱，反映不同频率下市场结构不同，模型设计需针对性优化。

消融测试和多随机种子训练方法体现报告严谨性，但随机性的影响依然是深度学习模型稳定性重要变量。

- 报告未充分披露模型训练耗时、计算资源消耗等实际运行指标，这些对于模型商业化、实盘应用同样重要。

多处图表数据来源主要为Wind及华创证券内部计算，外部重现性及数据一致性验证难度较大。

- 报告未涉及模型参数调优细节与可能的超参数敏感性分析，建议未来工作进一步增强模块鲁棒性。

[page::11,14,15,16]

---

七、结论性综合

本报告系统介绍了基于深度学习的端到端量价因子挖掘模型CrossGRU-2，主要创新点集中于时序模块引入多尺度Patch与双分支GRU+交叉注意力架构，实现了不同时间尺度信息的有效融合，再结合截面维度的交叉注意力细化股票间相互作用。实证结果显示：

适用性广：模型在30D、90D、30分钟不同频率数据集上均表现优异，尤其在较长序列数据集上多尺度Patch设计优势明显。

- 预测能力增强：10日RankIC指标较基线GRU提升至12.5%左右，证明模型对未来收益排序相关性提升。

因子选股表现显著提升：TOP组年化超额收益分别提升7.1%、8.3%、4.2%；2024年表现更加稳健且回撤明显降低。

- 模块效应明确：截面模块和时序双分支模块相辅相成，互补提升整体模型表现。

Patch技术有效缓解长序列计算负担并提升信息表达：多尺度Patch结构优于单个Patch，尤其对长序列数据模型尤为关键。

- 实战应用验证：在中证1000股票池的指数增强组合回测中，模型实现了年化超额收益19.43%，跟踪误差为2.83%，展示了实际投资价值。

风险提示：模型基于历史回测及复杂深度学习架构，过拟合和未来效果不确定性需密切关注。

综上，CrossGRU-2模型代表了结合时序多尺度特征和截面依赖性的先进因子挖掘技术路径，对深度学习在量化投资中的具体应用提供了新思路和强有力支持，值得量化投资者深入关注和研判。

---

Markdown格式重点图表（部分）

图表1 CrossGRU-2模型示意图：

图表10 30D数据集20分组年化收益对比：

图表11 30D数据集TOP组超额收益走势对比：

图表29 1000指数增强组合超额收益与回撤走势：

---

（全文分析内容基于华创证券内部研究报告原文，页码已标示以便追溯）[page::0-22]