`

AI+HI 系列(2):PatchTST、TSMixer、ModernTCN 时序深度网络构建量价因子

创建于 更新于

摘要

本报告系统介绍了时序深度学习模型PatchTST、TSMixer、ModernTCN在量价因子挖掘中的应用,模型均采用Patch加通道独立设计,骨干网络分别基于Transformer、MLP和CNN架构。实验以A股中证全指为池,测试模型的IC表现、分组收益和风险表现,发现TSMixer和ModernTCN整体优于PatchTST和传统Transformer,TOP组年化超额收益最高达22.39%,不同模型选股重叠度约61%。消融实验显示Patch和通道独立设计对模型表现影响显著,尤其在TOP组收益表现上差异明显,合理骨干网络设计提升了量价因子的综合表现,为深度学习在量化投资的应用提供了重要参考 [page::0][page::20][page::24][page::28][page::29]

速读内容


模型设计及核心机制介绍 [page::6][page::10][page::15]

  • 介绍了三类时序深度网络:PatchTST基于Transformer自注意力,TSMixer基于门控MLP,ModernTCN基于分组卷积与深度可分离卷积。

- 三者均采用Patch切片及通道独立设计,将多变量时序拆解为单变量序列,分别学习时序、特征及通道交互。
  • Patch切片压缩序列长度降低计算成本;通道独立设计提升泛化能力;骨干网络各具特色,符合时间序列数据需求。


模型训练与因子构建流程 [page::17][page::19]

  • 使用2007-2024年A股日频量价数据,构造周度截面,回溯过去30交易日作为模型输入。

- 采用MAD法缩尾处理及Z-score标准化,训练采用基于未来10日标准化收益的IC损失函数。
  • 训练数据按年滚动划分训练集、验证集和测试集,设置随机种子确保训练稳定性。

- 模型输入先做Patch Embedding,后经过对应骨干网络,输出多变量时序隐状态,最终合并用于预测评分。

因子回测表现对比 [page::20][page::24]


| 模型 | 10日RankIC | ICIR | 10日IC中位数 | IC>0比率 | TOP组年化超额收益 | TOP组最大回撤 |
|--------------|------------|------|--------------|----------|-------------------|--------------|
| PatchTST | 10.6% | 0.83 | 11.3% | 76% | 21.29% | 4% |
| Transformer | 10.8% | 0.82 | 11.4% | 79% | 14.28% | 5% |
| TSMixer | 11.0% | 0.91 | 11.7% | 83% | 22.39% | 7% |
| ModernTCN | 10.7% | 0.88 | 11.9% | 82% | 18.18% | 21% |

  • 所有模型10日因子IC均稳定在10%以上,TSMixer和ModernTCN表现略优。

- 不同模型产生的因子相关性偏高,基于不同架构(如Transformer与ModernTCN)相关性较低。
  • TOP组表现差异显著,TSMixer和PatchTST年化超额收益超过20%,ModernTCN回撤明显较大。

- 不同模型选股重叠度约60%-70%,架构越异质重叠度越低。

消融测试及方法论验证 [page::26][page::28]

  • 对TSMixer和ModernTCN分别剔除Patch处理和通道独立设计,测试对因子表现影响。

- 结果显示去除Patch对TSMixer无显著影响,但去除通道独立设计则令TOP组年化收益显著下降,分别降低约8.07%和5.25%。
  • 因子RankIC变化不大,但TOP组绩效明显受骨干网络设计影响。

- 说明Patch与通道独立设计在保证高IC的同时,对提升盈利能力至关重要。
  • 剔除结构后的模型与原模型的选股相关性依然较高(85%以上),但TOP组收益稳定性降低。


结论总结 [page::29]

  • 深度学习模型在量价因子挖掘中展现较强泛化能力,PatchTST、TSMixer、ModernTCN采用不同技术路径均取得稳健IC和收益表现。

- 通道独立与Patch设计为提升模型效率与性能的关键设计,骨干网络合理设计有助于提升超额收益,同时控制回撤。
  • 不同架构模型产生的因子具有较高相关性,异构结构带来组合多样性。

- 量价因子实现的多头收益表现不一,浅层结构设计和模块消融结果为模型优化提供实证依据。

深度阅读

【详尽深度解析报告】《AI+HI 系列(2):PatchTST、TSMixer、ModernTCN 时序深度网络构建量价因子》——华创证券研究所



---

1. 元数据与概览


  • 报告标题: AI+HI 系列(2):PatchTST、TSMixer、ModernTCN 时序深度网络构建量价因子

- 作者与机构: 华创证券研究所,证券分析师秦玄晋、王小川等
  • 发布日期: 2024年初(具体未明示,结合报告引用信息推断)

- 主题: 深度学习时序模型(PatchTST、TSMixer、ModernTCN)在量价因子挖掘中的应用与效果评估
  • 核心论点与目标: 本报告聚焦于深度学习时序模型构建量价因子表现,探讨这三个最新时序深度网络模型分别基于Transformer、MLP、CNN架构,运用Patch划分和通道独立设计,进行量价数据的因子挖掘,评估模型效果并进行模块消融测试,最终目的是为量化投资领域提供新的模型与方法参考。重点在于评价这些模型在A股市场的泛化能力并解析模型设计对选股表现的影响。


---

2. 逐节深度解读



一、动机与理论基础(第5-9页)


  • 时序数据的普遍性及传统困境: 传统统计方法依赖大量人工特征设计与先验知识,难以捕捉长程依赖和非线性动态变化。深度学习提供数据驱动的自动表征学习能力,适合复杂时序建模。

- 网络架构划分:
- RNN(如GRU)擅长捕获序列信息,之前报告已用作基线;
- Transformer基于自注意力机制,能捕捉长距离依赖,NLP成功模型延伸到图像与时序;
- CNN适合提取局部时序特征,尤其通过一维卷积处理时间序列;
- MLP学者发现合理设计后,简单MLP亦有强表现,适合作为轻量级模型。
  • 选择理由: 本报告重点考察Transformer(PatchTST)、MLP(TSMixer)、CNN(ModernTCN)三种主流时序深度架构,均采用Patch+通道独立设计,旨在实现精简且性能优秀的时序模型。


二、模型介绍详解(第6-17页)


  • 基础设计:Patch与通道独立

- Patch来源于视觉Transformer的“视窗切分”理念,将时序数据切分成固定长度子序列(Patch),降低序列长度、提升计算效率并增强局部信息表达;
- 通道独立设计指对多变量时间序列拆分为单变量序列独立处理,模型骨干网络分开学习时序、特征和跨变量交互信息,优于通道混合(多变量合并为一个高维token)设计。
  • PatchTST(Transformer骨干)

- 使用Patch Embedding后,将每个变量视作单独样本输入Transformer编码器,只采用自注意力机制处理时序依赖,模型结构简洁,重点体现自注意力在单变量深度时序建模中的作用。
  • TSMixer(MLP骨干)

- 三个模块分别提取时序、特征和通道层面信息,采用轻量门控注意力增强MLP的表达能力,保持Patch+通道独立设计同时引入通道交互模块,平衡模型复杂度与信息流通。
  • ModernTCN(CNN骨干)

- 结合分组卷积、深度可分离卷积技术,通过1D卷积实现Patch Embedding后,利用深度可分离卷积模块解耦时序信息抽取与通道交互,采用大核卷积扩充感受野,体现现代卷积网络设计在时序分析中的创新。
  • 设计共性总结: 三大模型均采用先Patch嵌入,再骨干网络分离学习时序、特征与通道信息的流程(通道独立设计),体现从视觉Transformer、MLP-Mixer、Modern CNN结构到时序建模的优秀经验借鉴和创新融合。

- 与传统模型比较(图14): 通道混合的GRU把每日多变量同时输入,时序长页面有多变量混合嵌入;而本报告三模型采用通道独立方式,先截取单变量局部时间窗(Patch),再映射为嵌入特征,这是设计理念上重要区别。

三、量价因子挖掘策略设计与实施(第17-21页)


  • 数据与预处理: 使用A股2007-2024年间的日频量价数据(高、开、低、收、均价、成交量6序列),转为周频截面,每周回溯30天数据。剔除上市不足120天及流通市值最小10%股票,并对异常值和序列进行MAD缩尾与标准归一化处理。

- 训练流程与架构对比(图16-17): 训练集采用滚动切分,训练期11年,验证1年,次年测试,保证时间序列的严谨性。模型结构对比突出时间编码设计异同:PatchTST/TSMixer用Patch嵌入加位置编码,Transformer用位置编码,ModernTCN采用卷积嵌入。骨干网络各自采用自注意力、MLP或卷积,特征和通道交互模块设计不尽相同。
  • 参数设定: Patch大小P=4,滑动步长S=2,TSMixer/ModernTCN嵌入维度16,PatchTST/Transformer 32,层数均为1,优化器Adam,Batch 1024,训练早停80个epoch。

- 目标标签与损失: 预测未来10日收益的标准化值,最终输出50维因子均值,用IC值作为损失函数。

四、模型表现与因子测试(第20-28页)



IC测试总结


  • RankIC及ICIR表现:

- 5日IC:所有模型均超过9.5%,4个模型分别是PatchTST(0.095), Transformer(0.096), TSMixer(0.100), ModernTCN(0.097);
- 10日IC:均超过10%,且ICIR有所提升,TSMixer (0.110 RankIC,0.91 ICIR)与ModernTCN(0.107,0.88)领先PatchTST与Transformer;
- IC时序图显示整体收益稳健增长,波动大致同步,模型表现均衡。
  • 因子相关性高: 全区间四模型因子相关性最低仍达到78%,同架构系如Transformer和PatchTST相关性最高,基于CNN和注意力的ModernTCN与Transformer相关性最低,表明不同架构有助于捕获不同信息。

- 分组测试(20分之一分组): 各组累积超额收益稳健递增,最顶层组收益表现最抢眼。
  • TOP组年化收益与风险表现:

- TSMixer最高22.39%,PatchTST 21.29%,ModernTCN 18.18%,Transformer最低14.28%;
- 最大回撤最深为ModernTCN 21%,其余4%-7%;
- 夏普率表现TSMixer最高(1.13),Transformer最低。
  • 多头股票重叠度60%-70%: 不同模型选股有一定差异,尤以ModernTCN与Transformer重叠度最低(61%)。

- 结论: 各模型因子IC整体差异较小,但分组和超额收益表现差异明显,表明模型框架和设计对投资组合选股效果影响显著。

五、消融测试(第26-28页)


  • 三种测试方案:剔除Patch,剔除通道独立,剔除两者联合。

- 指标: RankIC、ICIR保持轻度变化,主要表现为TOP组年化超额收益显著下降,最高下降达8.07%和5.25%。
  • 具体表现:

- TSMixer在不剔除Patch时TOP组收益为22.39%,剔除Patch基本无明显差异(23.04%),但剔除通道独立后收益降至16.56%,同时波动增加,夏普率降低,风险指标恶化明显;
- ModernTCN剔除Patch和通道独立对TOP组收益影响尤为显著,由18.18%下降到12.8%左右,起伏风险明显,回撤较大。
  • 股票重叠度下降: 消融后的模型与原始模型TOP组选股重叠度一般降至60%-70%(TSMixer中度高于ModernTCN),表明结构剔除后选择的股票组合发生较大变动。

- 综合评述: Patch和通道独立模块设计对提升模型选股的综合收益表现有实质性的正向贡献,体现合理网络设计必要性。

六、总结(第29页)


  • 深度学习时序模型(PatchTST、TSMixer、ModernTCN)均展示良好的因子挖掘效果。

- Patch+通道独立设计使模型能够有效学习单变量序列信息并捕获跨通道交互,提升泛化能力。
  • TSMixer与ModernTCN表现略优于PatchTST和Transformer,尤其在因子IC和年化超额收益方面表现更佳。

- 不同模型TOP组资产重叠仅61%,且ModernTCN出现较大超额回撤,提示多模型组合可能带来风险分散效益。
  • 消融测试验证Patch及通道独立组件在提升选股效果和策略稳定性中的关键作用。

- 报告强调深度时序学习模型在量价因子挖掘领域的应用价值及方法论启示。

---

3. 图表深度解读


本报告包含30余幅图表,以下涵盖主要图表内容解读与指标分析。

  • 图1:经典RNN网络示意(第6页)

展示传统RNN按时间步递归更新隐状态过程,为后续时序建模对比基础。
  • 图2:图像模型中的Patch拆分(第7页)

说明视觉Transformer中Patch处理流程,直观了解将输入划分为局部区域,再映射成token的方法。
  • 图3-4:多变量时序Embedding,通道独立与混合对比(第8页)

清晰展示通道混合Token(多变量在一个时间点合并成一token)与通道独立Token(多个单变量序列独立token化)的结构差异。
  • 图5-6:Transformer和PatchTST模型流程(第9-10页)

详解Transformer Encoder结构和PatchTST如何将多变量拆分成多个单变量序列输入编码器,突出自注意力机制在时序信息处理中的关键作用。
  • 图7-8:TSMixer模型中的门控注意力及骨干网络结构(第11-12页)

展示门控注意力的简单有效机制及MLP模块堆叠构成多层时序、特征和通道信息融合的设计。
  • 图9-11:分组卷积、深度可分离卷积示意及ModernTCN网络架构(第13-15页)

明确卷积参数与计算优化方式,展示ModernTCN如何结合DWConv和两级分组卷积学习时序与通道信息。
  • 图12-13:ConvFFN结构与三模型简化流程图(第16页)

体现卷积残差模块细节及三个模型在Patch Embedding到骨干网络再到输出头的工程流程共性。
  • 图14:通道混合与通道独立设计流水线对比(第17页)

对比GRU和ModernTCN嵌入方式,有助理解不同网络如何处理多变量输入结构。
  • 图15:训练、验证、测试时间切分示意(第18页)

时间序列数据的严谨滚动窗口分配,保障时间一致性和泛化性。
  • 图16-17:模型对比与总体流程(第19页)

重要概括四模型的时序编码和骨干网络基本架构区别及整体数据流。
  • 图19-28:各种模型5日、10日IC统计及其历史表现曲线(第20-22页)

细致展示不同模型RankIC、ICIR、正IC占比等指标,结合累计IC曲线展现模型在6年多时段的稳定性和表现差异。
  • 图29-33:因子相关性矩阵和分组超额收益曲线(第22-24页)

明确四模型间高相关但不同的超额收益表现,清晰展示20分之一分组的收益梯度和时间演变。
  • 图34-36:不同模型TOP组分超额收益及绩效统计(第24-26页)

展示最优选股组合的超额收益曲线和对应年化收益率、波动率、夏普率、最大回撤、换手率等,验证模型选股效能和风险特征。
  • 图37:多头股重叠度统计(第26页)

显示不同模型选股的重叠程度,揭示模型选股差异来源及模型组合潜力。
  • 图38-39:消融测试5日、10日IC表现(第27页)

消融多模块后的IC变化趋势,体现Patch和通道独立的重要性。
  • 图40-42:消融测试TOP组超额收益及其绩效统计(第27-28页)

通过TOP组合收益曲线比较模型剔除不同设计单元前后的选股效果和稳健性。
  • 图43:消融测试TOP组股票重叠度(第28页)

进一步佐证核心设计被剔除后的模型选股组合差异化特征。

---

4. 估值分析



本报告不涉及传统意义上的公司估值或目标价模型,而是聚焦于量价因子挖掘的模型性能表现和信号有效性评估。模型表现用RankIC、ICIR、分组超额收益等统计指标度量。因子表现的稳健性及投资组合表现替代传统估值模型的应用效果说明。

---

5. 风险因素评估


  • 历史数据回测风险: 所有策略均基于历史市场数据,其中未来市场环境可能出现改变,导致因子效果下降。

- 模型过拟合风险: 深度学习模型容易在训练集过拟合,尤其因样本有限,泛化能力待验证。
  • 随机性影响: 深度模型存在随机初始化和训练过程波动,可能导致表现不稳定。

- 模型实现差异: 报告中实现的模型与相关文献描述不完全一致,可能带来不可预见的性能差异。
  • 风险缓解措施: 采用多随机种子训练和滚动训练设计以减缓模型随机性影响,消融测试验证模型结构合理性。


---

6. 批判性视角与细微差别


  • 模型相似性导致因子高度相关:尤其是Transformer和PatchTST模型,在全区间因子相关性极高(>0.85),可能导致投资组合构建时缺乏多样性。

- ModernTCN模型回撤较大:2024年初至2月期间,ModernTCN模型TOP组超额回撤21%,远高于其他模型,暗示其模型结构或训练阶段可能存在风险暴露。
  • Patch和通道独立设计作用不均衡:消融测试发现TSMixer去除Patch时影响甚微,而ModernTCN影响显著,显示不同模型对该设计敏感度不同,提示未来模型设计应针对架构特性调优。

- 因子IC表现均聚焦于10日IC:由于训练时损失函数以10日IC设计,模型在其他周期表现未知,模型泛化能力不同频率收益的稳定性值得后续研究。
  • 因子与实际收益之间存在差异:报告中IC表现相近但年化超额收益差距明显,反映实盘表现还会受到组合构建、风险管控等其他因素影响,提示IC指标并非万能。


---

7. 综合结论



本报告详细介绍并评估了三种基于深度学习时序模型PatchTST(Transformer构架)、TSMixer(MLP构架)、ModernTCN(CNN构架)在A股量价因子挖掘中的应用表现。主要发现包括:
  • 三大模型均采用Patch划分结合通道独立设计,有效降低序列长度和融入通道间信息,提高了模型表达能力与学习效率。

- 量价周频因子IC均超过10%,显示这些深度时序网络具备捕捉市场有效信息的能力。
  • TSMixer和ModernTCN模型表现略优,IC指标最高,且高分组超额收益稳健,PatchTST和Transformer表现稍显逊色。

- 不同模型TOP分组的超额收益最高达22.39%,但不同模型选股重叠度低至61%,提供了模型组合多样化的可能空间。
  • 消融测试进一步验证Patch和通道独立模块对提升模型选股效果不可或缺。

- 相较传统的RNN架构,基于Transformer、MLP和CNN的现代时序深度网络在量化选股领域展现出广泛的应用前景与潜在优势。

整体而言,报告为量价因子构建提供了深度学习方法论的有力支持与实践验证,提示未来结合不同模型架构实现多模态融合、有选择的模块设计优化,有望进一步提升量化投资效果。同时鉴于深度学习固有的风险和市场环境的不确定性,建议基于稳健验证和多策略组合管理为保障资金安全和收益稳定的重要手段,具有重要学术和实操参考价值。[page::0,1,5,6,9,10,11,12,14,16,17,18,19,20,21,22,23,24,25,26,27,28,29]

---

附:关键图表标识(Markdown格式示范)


  • 图1 经典RNN网络


  • 图6 PatchTST模型流程


  • 图14 通道混合与通道独立流程对比


  • 图19 不同模型5日IC统计结果

- 图24 不同模型10日IC统计结果
  • 图34 不同模型TOP分组超额收益对比

- 图38 消融测试5日IC统计结果
  • 图40 TSMixer消融测试TOP组超额收益

- 图41 ModernTCN消融测试TOP组超额收益

(更多详见报告全文)

---

结语



本报告通过深度分析现代时序深度学习模型在实际量价因子挖掘中的表现,体现出深度学习在量化选股领域的实际应用潜力和近期技术趋势,为投资者、研究员提供宝贵参考。同时,风险提示提醒用户理性看待回测结果和模型过拟合风险,为未来进一步优化深度模型设计与组合应用开拓路径。

报告