`

市场信息的融合与深度学习的样本外泛化

创建于 更新于

摘要

本报告针对机器学习模型在股票市场中面临的样本外泛化问题,提出融合市场状态和对抗训练两种方法,通过引入市场风格、估值、流动性等多维度状态信息以及对不变因子的生成,显著提升模型的稳健性和Alpha因子表现。基于FactorVAE架构,模型在沪深300、中证500等不同选股域内测试表现优异,综合因子指数增强策略实现超额年化收益最高达20.53%。[page::0][page::27]

速读内容


基础模型FactorVAE架构与表现 [page::5][page::8][page::9]

  • 模型包含状态提取器、编码器、解码器和预测器,融合高频与低频量价序列提取股票时序特征。

- 编码器利用未来20日收益作为后验信息生成风险因子收益分布,预测器推理时用先验分布替代。
  • 回测区间2018-2024年,基础模型月频Rank IC为14.20%,ICIR为1.31,五分组多头年化超额收益为14.08%。

- 不同行业市值规模股票池均体现良好表现,市值较小的股票池优势更明显。



融合市场状态提升模型稳健性 [page::12][page::16][page::17]

  • 采用5个维度11组市场状态序列(如风格指数走势、估值PE、流动性日换手率、资金面融资买入比例、情绪风险指标VIX、SKEW、基差)通过GRU提取市场隐状态。

- 利用交叉注意力机制将市场信息融合入股票特征,区别于直接拼接,增强了模型对不同状态下环境的适应能力。
  • 融合后模型月频Rank IC提升至14.63%,ICIR为1.35,多头年化超额收益增至15.10%,表现优于基础模型。




对抗训练生成不变特征提升稳定性 [page::18][page::19][page::20]

  • 构建不变风险最小化框架,利用环境相关与环境无关双预测模块,通过对抗训练优化不变特征生成器。

- 不变特征重构未来收益关系不受市场环境变化影响,降低模型对环境信息依赖。
  • 回测显示该模型月频Rank IC为13.91%,ICIR提升至1.46,年化超额收益13.90%,风险指标和最大回撤显著改善,但收益略有下降。




样本外泛化方法综合对比与因子合成 [page::20][page::21][page::22]


| 因子名称 | Rank IC | ICIR | 多头年化收益 | 多头超额收益 | 多空年化收益 | 多空Sharpe | 多空最大回撤 |
|---------|---------|-------|--------------|--------------|--------------|-------------|--------------|
| 基础模型 | 14.20% | 1.31 | 19.80% | 14.08% | 11.14% | 3.71 | 12.69% |
| 融合市场状态 | 14.63% | 1.35 | 20.87% | 15.10% | 11.75% | 3.82 | 12.99% |
| 对抗训练 | 13.91% | 1.46 | 19.61% | 13.90% | 10.52% | 3.95 | 9.68% |
| 分状态微调 | 14.31% | 1.41 | 20.31% | 14.59% | 10.51% | 4.13 | 12.78% |
  • 各方法因子间相关性较高,等权合成综合因子提升表现稳定性和收益性。




综合因子在市场不同选股域表现 [page::23][page::24]

  • 综合因子在沪深300、中证500、中证1000、国证2000四个股票池均展现强劲表现。

- Rank IC介于11.30%至15.89%,年化多头收益达13.75%至21.67%。



综合因子指数增强策略表现优异 [page::24][page::25][page::26]

  • 基于综合因子构建沪深300、中证500、中证1000、国证2000指数增强组合。

- 策略年化超额收益分别达到11.44%、13.10%、16.63%、20.53%,超额Sharpe均在2.29以上。
  • 严格风险控制下,实现稳定且优秀的回测业绩。



深度阅读

证券研究报告详尽分析


报告标题与基本概览



本报告标题为《市场信息的融合与深度学习的样本外泛化——机器学习系列之七》,由东北证券发布,证券分析师王琦、贾英等团队撰写,发布时间为2024年,聚焦于机器学习与深度学习在股票市场因子生成及选股中的样本外泛化问题。核心议题是针对股票市场中股票特征时间变化及分布偏移带来的模型泛化难题,探讨两类提升样本外泛化能力的方法:融合市场状态信息与对抗训练。报告基于FactorVAE模型为基础,分别拓展融合市场状态和对抗训练模块,展示其对模型性能及稳健性的优化,并将多方案综合实现指数增强,获得显著的超额收益。最终报告揭示出模型在实际交易中的良好表现,但也指出存在模型失效风险。[page::0,3,27]

---

1. 引言与研究背景



报告引言强调了股票市场因子生成过程中遇到的分布偏移问题,即训练数据与未来测试环境存在结构性差异,主要因经济环境周期变化、政策调整及突发事件等导致股票特征及其与收益的关系时变。普通机器学习模型常假设数据独立同分布(IID),在现实中缺乏样本外泛化能力,因而容易产生显著回撤。分布偏移产生原因包括训练和测试数据采样偏差、真实市场环境不确定性及数据量有限。当前主流解决手段包含数据增强和异常值剔除。报告则选取带有场景解释能力的两类方法研究:
  • 融合市场状态:将市场风格切换指标、情绪与资金面数据等状态信息融入模型,帮助模型根据市场环境调整交易策略;

- 对抗训练:利用不变学习思想,通过对抗方式筛选稳定、环境无关的特征集合,实现不变因果关系的表达;

两方法分别实现“以变化实现泛化”和“以不变实现泛化”,并与该团队过去基于时间序列处理的因子生成系列报告内容衔接[page::3-4]。

---

2. 基础模型FactorVAE架构与训练测试分析



2.1 模型架构解析



基础模型基于FactorVAE(变分自编码器改进),包含:
  • 状态提取器:以GSM算法处理日频(60天窗口)和分钟频(20天窗口)混合OHLCV序列,提取股票时序特征,较GRU抗长度变化,信息损耗小。

- 编码器:输入融合了股票间关联信息的特征 $\tilde{h}{t}$ 及未来收益率,输出后验风险因子收益的均值和方差,风险因子以动态多元高斯分布形式表示。
  • 解码器:通过股票特征生成因子暴露矩阵 $\betat$ 和超额收益 $\alphat$,结合因子收益重构收益。

- 预测器:在推理阶段使用,不依赖未来收益率,仅基于股票特征预测先验风险因子收益分布。

股票间关联性以基于风险因子截面相关度的注意力机制建模,通过股票特征与权重矩阵加权融合,增强特征表达。模型训练目标包含重构收益的加权均方误差、排名排序损失(Hinge Loss)及先验后验风险因子的KL散度以缩小分布差异[page::5-7]。

2.2 数据处理及训练策略


  • 数据源:Ricequant,股票日级与分钟级行情,16个大类风险因子;

- 标签:行业市值中性化且截面标准化后的未来20日收益率;
  • 数据标准化:成交量对数化,价格相对标准化,风险因子截面标准化,时序z-score;

- 训练策略:2018年起滚动训练,每轮包括5年数据,训练集为前4年,测试集为第5年,最大100轮,早停20轮,3组随机种子训练取均,
  • 回测:2018-2024五分组月频等权,去极值,行业市值中性化分别测试,未考虑交易费用。


2.3 基础模型测试结果和解读


  • 整体表现:因子月频Rank IC达到14.20%,ICIR 1.31,多头年化超额14.08%;

- 中性化效果:去除市值影响后Rank IC降至12.86%,ICIR上升,说明因子更稳健,但整体表现略下降,2024年初表现下滑减少;
  • 分选股域:小市值股票池(国证2000及中证1000)中表现优于大盘股、沪深300,年化超额收益分别达到19.78%、14.11%,对应多头Sharpe分别为3.64和2.89;


从图2-13可观察到,基础模型生成的因子净值整体呈明显上升趋势,涨幅较为稳健,反映模型有效挖掘Alpha。Rank IC每日呈高波动但累计曲线持续向上,验证因子强效及持续稳定性。[page::9-11]

---

3. 样本外泛化方法详解



3.1 方法一:融合市场状态



3.1.1 市场状态指标选取与意义



选择5个维度共11组指标:
  • 风格切换:中证800及四个风格指数(日收益率),反映价值成长与大盘小盘轮动走势(图14);

- 估值与流动性:中证800 PE-TTM(估值风险指标)、换手率(日均交易活跃度)(图15-16);
  • 资金面:融资买入占比,显示市场看多情绪(图17);

- 情绪与风险:沪深300相关VIX(隐含波动率)、SKEW(隐含偏度)、IF股指期货基差,反映市场风险偏好与极端风险预期(图18-20);

数据经过收益率序列和估值、资金等指标分别z-score标准化,兼顾长期分位信息和时序信号[page::12-15]。

3.1.2 模型架构与设计



采用两个GRU分别提取指数日收益率序列与市场状态序列特征,拼接后形成市场特征向量$I
t$。

为解决市场特征直接拼接导致同日股价共享同一市场特征噪声,利用多头注意力机制将市场特征映射为多组隐状态(理解为驱动市场变动的隐因子),以隐状态作为Key和Value,股票特征作为Query,通过交叉注意力计算隐状态对股票影响权重,实现市场对股票的差异化调整,再与原始特征融合(维度由$(N,d)$扩展到$(N,2d)$)。

其余结构同基础模型,训练增加市场信息辅助,推理阶段不含后验收益[page::16-17]。

3.1.3 融合市场状态模型表现



表4显示,融合市场信息后Rank IC提升到14.63%,ICIR1.35,多头年化超额15.10%,均优于基础模型,另外多空收益波动率、最大回撤均有所增加但在可接受范围内。

图22-23分组累积净值及Rank IC曲线也展示出更平稳向上趋势,模型对市场切换的适应力增强。[page::17]

3.2 方法二:对抗训练与不变因子挖掘



3.2.1 理论基础



针对市场环境变化导致分布偏移问题,引入不变风险最小化(IRM)与信息论,寻求与环境无关(Invariant)的因果特征$F$,满足条件

$$H(Y|F) = H(Y|F,E),$$

即条件下的收益信息在环境下不变,不受市场状态干扰。

优化目标形式为最大化互信息$I(Y;F)$,同时确保对环境无关,求解映射$g$产生$F = g(X)$。

通过引入对抗训练框架实现上述目标:设立环境相关模块(融合市场状态模型)与环境无关模块(基础模型),同时训练不变特征生成器,优化使两个模块输出重构结果及因子收益分布尽可能一致,降低环境信息的影响[page::18-19]。

3.2.2 模型结构与训练细节



不变特征生成模块由可学习权重和标准化层组成,依赖GSM提取的时序特征。训练目标函数含损失重构差异、排序差异与先验后验KL散度,目标是通过不断权重更新生成环境稳定的特征。训练交替优化生成器及两个预测模块直至收敛。推理阶段仅环境无关模块及生成器参与预测。

3.2.3 对抗训练回测结果



表5显示,Rank IC略低于基础模型(13.91% vs 14.20%),ICIR提升至1.46,多头年化超额略降(13.90%),多空Sharpe上升,最大回撤明显降低(9.68% vs 12.69%),回测净值曲线更为平稳,说明稳定性得到有效提升,但因收益略有牺牲,体现出不变特征挖掘更注重长期稳健而非短期轮动[page::20]。

3.3 多方法对比



回测中融入市场状态、对抗训练及前期提出的分状态微调均有提升,表6体现:
  • 融合市场状态:Rank IC最高为14.63%,多头年化超额15.10%;

- 对抗训练稳健性最佳,回撤最低,RankIC 13.91%;
  • 分状态微调同样带来稳定提升;


方法间相关性较高(0.7-0.9区间),结合多因子截面z-score等权合成为综合因子。

图27及表8显示综合因子Rank IC提升至15.39%,多头超额收益约16.16%,同时波动率和Sharpe比有所增加。分选股域(沪深300、中证500、1000、国证2000)表现均优于基础模型,尤其小市值股票优势显著(表11及图33-40)。

3.4 策略实现



基于合成因子构建沪深300、中证500、1000及国证2000指数增强策略,设置严格的跟踪误差、行业和风格偏离限制及交易成本约束。

表12显示,策略年化收益率分别为10.04%、12.38%、14.86%、21.61%,年化超额收益保持在11.44%-20.53%区间;同时策略变现为较低的回撤和高Sharpe,比基准表现优异。净值图表41-44进一步验证了策略稳定性及持续超额收益[page::21-26]。

---

4. 图表深度解读



图0:样本外泛化方法累计净值对比



该图展示了基础模型及融合市场状态、对抗训练、分状态微调及综合因子累计净值走势。综合因子线高于其他单一方法,体现多方法融合优势,收益持续攀升且波动性可控。

图1(第5页):FactorVAE基础模型结构示意图



流程包含从量价混频序列提取股票特征,经风险因子关联注意力调整,编码器利用未来收益生成后验因子,预测器生成先验因子,解码器结合因子暴露重构/预测股票收益,结构清晰完整展现模型训练与推理机制。

图2-13(第9-11页):基础模型及在不同选股域分层回测结果



净值曲线表现正向上涨特征,初期波动较小后加速上升,分选股域显示对小市值资产池表现更优。Rank IC柱状图间断但总体累积递增,说明因子有效且稳定。中性化操作降低市值影响,提高稳健性,2024年初的回撤表现更佳。

图14-20(第12-15页):市场状态指标走势



各种市场风格、估值、流动性、资金面和风险指标随时间变化情况被系统展示,反映市场周期特征、风险溢价及投资者情绪变化。此类输入为后续模型融合提供丰富多元的宏观视角。

图21(第16页):融合市场状态模型结构图



以双GRU分别提取市场指数收益率和多类状态指标,利用交叉注意力机制实现市场隐状态和股票特征的差异化融合。该结构细颗粒度地建模,杜绝简单拼接造成噪声引入,提升模型区分力。

图22-23(第17页):融合市场状态模型回测



净值持续增长超过基础模型,Rank IC的稳定增长与较高峰值验证了市场状态融合对股票预测性能提升的显著贡献。

图24(第19页):对抗训练模型结构



由不变特征生成器决定选择特征,分别输入环境相关(含市场状态信息)和环境无关模块。两个模块的损失以对抗训练方式优化,促进不变特征学得与环境独立的稳定特征。

图25-26(第20页):对抗训练回测结果



净值曲线稳健性提升但超额收益小幅下降,Rank IC波动较小。说明不变特征方法适合追求风险可控和稳定Alpha的系统。

图27-31(第21-22页):综合因子表现



复合因子净值曲线表现最优,整体Rank IC优于单一方法,保持长期直线上升趋势。中性化处理下提升模型稳定性及减少极端回撤,综合信号融合优势明显。

表格相关性(表7)与风险因子相关性分析(表10及图32)



相关性表明三种泛化手段捕捉因子相关信息各有侧重点但相互重叠。风险因子相关性揭示所有因子均带有规模、价值、收益率、流动性等因子暴露,融合及对抗训练因子风格偏向性有所调整,有助投资者风险敞口把控。

---

5. 估值与模型监测



报告未涉及传统估值方法,本质为量化策略模型研究,衡量指标为Rank IC、ICIR、多头收益及年化超额,策略级别以最大回撤、Sharpe及收益波动作为稳健性衡量。模块间的对抗训练通过分布距离控制相似性,实现泛化保障。综合使用多个评价指标确保了因子和策略的有效性和稳健性。

---

6. 风险因素评估



报告明确指出所有结果基于历史数据及模型范式,存在模型失效风险。市场的非stationarity、政策突变、极端黑天鹅事件均可能导致模型性能不及预期。回测未考虑流动性冲击和市场冲击成本,实际操作效果受限于交易环境。对抗训练虽提升稳健性,但收益可能被限制。策略需后续实时监控和动态校准以应对市场结构变化[page::27,28]。

---

7. 批判性视角


  • 稳健性与收益权衡:对抗训练方法虽然降低回撤,提升ICIR,但轻微牺牲了收益,展现了稳健性与收益的内在权衡,提示投资者根据风险承受度选择模型;

- 数据限制与样本量:报告利用5年数据窗口逐步训练,可能难以捕捉更长期极端行情分布,且高频分钟数据的使用虽增强特征提取,但极端事件的影响可能不足;
  • 市场状态指标选择待拓展:当前市场状态变量覆盖维度有限,未来可纳入更多宏观经济指标、国际市场相关变量以提升状态刻画准确性;

- 模型结构假设:基于多元高斯风险因子收益分布假设,可能忽视实际收益非对称性及重尾等复杂特征;
  • 交易费用未全覆盖:部分回测未完全考虑滑点、冲击成本,对实际净收益影响尚需关注;

- 多方法相关性较高:方法间相关性偏高限制模型组合多样化空间,表明仍较依赖某些系统性信息,未来可探索差异化更大的方法。

---

8. 结论性综合



本报告通过构建FactorVAE基础模型,结合高频和低频量价数据,利用风险因子关联注意力机制,有效挖掘股票内在风险因子及超额收益信号,模型基础版本在全市场及各细分选股域实现了稳定显著的超额收益。

针对样本外泛化难题,报告创新性地提出两类方法:
  1. 融合市场状态:通过引入风格切换、估值、资金面及风险情绪等多维市场状态指标,采用双GRU+交叉注意力机制动态调整股票特征,模型泛化能力和预测收益均显著提升,五分组多头年化超额增至15.10%。
  2. 对抗训练:借助不变风险最小化理论,设计不变特征生成模块并联环境相关及无关预测模块,通过优化缩小两模块差距,筛选环境无关因子,提升模型稳健性,显著降低策略回撤,ICIR提升至1.46。


两方法结合前期的分状态微调因子,构建综合因子,实现了更高的Rank IC(15.39%)、年化超额16.16%,综合因子在沪深300、中证500、1000及国证2000各选股域均有显著表现优势,尤以中小市值池表现最佳。

基于综合因子构建的指数增强策略,实证其在市场中实现了超过市场基准的稳定超额收益,年化净收益最高达21.61%,Sharpe比保持在2以上,最大回撤得到有效控制,彰显量化因子在实际投资中的应用价值。

诸多图表和表格清晰展示了不同模型版本及方法带来的性能差异,模型从因子形成、稳定性、收益率及风险控制多维度验证了样本外泛化的有效性。

报告系统地呈现了机器学习模型在股票因子生成中的前沿探索,融合理论与实务,兼顾模型性能与风险控制,展示了深度学习在金融工程领域的深化应用。尽管面临真实市场不确定性和潜在模型失效风险,报告提供的模型和方法学为后续量化投资策略开发和风险管理提供了坚实参考依据。[page::0-27]

---

参考与致谢



报告引用了包括FactorVAE基础文献、市场状态GRU模型、不变风险最小化理论及对抗训练实现文献等最新国内外学术成果,数据及计算基于东北证券及Ricequant平台。

---

附录:核心图表示例 markdown格式











---

此分析依报告内容深入解读和评价,为理解该领域最前沿因子生成及泛化建模方法提供全面视角。

报告