`

利用基本面信息改进机器学习因子——AI系列研究之三

创建于 更新于

摘要

本报告主要探讨将基本面信息融入机器学习量价因子以改进因子表现。通过剔除行业、市值、Beta风险因子调整学习目标收益率,结合Alpha158数据和多频率量价信息,构建综合因子显著提升多头收益率并降低换手率。基于综合因子构建沪深300、中证500和中证1000周频指数增强策略,策略年化超额收益率显著,信息比率均超4,最大回撤较低,体现了基本面信息对机器学习因子的有效改善和策略稳定性提升 [page::0][page::4][page::6][page::11][page::18].

速读内容


机器学习量价因子存在的问题与改进 [page::3]


  • 多模型间因子信息同质化严重,复杂模型未提升表现。

- 多头端贡献低于空头端,IC贡献主要来自空头。
  • 引入周频量价信息,结合Alpha158因子,综合量价因子IC和表现略有提升。


量价和基本面因子对比与风险剔除优化场景 [page::6][page::7]


| 剔除风格 | RankIC均值 | ICIR | IC胜率 | 多头收益率 | 多头夏普 | 多头最大回撤 | 多头换手率 |
|-----------------|---------|-------|--------|-----------|---------|--------------|------------|
| 市值+行业 | 11.16% | 1.03 | 85.74% | 26.39% | 1.57 | -27.77% | 61.70% |
| 市值+行业+Beta | 11.77% | 1.06 | 86.14% | 27.98% | 1.44 | -26.68% | 62.20% |
| 所有大类风险 | 10.36% | 1.08 | 86.83% | 22.89% | 1.11 | -34.82% | 71.50% |
  • 学习目标经风险调整(行业、市值、Beta剔除)表现明显优于未调整目标。

- 剔除行业、市值、Beta风险模型效果最佳,机器学习模型能从其他风格捕捉Alpha信号。

量价因子与基本面因子性能对比及互补 [page::7][page::8][page::9]



  • 量价因子表现出高IC与空头Alpha明显优于多头,换手率较高,表现稳定。

- 基本面因子(如EP_SQ)多头Alpha优于空头、换手率低,但IC和稳定性较量价因子低。
  • 基本面和量价因子信息互补,有利于提升多头收益并降低换手率。


基于GBDT融合基本面与量价的综合机器学习因子构建及表现 [page::10][page::11]



| 股票池 | RankIC均值 | ICIR | IC胜率 | 多头收益率 | 多头夏普 | 多头最大回撤 | 多头换手率 |
|---------|---------|-------|--------|-----------|---------|--------------|------------|
| 沪深300 | 10.14% | 0.62 | 74.07% | 34.61% | 1.90 | -16.41% | 36.60% |
| 中证500 | 9.90% | 0.81 | 79.76% | 35.84% | 1.84 | -23.51% | 47.30% |
| 中证1000 | 10.48% | 0.92 | 82.98% | 31.86% | 1.47 | -27.72% | 49.80% |
| 全A | 10.52% | 0.94 | 83.50% | 38.97% | 1.91 | -25.86% | 56.60% |
  • 融合后综合因子统计指标略有下降,但多头收益率和夏普显著提升,换手率下降。

- 风格中性化后因子IC胜率达94.88%,ICIR显著上升,显示Alpha信号稳定。

基于综合因子的周频指数增强策略表现 [page::15][page::16][page::17]

  • 沪深300指数增强策略(20%双边换手约束):

- 成分股选股和全市场选股风格与行业主动偏离均严格控制,表现相近。
- 全样本超额收益率达13.83%,信息比率4.14,跟踪误差3.73%,最大回撤低于3%。


  • 中证500指数增强策略:

- 全市场选股策略最大回撤明显增大,说明尾部风险难以完全规避。
- 双边换手20%控制下,信息比率4.03,年化跟踪误差5.65%。
  • 中证1000指数增强策略:

- 在成分股和全市场间选股表现差异小,尾部风险同样较难控制。
- 双边换手20%控制下,信息比率4.69,年化跟踪误差5.71%。

总体来看,基于融合基本面信息的机器学习综合因子构建了表现优异的指数增强策略,显著提升了多头收益和策略稳定性,适应多层次市场选股需求 [page::0][page::6][page::11][page::15][page::17][page::18].

深度阅读

金融研究报告详尽分析——《利用基本面信息改进机器学习因子》



---

一、元数据与报告概览


  • 报告标题:《利用基本面信息改进机器学习因子——AI 系列研究之三》

- 作者:任瞳、周靖明、周游
  • 发布机构:招商证券股份有限公司

- 发布日期:未明确标注,回溯数据截止2024年3月
  • 研究主题:针对中国A股市场,研究如何通过引入基本面信息提升机器学习(ML)因子生成的效果,重点在改进量价因子及构建综合因子,最终应用于指数增强策略的构建。


核心论点与主旨



本报告聚焦于机器学习因子在量价信息基础上的改进,主要探索以下几个方向:
  1. 风险调整学习目标:通过剔除行业/市值/Beta风险,实现因子更纯粹的Alpha信号捕捉。

2. 融入基本面信息:结合量价因子与基本面Alpha因子优化综合机器学习因子表现,解决量价因子多头收益不强、换手率高的问题。
  1. 采用梯度提升树模型(GBDT):加快因子训练迭代频率,提升模型性能。

4. 构建指数增强策略:基于综合因子构建沪深300、中证500和中证1000等宽基指数的周频指增策略,验证策略收益、回撤和信息比率等。

报告关键结论
  • 机器学习因子的表现通过引入基本面风格风险剔除与基本面因子后显著提升,尤其是多头收益率和换手率指标。

- 指数增强策略表现优异,尤其是在沪深300的成分股内选股和全市场选股表现接近。
  • 风险提示指出基于历史数据统计的定量策略面临模型失效风险。


[page::0,1]

---

二、逐节深度解读



2.1 机器学习量价因子生成模型



量价机器学习模型遇到的问题



报告指出先前构建的多模型(MLP、GBDT、GRU、AGRU等)量价因子存在以下瓶颈:
  • 模型同质化现象严重:不同模型学习到的因子截面相关系数较高,达到约0.8的均值(图1),显示因子间信息高度相似,说明不同模型“挖掘”信息的差异有限。

- 模型复杂性提升效果有限:增加模型深度或复杂度未实质改善模型性能。
  • 多头端贡献不足:IC(信息系数)贡献多由空头端驱动,多头端表现偏弱。


表1数据明确,集成模型表现最佳,RankIC达11.62%,ICIR约1.07,IC胜率86%,多头收益率最高29.31%,但各模型间差距不显著。

引入长周期量价信息改进因子表现



为突破上述瓶颈,借鉴微软Qlib的Alpha158数据集,并引入周频量价信息采样策略(图3),结合日线与周线不同频率的量价数据训练模型。模型结构分为截面模型(MLP、GBDT)和时序模型(GRU),最终因子等权合成(图4)。

表3显示:
  • 单独周频量价因子表现RankIC均值11.14%,ICIR约1.00。

- 日频量价与Alpha158因子表现相当,综合量价因子表现最好,RankIC12.01%,ICIR1.12,IC胜率88.4%,多头收益31.11%,换手率61.9%。

尽管量价因子统计指标(IC、ICIR)有所提升,但多头收益率和最大回撤等实战收益指标提升有限,说明量价因子效能达到一定瓶颈。

[page::3,4,5]

---

2.2 基本面信息融入机器学习因子模型



机器学习目标的基本面风险剔除



报告基于经典因子模型公式,提出对机器学习因子目标收益率中的行业、市值、Beta等风险因子线性剔除。调整后目标收益率作为学习目标,提高模型预测的Alpha成分纯度。

表4统计结果显示,风险调整后的学习目标显著提升RankIC均值和多头收益率。例如,MLP模型风险调整前RankIC约为9.2%,调整后提升至11.14%,多头收益率提升约6个百分点,表明风险剔除改善了模型体验。

进一步,表6分析不同风险剔除组合对模型表现的影响,发现剔除行业、市值、Beta三类风险因子效果最佳,优于单独剔除市值+行业和剔除所有大类风险。解释为其他风格因子可能蕴含一定Alpha信息,剔除过度削弱模型学习能力。

量价类因子对比基本面类因子



报告对比典型量价因子与基本面因子(如单季度市盈率倒数 EPSQ):
  • 量价因子IC均值约0.049,多头收益率明显低于空头(图5、6)。其换手率高,分组表现偏不对称。

- 基本面因子EP
SQ IC均值0.559,ICIR0.73,多头收益率高于空头(图8、9),且换手率低,有利于多头策略稳定。
  • 基本面因子稳定性相对较差,波动大,更新频率低,存在缺失值问题,但两者相辅相成,互补意义显著。


表7所列的基本面因子涵盖财务指标如ROE、毛利率、成长率、分析师评级变化等多维数据。报告选择GBDT模型针对基本面因子进行建模,因其对缺失值容忍度高和训练速度快。

结合基本面信息构建综合因子



遵循上述逻辑,报告利用GBDT对综合量价因子和基本面特征进行集成建模(图13)。综合基本面因子表现为:RankIC=0.043,ICIR=0.39,IC胜率65%,多头表现明显优于空头,符合基本面因子特征(图11、12)。

经过基本面与量价信息融合的综合因子,较单一量价因子多头收益率显著提升,换手率降低至56.6%,表现均衡且更适合实战选股(图14、15)。同时,IC、ICIR有所下降但仍在合理范围(表9)。

表11显示,综合因子与动量、估值、市值、流动性等风格因子相关性中等偏低,尤其是流动性和市值相关较大,但剔除常见风格中性化后(图18、19),综合因子稳定性及统计显著性大幅提升,说明因子收益独立且可靠。

[page::5,6,7,8,9,10,11,12,13]

---

2.3 周频指数增强策略构建



报告基于构建的综合因子构建了周频指数增强策略,涵盖沪深300、中证500、中证1000三大样本空间。优化目标为最大化预期收益$\mu^T w$,同时满足风格、行业、持仓权重偏离、成分股占比、换手率、全额投资等多种约束(特别风格偏离控制极为严格),详细公式和约束说明清晰(第14页)。

交易价格采用次日复权VWAP,成本考虑千分之一买入费率与千分之二卖出费率,有效模拟真实交易环境。

沪深300策略表现(含成分股内/全市场)


  • 表12与表13显示:在换手率控制为20%、40%、60%三档水平,沪深300策略整体实现稳健的超额收益,换手率越高收益逐渐下降,表明交易成本侵蚀了收益。

- 2017年至2023年各年度表现波动,但保持正超额收益。超额最大回撤维持较低水平。
  • 成分股内和全市场选股策略表现相近,信息比率达4.14以上,年化跟踪误差约3.7%。

- 图20与图21净值曲线展现策略超额收益的持续积累及动态回撤情况,体现策略的有效性和风险分散。

中证500策略表现


  • 表14与表15可见,成分股内选股与全市场选股差异以下降为主,特别在换手率限制严格时更为显著。

- 全市场选股最大回撤较成分股内选股增大,暗示在控制尾部风险方面存在挑战。
  • 信息比率水平稍高于沪深300,年化超额收益率达到22%左右,跟踪误差有所上升。

- 图22和图23体现策略收益稳定积累,且面临更大动态回撤时段。

中证1000策略表现


  • 表16和表17展示更小市值样本的策略表现,收益与回撤均高于中证500。

- 换手率限制下,收益略有降低,但回撤压力依然明显。
  • 信息比率最高达4.69,年化超额收益率27%,体现更高的风险收益特征。

- 图24、25显示策略净值增长明显但波动较大,强调细分市场的机遇与风险。

[page::14,15,16,17]

---

2.4 总结



报告总结指出:
  • 复合量价信息通过引入Alpha158日频信息和周频量价信息,在指标上有提升但有限;

- 风险调整(即剔除行业、市值、Beta)优化学习目标显著提高机器学习模型性能;
  • 机器学习模型可以从基本面信息中提取增量Alpha,基本面因子与量价因子在多头收益率和换手率表现上形成互补;

- 采用GBDT短周期训练,有效融合量价及基本面因子,使综合因子多头表现大幅提升,而统计指标轻微下降,在选股实际应用中权衡合理;
  • 基于综合因子的周频指数增强策略在沪深300、中证500、中证1000均表现良好,成分股和全市场选股场景下差异细微;

- 全市场选股虽带来更高收益,尾部风险与最大回撤问题突出,说明高级风格控制尚难完全规避极端风险;
  • 量化策略基于历史数据存在模型失效风险,投资者需审慎。


[page::18]

---

三、图表深度解读



图1:不同模型平均相关系数走势



图1显示多模型因子截面相关性稳定在0.7~0.85区间,60日移动平均接近0.8,说明模型学习到的信息高度重叠,差异有限,限制了因子多样性的提升。



图2:不同模型生成因子分组年化对冲收益曲线



图2展示MLP、GBDT、AGRU、GRU四模型在20分组条件下的年化收益率,整体呈现线性递减趋势,最高组收益率约0.25左右,多头端收益贡献偏低。



图3与图4:周频量价信息采样和综合量价因子构建流程



图3显示周频量价采样采用每5日采样一次OHLC、VWAP及成交量数据,回溯150交易日。图4说明模型训练融合Alpha158、日频量价、周频量价三部分信息,分别训练截面与时序模型,最终等权合并输出综合量价因子。





表3:不同数据集因子表现(周频)



综合量价因子IC均值最高12.01%,ICIR 1.12,胜率88.4%,多头收益率31.11%,说明融合多频率及多因子维度有效提升识别能力。

---

图5~7与图8~10:典型量价因子与基本面EPSQ因子对比


  • 图5、6典型量价因子多头端年化收益显著低于空头端,表现出不对称性,且换手率高。

- 图7显示量价因子自相关稳定但有限。
  • 图8、9基于基本面EPSQ因子的多头端收益更优且分组收益更对称,换手率低,有助减少交易成本。

- 图10显示EP_SQ自相关高达0.878。

这种对比强化了基本面因子补充量价信息的必要性。









---

图11~12:综合基本面因子表现


  • 分组对冲收益突出多头端,各分组收益对称性更佳

- 净值曲线稳步上升,累计收益持续累积
  • 多头收益突出,体现基本面因子优异的选股能力






---

图13:综合机器学习因子构建流程



描述量价和基本面因子分别通过不同模型处理后融合,后续GBDT融合基本面信息,形成综合机器学习因子,改善多头收益和换手率。



---

图14~17:综合因子表现


  • 分组对冲年化收益多头明显领先空头,且年化收益率和夏普显著提升

- 换手率从61.9%降至56.6%,说明持仓更稳定,交易成本降低
  • 多空净值呈现几乎持续上升趋势,IC累计稳步增长

- 综合因子在沪深300、中证500、中证1000和全A股票池内表现一致,最好信息比率38.97%









---

图18~19:风格中性化后综合因子表现



风格中性化后,综合因子RankIC下降0.78,但ICIR大幅上升至1.55,IC胜率94.88%,统计显著性和稳定性显著提升,表明因子不完全依赖传统风格,具备独立Alpha能力。





---

图20~25:指数增强策略净值走势(沪深300、中证500、中证1000)


  • 净值走势稳健,策略收益超过基准且动态回撤波动相对有限

- 动态成交回撤反映了市场流动性影响,策略表现随交易成本和换手率变动
  • 全市场选股策略风险及回撤较成分股内选股更大,反映宽基样本空间下的尾部风险敞口增加


沪深300及中证500、1000周频指数增强策略展示出综合因子在实际投资中的有效性,支持多频因子融合及风险调整思路。













---

四、估值分析



本报告不涉及个股估值,而是从因子构建和策略测试角度展开。所采用的估值“等价”在于因子构建部分通过统计指标如RankIC、ICIR、多头收益率、多头夏普率和最大回撤评估因子质量,策略部分使用指标如信息比率、跟踪误差和超额最大回撤评估策略表现。

机器学习模型中主要方法为:
  • 梯度提升树(GBDT) 用于融合多维度因子并解决缺失值问题,优于深度神经网络的训练速度和稳定性;

- 多模型集成(MLP、GBDT、GRU)提升因子多样性;
  • 风格风险剔除作为因子净化手段。


整体估值以信息比率为核心指标,对应量化投资中的Alpha信号质量和风险调整后的超额收益效能。

---

五、风险因素评估



报告明确提出模型失效风险警示:
  • 量化策略基于历史数据和参数配置,未来市场环境变化可能导致因子效果和策略收益显著下滑;

- 基于历史统计的风格控制难以规避极端尾部风险,尤其是在全市场选股且风格空间庞大时;
  • 基本面因子因更新频率较低、数据缺失可能导致噪声增加,影响模型稳定性;

- 交易成本、换手率限制等实际操作约束对策略收益有侵蚀,过高换手率导致净收益下降。

报告未细化缓解措施,但采用风格剔除、严格风格偏离控制和换手率限制作为风险管理工具。

[page::0,18]

---

六、批判性视角与细微差别


  • 报告呈现了多维度机器学习因子构建的最新技术,整体研究逻辑严密,实证充分,呈现正面效果。

- 但量价因子提升有限且多头收益率不强,说明量价信息可能存在信息含量上限,基本面因子提升虽显著,IC指标小幅下降,暗示模型存在一定准确率与收益率的权衡。
  • 风险剔除虽助因子净化,但过度剔除或忽略高阶风险可能抹除潜在Alpha,需谨慎平衡。

- 指数增强策略测试回撤控制虽严格,但全市场选股下尾部风险依然突出,表明统计套利策略对于极端事件的抗压能力存在不足,未来可研究更细粒度风控方法。
  • 缺乏更丰富的实盘/交易成本敏感性测试,换手率与费用压力在现实操作中可能更显著。

- 未直接对比深度学习与梯度提升树的最终综合因子表现,模型选择依据可进一步丰富。

---

七、结论性综合



本报告通过引入基本面信息,有效改善基于量价数据的机器学习因子表现,尤其提高了多头收益率、降低了换手率,构建了更为稳健的综合机器学习因子。报告从风险剔除学习目标入手,保障了因子Alpha的纯净度,并通过GBDT等集成模型融合多频率量价和基本面特征,实现了因子稳定性与选股能力的兼顾。

基于该综合因子,结合严格的风格与行业约束,构建的沪深300、中证500和中证1000指数增强策略均表现优异:
  • 沪深300策略全市场/成分股内选股差异不大,信息比率超过4,跟踪误差在3.6%左右,风险回撤可控;

- 中证500和1000策略表现更为突出,收益更高,但尾部风险加大;
  • 策略受换手率与交易成本影响显著,强调实际可操作性的平衡。


报告强调量化策略基于历史数据构建,面临模型失效风险,投资者应谨慎使用。整体而言,报告方法论和实证充分支持基本面信息在提升机器学习因子选股效能中的关键作用,也为基于AI的量化策略设计提供了重要参考。

---

参考溯源



以上分析及引用内容均源于招商证券《利用基本面信息改进机器学习因子(AI系列研究之三)》[page::0,1,3-18]。

报告