`

如何在多因子模型中识别有效因子海外文献速览系列之六

创建于 更新于

摘要

本报告深入解读Campbell R. Harvey与Yan Liu《Lucky Factors》文献,介绍结合bootstrap方法的面板回归模型,用以选取能有效解释美国股市截面预期收益的风险因子。实证表明市场因子(mkt)、规模因子(smb)、账面市值比因子(hml)及盈利能力相关因子(qmj)为显著有效因子。该方法降低了传统GRS检验的局限性,对个股层面测试具备更高鲁棒性和解释力,且具有控制多重测试误差的能力,为国内因子选择带来新思路[page::0][page::3][page::8][page::15][page::18][page::24]。

速读内容


研究背景与方法概述 [page::3][page::4]

  • 报告聚焦在选择能有效解释股票截面预期收益的风险因子问题,提出结合bootstrap方法的面板回归框架。

- 该方法克服传统GRS检验中截面资产数大导致协方差矩阵估计不稳定和模型拒绝率过高的缺陷。
  • 采用因子正交化和伪因子生成保持时间序列相关性,剔除截面解释力,进行多重假设检验。

- 该方法适用于多因子模型的逐步因子选择过程,并支持不同回归框架,包括Fama-MacBeth截面回归[page::4][page::7].

主要备选风险因子 [page::8][page::9]


| 因子缩写 | 具体含义 | 来源 |
|----------|------------------|----------------------------|
| mkt | 市场因子 | Sharpe (1964) |
| smb | 规模因子 | Fama与French(1993) |
| hml | 账面市值比因子 | Fama与French(1993) |
| mom | 动量因子 | Carhart (1997) |
| qmj | 质量减垃圾因子 | Asness等人(2019) |
| rmw | 盈利能力因子 | Fama与French (2015a) |
| cma | 投资因子 | Fama与French (2015a) |
| roe, ia | 盈利能力与投资相关因子 | Hou等人(2015) |
| bab, psl, skew, gp, civ | 其他风险因子 | 多个文献 |
  • 图1展示14个因子1968年至2012年期间月度收益均值、t统计量及因子间相关性,显示盈利能力与价值因子分别呈聚集效应[page::9]。


量化检验统计量设计 [page::9][page::10]

  • 设计了比例截距的均值和中位数差异统计量(SI{ew}^m与SI{ew}^{med}),用于衡量加入新因子后截距的减少程度。

- 强调加权截距考虑噪声与股票波动特质,避免高噪声个股影响检验结果。
  • 使用bootstrap方法估计统计分布,实现对多重假设的严谨控制。

- 与传统GRS检验相比,新方法无须估计高维残差协方差矩阵,更适合大横截面资产分析[page::10][page::11]。

实证结果:以个股为测试资产 [page::12][page::13][page::15]

  • 模拟研究显示新检验方法在揭示真实风险因子具有更强统计能力,优于基于beta排序的传统方法。

- 基于个股的等权和市值加权截距检验显示,市场因子(mkt)显著降低截面定价误差,等权减少约21%,市值加权减少44%。
  • 逐步检验中,等权模型优选因子依次为mkt、smb、hml;市值加权模型选择mkt与盈利能力因子(qmj)为重要因子。

- 其余多个主流候选因子未显示显著增量贡献,多重测试校正后结论更稳健[page::12][page::13][page::15][page::17][page::18].

更大因子池下的稳健性检验与投资组合测试 [page::19][page::20][page::21]

  • 扩展至56个备选因子后,主要因子选择结果未改写,市场因子、规模、账面市值比及盈利能力因子稳定显著。

- 采用各种分类投资组合(Fama-French 25组,行业投资组合等)测试,因子选择结果与个股测试存在偏差,反映投资组合构造可能引入检验偏误。
  • 强调面板回归框架适合大量截面资产的因子选择,稳健应对模型指定错误及数据特征[page::19][page::21].


择时因子载荷混合面板回归模型探索 [page::22]

  • 构建引入股票特征滞后排名的混合面板回归模型,允许因子载荷依据特征择时调节。

- 模型回归结果显著,包括因子载荷与特征交互项,表明特征择时对解释股票截面预期收益具有增量贡献。
  • 指明混合回归模型作为未来研究方向,有助于动态捕捉风险因子表现[page::22].


结论与展望 [page::23][page::24]

  • 报告阐述市场因子为截面预期收益最有效风险因子,规模、账面市值比及盈利能力因子亦显著。

- 采用的面板回归检验方法优于传统GRS检验,尤其适用于大截面资产、个股层面分析。
  • 多重测试调整及bootstrap方法控制了因子选择过程中的数据挖掘偏差。

- 提示因子有效性受回归方法、测试资产类型影响,建议国内市场进一步验证采用此框架的因子选择稳健性。
  • 指出因子载荷择时及风险特质演变为未来不可忽视的重要研究方向[page::23][page::24].







深度阅读

详细分析报告:《如何在多因子模型中识别有效因子海外文献速览系列之六》



---

一、元数据与概览



报告标题:如何在多因子模型中识别有效因子海外文献速览系列之六
作者:高智威(执业证书编号:S1480521030002)
发布机构:东兴证券研究所
日期:报告中未注明具体日期,内容基于2021年4月21日的文献《Lucky Factors》
主题:基于 Campbell R. Harvey 和 Yan Liu 的论文,应用面板回归与 bootstrap 方法识别资产定价中截面有效因子,尤其关注市场因子、规模因子、账面市值比因子和盈利能力因子,探讨多重测试及模型适用性改进。

核心论点与内容摘要

本报告为东兴金工团队“海外文献速览系列”的第六篇,转载并分析了 Harvey 和 Liu 撰写的著名论文《Lucky Factors》。该论文聚焦如何在严峻的多重测试环境下识别截面预期收益中有效的风险因子。通过设计结合面板回归模型和 bootstrap 假设检验的新方法,作者解决了不同测试方法和投资组合构建对因子有效性结论的影响,以及多重测试偏差。实证结果显示,市场(mkt)、规模(smb)、账面市值比(hml)及盈利能力(qmj)等因子显著减少定价误差,且该方法在使用个股数据时具有更高的稳定性和解释力。此外,该研究提出了带因子择时载荷的混合面板回归模型,指出未来研究方向。报告强调该方法的适用性和对国内市场因子选取可能带来的启示。

[page::0] [page::3] [page::4]

---

二、逐节深度解读



1. 研究背景


  • 报告强调在量化投资策略开发中,吸收海外先进经验的重要性,并推出系列速览报告。本篇重点为 Harvey 和 Liu 的文章《Lucky Factors》,该文探讨了如何科学识别有效多因子。
  • 困难点主要有三:

1) 时间序列回归与横截面回归结果不一致。
2) 不同构建测试投资组合方法导致因子重要性差异。
3) 多重因子测试引入“幸运因子”风险,需校正多重测试偏差。
  • 文章提出通过面板回归框架,以及结合 bootstrap 技术,控制多重测试错误,绕过了构建投资组合的复杂性,通过个股直接测试因子有效性。
  • 该研究针对被广泛使用的 Gibbons-Ross-Shanken (GRS) 检验的局限性提出了替代方案。GRS难以准确估计高维协方差矩阵,且在大样本截面时容易产生异常结果。[page::3] [page::4]


2. 测试方法



2.1 面板回归模型


  • 该部分详细介绍了面板回归方法,回归个股超额收益与风险因子收益的关系。经典模型为:


\[
R{i,t} - R{f,t} = ai + \sum{j=1}^K b{i,j} f{j,t} + \epsilon{i,t}
\]
  • 理想情况下,若因子模型正确,截距$ai$应全部为0。GRS检验即是检验此假设的问题,但由于估计残差协方差困难和投资资产高维,GRS检验往往无效。
  • 作者利用正交化因子,构造“伪因子”,保证对截面无解释力,再通过 bootstrap 重采样获得截面定价误差的统计分布。通过比较实际与“伪因子”状态下的统计量,评估新增因子解释截面收益的增量贡献。
  • 同时介绍了单因子加入第二因子的调整过程(投影调整,以保证截距相等),保证因子解释增量对截面的判别科学准确。
  • 面板回归相较横截面回归对极端观测值更稳健,且识别个股因子载荷更准确。[page::4] [page::5] [page::6]


2.2 备选的回归框架


  • 除面板回归外,研究还适用于横截面(Fama-MacBeth)回归和预测回归框架,均能通过调整右侧变量(因子)达到零假设状态。
  • 以个股做测试资产优先采用面板模型,能缓解噪声及模型误差影响。[page::6] [page::7]


2.3 一些讨论


  • 2.3.1 Bootstrap假设检验:本文与基层文献相呼应,技术上通过重采样设计特定原假设,有效控制多重测试误差,提升显著性判定准确度。
  • 2.3.2 “有用”因子的定义:因子若显著减少回归截距即被视为有用。
  • 2.3.3 多重假设检验控制家庭错误率。
  • 2.3.4 模型选择逐步法具有顺序稳定性。
  • 2.3.5 相关文献回顾,阐明本文方法与传统GRS测试、Barillas与Shanken (2017)的差异和理论联系。[page::7]


3. 实证应用:识别有效的风险因子



3.1 备选风险因子


  • 选择14个流行因子作为备选,涵盖市场(mkt)、规模(smb)、价值(hml)、动量(mom)、盈利能力(rmw,roe,qmj)等,表1详列因子缩写与来源。
  • 图1展示1968年1月至2012年12月的月度因子收益的统计特征和相关系数,显著发现价值组(hml、cma、ia)和盈利组(rmw、roe、qmj)内部高度相关。
  • 同时纳入Ehsani和Linnainmaa (2021) 的56因子扩展列表,检验结果稳健。[page::8] [page::9] [page::19]


3.2 检验统计量


  • 设计了等权加权和市值加权两种比例截距绝对值的检验统计量(如 $SI{ew}^m$ 和 $SI{vw}^m$),以衡量加入新因子后模型截距减少的百分比。
  • 使用基于截距标准差的比例缩放,剔除不同股票特质带来的噪音影响,数据更适合个股回归。
  • 相比传统GRS检验,方法不依赖高维残差协方差矩阵估计,更适合大N小T面板,且能更精准捕捉因子增量效应。
  • 并与传统截面检验进行了理论上的比较和说明。[page::9] [page::10] [page::11]


3.3 主要结果:基于个股测试资产


  • 挑战传统观点,提出个股测试可行且更优。模拟与实证验证了面板回归与bootstrap方法结合的较强能力,减少因噪音产生的统计误差。
  • 模拟研究(图2至图4)显示,面对实际分布和噪音分布,基于 bootstrap 的面板回归检验较 Beta 分组排序方法在显著性检验中具有更强统计功效。并且个股测试始终可保持较高的测试能力。
  • 实证(图5、图6):


- 等权统计量和市值加权均确认市场因子(mkt)为最显著因子,能够分别降低等权和市值加权的定价误差约21%和44%。

- 在等权模型中,继市场因子之后,smb和hml显示统计显著和经济意义,最终因子组合为 mkt+smb+hml。

- 在市值加权模型中,盈利能力因子qmj作为市场因子之后的重要组合成员,替代hml,最终组成 mkt+qmj 因子组合。
  • 与其他文献的比较:该测试框架更能精准捕获因子截面效应,且识别出的有效因子列表更稳定。传统Fama-MacBeth模型及GRS检验对市场因子的拒绝多因数据噪音及方法限制造成,作者方法更有优势。
  • 经济上,虽然规模与价值因子减小截距幅度有限,但市场因子和盈利小的因子仍显著。
  • 作者强调面板回归对于因子的识别具更强的鲁棒性,且 Bootstrap 控制多重测试偏差。[page::11] [page::12] [page::13] [page::14] [page::15] [page::16] [page::17] [page::18]


3.3.4 扩展因子集测试


  • 在包含56个风险因子的大备选集中,结果对主流因子稳健,市场因子、smb、hml和qmj仍为主要有效因子。多重测试校正使得统计显著性更严格,但核心因子显著不减,突出该方法选择因子的鲁棒性。[page::19] [page::20] [page::21]


3.3.5 分类整合投资组合


  • 作者将方法应用于多样化投资组合并强调投资组合构建对因子测试结果具有较大影响,细节安排于附录。


3.4 稳定性检验


  • 多角度稳健性测试(去极值、价值加权等)证明结论稳定。


3.5 择时因子载荷和其他问题


  • 提出扩展模型加入择时因子载荷和混合面板回归实现,融入资产的特征排名与因子载荷的动态关系。
  • 图9显示相关回归系数均高度显著,支持未来研究将因子时变性纳入建模框架。[page::22]


3.6 注意事项


  • 强调测试结果依赖于所用资产定价测试框架,面板回归比横截面回归更适合个股测试。
  • 多重测试偏差需谨慎控制,预先选定因子列表高影响最终结论。
  • 时间长度和发现时间影响因子稳健性,盈利能力因子在实证测试中历史较短,应谨慎解释。[page::23]


4. 结论总结


  • 市场因子的定位得到了有力实证支持,是解释截面预期收益中最主要的因子。
  • 构建投资组合的不同分类方式导致因子有效性检测差异,避免组合方法,更优采用个股测试。
  • GRS检验因其使用限制和实际问题不足以准确评价因子,本文方法更适合大横截面数据。
  • 结合Bootstrap方法的面板回归逐步选择架构可以有效控制测试多重性,甄别增量因子贡献。
  • 未来研究方向:考虑因子择时、风险载荷时变及因子稳健性问题。


[page::23] [page::24]

5. 我们的点评



本报告体现了海外学术研究在因子识别方面的最新进展,验证了市场、规模、价值和盈利能力因子在多重测试调整后的有效性,深化了因子有效性测试的统计学理解和方法论,具有重要启示价值。

如该方法在中国市场稳健适用,将有助于更科学地选择多因子策略中的有效因子组合。

---

三、图表深度解读



1. 表1 因子缩写与含义



| 缩写 | 因子名称 | 文献来源 |
|-------|-------------------|-----------------------|
| mkt | 市场因子 | Sharpe (1964) |
| smb | 规模因子 | Fama与French (1993) |
| hml | 账面市值比因子 | Fama与French (1993) |
| mom | 动量因子 | Carhart (1997) |
| qmj | 质量减垃圾因子 | Asness等 (2019) |
| rmw | 盈利能力因子 | Fama与French (2015a) |
| cma | 投资因子 | Fama与French (2015a) |
| roe | 盈利能力因子 | Hou等 (2015) |
| ia | 投资因子 | Hou等 (2015) |
| bab | 反贝塔因子 | Frazzini与Pedersen (2014) |
| gp | 毛利率因子 | Novy Marx (2013) |
| psl | 流动性因子 | Pastor与Stambaugh (2003) |
| skew | 共偏度因子 | Harvey与Siddique (2000) |
| civ | 公共特质波动率 | Herskovic等(2016) |

此表为理解后续分析提供了因子含义及来源基础。[page::8][page::2]

---

2. 图1:14因子收益描述性统计与相关性矩阵


  • 面板A显示各因子的均值收益,其中动量(mom)和盈利能力(roe、rmw、qmj)收益较高,t值多数超过3,表明显著性强。
  • 面板B显示因子间相关性,价值组(hml, cma, ia)与盈利组(rmw, roe, qmj)内部高度相关(高达0.9),提示存在共线性风险。
  • 该图佐证了因子分类逻辑和后续因子选择时需考虑因子相关性对多重测试的影响。[page::9]


---

3. 图2 和 图3:模拟研究(T=240和T=480)


  • 表格显示因子不同风险溢价水平(A=0至2.0)下,各方法(面板回归 bootstrap 方法、条件/无条件β排序)检验显著率。
  • 面板回归方法在不同因子和样本长度均表现更高的检验功效,特别是当样本量大(T=480)时接近100%。
  • 说明本文提出的面板回归统计方法能更有力识别“真实”有效因子。[page::12][page::13]


---

4. 图5和图6:实证测试结果(等权与市值加权)


  • 图5(等权)显示市场因子显著降低截距的中位数(-20.6%),p值极小(0.001)。smb和hml因子亦在多重测试调整后显著,其它因子不显著。
  • 图6(市值加权)市场因子贡献更大(-44.4%),其次是盈利能力因子qmj(-14.9%),而hml贡献较小。多重测试p值确认有效性。
  • 经济解释:大市值股票因子定价误差更重要,盈利因子代表性强于hml。
  • 该统计量清晰体现不同因子在不同投资者权重体系中的重要度差异。[page::15][page::16][page::17][page::18]


---

5. 图7和图8:56因子扩展测试结果


  • 在更大因子集合中,顶级因子(mkt, smb, hml, qmj)依旧显著;多重测试调整阈值更严格,降低假阳性率。
  • 拓展测试充分验证所选主流因子高稳定性,对因子筛选方法信心增强。
  • 其余因子多无显著贡献,说明因子海量增加并非总能提升定价解释力。[page::20][page::21]


---

6. 图9:混合面板回归(择时因子载荷)结果


  • 回归中所有估计量均高度显著(t值均>2)。包括因子因子载荷本身、交互项(因子载荷的择时特征排名乘以K因子收益)。
  • 这表明模型能同时捕捉因子效应和其在不同因子特征状态下的变化,反映风险因子的时间动态效应。
  • R^2 达18%,说明模型拟合较好,为未来因子择时研究提供了方法论基础。[page::22]


---

四、估值分析



本报告主要为资产定价多因子模型的有效性识别及多重测试控制问题,不涉及具体公司估值、目标价或市盈率等股票估值分析,因此不适用传统估值框架。

---

五、风险因素评估


  • 研究基于美国股票市场历史数据,市场环境及制度变动可能导致模型失效。
  • 多重测试偏差风险需具备严谨控制,否则会导致虚假因子出现。
  • 采用个股数据进行面板回归有潜在的噪声影响,尽管本研究方法有所缓解,但极端观测和特质风险仍需谨慎对待。
  • 因子历史数据长度差异(如盈利能力因子较短统计历史)可能导致结论的代表性及应用范围缩小。
  • 需防范因子时变及风险载荷不稳定性影响,未来研究尚待持续。


整体风险提示明确,报告内容仅为实证研究总结,不构成投资建议。[page::0] [page::24]

---

六、批判性视角与细微差别


  • 报告内容基于哈佛系Harvey和Liu论文,数据和结论均限于美国市场,直接套用国内市场时需验证稳健性。
  • 面板回归模型在解释截面因子有效性方面虽有优势,但对模型误差和特质因子仍依赖假设,存在模型错设风险。
  • 多重测试的处理虽通过bootstrap严格校正,但对因子历史长度的区分不够充分,可能导致新因子表现被“低估”。
  • 市值加权与等权检验统计量结果差异提示投资者不同权重偏好将极大影响因子定价解释及投资策略,策略制定时需在实际需求间权衡。
  • 报告对真实世界操作中的投资组合构建和交易成本未涉及,因子有效性实用性需结合市场流动性和交易摩擦考量。
  • 报告多处提到面板回归对噪声和极端值有减弱作用,但极端市场状态下模型表现未详述,预警不足。
  • 总体研究轻微偏向于传统主流因子(如mkt、smb、hml),对新兴因子的识别相对保守,提示未来研究仍需探索更多潜在有效因子。


---

七、结论性综合



该报告深入解读了Harvey与Liu的《Lucky Factors》,提出了一种结合面板回归和bootstrap的逐步筛选方法,用以克服多重测试问题和GRS检验的局限,进而科学识别截面预期收益中的有效风险因子。

实证发现表明:
  • 市场因子(mkt)是唯一具有跨所有权重体系显著且经济意义巨大的基石因子,有效减少21%-44%的定价误差。
  • 规模因子(smb)与账面市值比因子(hml)在等权体系下显著,但经济贡献大幅低于市场因子。
  • 盈利能力因子(qmj)作为盈利能力组代表,在市值加权体系中表现突出,明显降低定价误差。
  • 该方法通过使用个股数据和面板回归,有效提升了测试统计的稳定性和功效,避开了投资组合构建带来的潜在偏差,并强有力地解决了多重因子测试的统计学挑战。
  • 方法扩展至56因子大备选集后,核心因子仍保持显著,体现方法的鲁棒性。
  • 通过混合面板回归引入择时因子载荷,令模型更加贴合现实市场,指示未来因子研究的方向。


图表均有力支持以上结论,如“图1”为因子统计概览,“图5-6”验证因子经济有效性和统计显著性,“图2-4”模拟验证方法功效及“图9”展示因子择时模型结果。

最终,报告建议该框架为未来国内多因子模型选择提供科学借鉴,但同时发出风险提示,需结合市场特有条件和长周期稳健性审视模型应用。

---

参考文献


  • Campbell R. Harvey, Yan Liu, Lucky Factors, Journal of Financial Economics 141 (2021) 413–435


---

联系方式与免责声明


  • 本报告作者:高智威,东兴证券金融工程首席分析师,拥有物理学博士学位,拥有丰富量化研究经历。
  • 报告依赖美国市场实证数据,不构成投资建议,投资者须谨慎。


---

结语



本报告以严谨的金融工程视角,系统剖析了先进的多因子建模和筛选方法,从理论和实证两个层面给予投资者和研究人员启迪,尤其对复杂多因子环境下有效因子的识别问题,提供了创新且实践意义极强的解决思路。

[page::0][page::1][page::2][page::3][page::4][page::5][page::6][page::7][page::8][page::9][page::10][page::11][page::12][page::13][page::14][page::15][page::16][page::17][page::18][page::19][page::20][page::21][page::22][page::23][page::24]

报告