因子间相关性与横截面资产回报——“学海拾珠”系列之一百六十一
创建于 更新于
摘要
本文研究了因子间相关性对横截面资产回报因子筛选的影响,提出了有序加权LASSO(OWL)估计器以提升因子识别的稳健性和组合表现。通过模拟和实证分析发现,OWL 能有效识别市场因子和其他重要因子,显著优于传统LASSO和Fama-MacBeth回归,样本外对冲组合夏普比率最高且收益分布更正态,表明OWL在高度相关因子环境下具有优势且适用于因子投资实践。[page::0][page::3][page::11][page::13][page::19][page::21]
速读内容
研究背景与问题概述 [page::3]
- 多因子资产定价模型中,高维因子间常存在严重相关性,传统方法(Fama-MacBeth回归、LASSO)在此环境下难以稳定识别有效因子。
- 80个候选因子中,64%因子相关系数绝对值超过0.5,显示高度共线性问题迫切需要稳健的因子选择方法。
OWL估计器方法与统计性质 [page::6][page::7][page::8][page::9]
- 结合随机折现因子(SDF)理论,引入有序加权LASSO(OWL)估计器,加入排序权重惩罚项以识别高相关因子群组,避免传统LASSO在高相关性下选择不稳定问题。
- OWL估计器具有分组特性:高度相关或负相关因子被赋予相近或符号相反的系数。
- 理论证明OWL估计器在宽松假设下渐近一致,收敛速率与LASSO相同,且表现更优。
模拟实验结果 [page::11][page::12]
- 在因子相关系数从0.3到0.9不同设置和不同样本规模(N=70,100,1000)下,OWL估计器在有用因子和整体因子MSE均显著低于LASSO、自适应LASSO与Elastic Net,显示出更强鲁棒性。
- OWL对无用因子压缩稍逊于其他方法,但整体性能最优,特别是在高度相关因子情形下更具优势。
数据与实证因子筛选分析 [page::13][page::14][page::15][page::16][page::17]
- 采用CRSP和Compustat数据,1980-2017年美股,剔除高缺失因子,最终获得80个异象因子和市场因子。
- 因子间相关性通过时间序列和因子载荷两种方式测量,均显示大量高相关因子。
- 实证发现流动性因子、资产增长率、盈利因子和市值因子为主要驱动横截面回报的因子,且因子显著性存在时变,样本切分中流动性因子在2001年前后表现差异显著。
- 剔除小市值“垃圾股”后,规模效应明显恢复。
样本外对冲组合表现比较 [page::18][page::19][page::20]

- OWL估计法选择的因子构建的五因子对冲组合在全样本与子样本中均表现出较高夏普比率,较传统LASSO、Elastic Net和Fama-MacBeth方法提高20%-30%,偏度和峰度更低。
- OWL能够持续识别市场因子的重要性,尤其在剔除小市值股票后表现更佳,其他方法市场因子识别能力较弱。
- 显示OWL方法在相关性严峻的环境下因子挑选和组合优化更加稳健。
结论与投资启示 [page::21]
- 因子相关性严重影响传统因子选择方法的稳定性和有效性,OWL收缩法为高度相关因子环境下筛选有效因子提供了更稳健方案。
- OWL方法不仅理论证明具有良好统计性质,且通过模拟和实证验证展现出优越的因子识别能力和组合表现,特别是识别市场因子及流动性等关键风险因子。
- 本方法适合因子投资实务,可辅助构建更优的因子组合策略,有望提高资产定价模型的解析力和投资绩效。
深度阅读
因子间相关性与横截面资产回报——“学海拾珠”系列之一百六十一 报告详尽分析
---
1. 元数据与概览
- 报告标题:因子间相关性与横截面资产回报——“学海拾珠”系列之一百六十一
- 作者及分析师:炜执业证书号 S0010520070001(Yan JW),吴正宇执业证书号 S0010522090001(Wu ZY)
- 发布机构:华安证券研究所
- 报告日期:2023年
- 研究主题:研究因子间的相关性对因子配置中的因子筛选的影响,提出基于有序加权 LASSO(OWL)估计器的模型,在美国市场及其借鉴国内市场的实证分析,主要关注因子选择的稳健性和因子组合绩效。
- 核心论点:高维因子空间中因子间高度相关,而传统因子选择方法(如经典 LASSO 和 Fama-MacBeth 回归)忽视相关性,导致因子选择不稳定,无法准确识别对资产回报有显著驱动作用的因子。作者提出使用 OWL 估计器,能够自适应识别相关因子并赋予相似的风险价格系数,实现因子的稳健筛选。实证表明,OWL 方法能够识别市场因子的重要性,并在样本外测试中实现了最高的夏普比率和更理想的收益分布特征。
- 风险提示:研究基于历史及海外经验,不构成投资建议。 [page::0]
---
2. 报告结构及章节深度解读
2.1 引言与文献综述(第1节)
- 文献背景强调学术界长期关注高维因子和横截面资产回报的关系,但少有定量和系统探讨因子相关性对资产回报解释的影响。
- 传统模型如 Fama-MacBeth 两步回归、LASSO 在存在高相关性的因子集合中表现不佳,未能有效识别市场因子。
- 文章核心贡献包括:(1)发展并应用 OWL 估计器,放宽正态分布假设,理论推导其分组和渐近一致特性;(2)通过实证验证 OWL 在美股市场因子筛选上的优势,尤其是能够稳健识别被市场理论认可的核心因子,体现了模型在相关因子高度聚集时的优越性。
- 文章还指出在因子动物园背景下,传统方法因多重共线性而导致因子选择的不稳定性和结果偏差,OWL 提供了一种避免人工剔除相关因子阈值设定的自动方法。
- 相关文献引用包括 Cochrane(2011)、Harvey et al.(2015)、Green et al.(2017)、Hou et al.(2020)、Freyberger et al.(2020)等,强调因子动物园的复杂性和检验的难度。 [page::3][page::4]
2.2 方法论(第2节)
2.2.1 风险价格与风险溢价(2.1节)
- 区分风险价格(SDF框架中因子的价格向量 b)和风险溢价(Fama-MacBeth第二步回归的斜率 𝜆),指出二者通过因子协方差矩阵关联但本质不同。
- 因子相关性高时,风险溢价可能在无风险价格的因子上仍显示非零值,导致误判有效因子。说明采用风险价格推断因子有效性更科学。
- 举例说明因子高度相关情况下,风险溢价可能偏误,但风险价格更能反映因子的真实定价能力。 [page::6]
2.2.2 随机折现因子模型(2.2节)
- 构建高维模型 $R$ 为测试资产超额收益,$\muR$ 与因子收益协方差矩阵 $C$,通过最小化定价误差的加权二次型 $Q(b)$ 估计因子风险价格 $b$。
- 引入权重矩阵 $W$,本文统一采用恒等矩阵防止权重偏向特定测试资产,适合多资产且特征多样情境。
- 解析标准方法在高维和因子相关性下的局限,提出结合机器学习的稀疏估计框架来解决。 [page::6][page::7]
2.2.3 有序加权 LASSO (OWL) 估计器(2.3节)
- 引入OWL估计器在目标函数中加入有序权重的绝对值惩罚项,权重向量 $\omega$ 依因子绝对风险价格降序排列,惩罚项形式为 $\omega^\prime |b|\downarrow$。
- 利用交叉验证优化惩罚超参数 $\lambda1, \lambda2$,保障模型的自适应和泛化能力。
- OWL 具备关键的分组特性:当因子高度相关时,分配类似的风险价格系数,避免传统 LASSO 对高相关变量的滥用选择不稳定问题。
- 定理2.1(分组特性):给出因子间差异的标准差阈值,当满足条件时,OWL 估计器赋予两因子完全相同或符号相反的系数,实现因子分组。
- 这意味着高度正相关因子系数趋同,负相关因子系数相反,体现因子群体的实际逻辑。
- 渐近性质(2.3.2节): 在放宽常规假设的基础上,推导OWL估计器的Oracle不等式和收敛速率,证明其在稀疏高维模型中的一致性和可靠表现。
- 较传统LASSO在高相关变量情况下表现更优。
- 对于所用假设:
- 亚高斯随机变量假设,满足经济金融数据的尾部分布特性。
- 稀疏性假设仅要求因子非零风险价格数量相对较少。
- 限制特征值条件避免矩阵退化,保障估计稳定性。 [page::7][page::8][page::9]
2.2.4 横截面资产回报和因子动物园的讨论(2.4节)
- 讨论“因子动物园”现象,即大量因子(特征)存在高度相关性,传统方法依赖先验剔除,OWL 估计器允许自动归组,从而实现更科学的因子筛选。
- 对比双 LASSO 及其它机器学习方法,OWL 估计器不需要预先指定因子分组信息,适合高维相关因子环境。
- 明确当前OWL方法有偏且暂不适合做统计检验,这是未来研究方向。
- 本文重点偏向于因子选择的鲁棒性和组合构建,而非构建简约资产定价模型。 [page::10]
2.3 模拟实验(第3节)
- 设置90个因子,1/3为相关有效因子,1/3为无效因子且相关,1/3为不相关有效因子。
- 通过构造三块相关矩阵,模拟因子间不同相关度,着重考察 $\rho$ 为0.3、0.5、0.9时估计器性能。
- 评价指标为均方误差(MSE),区分有效因子块、无效因子块以及所有因子整体表现。
- 主要结果:当样本量较小($N=70$、$N=100$)且因子相关度较高时,OWL 估计器在有效因子和整体因子估计中均显著优于LASSO、自适应LASSO和Elastic Net。
- 在样本量大时($N=1000$),所有方法均表现优异,但OWL在高相关度情况下仍具优势。
- OWL 相较其他方法,在压缩无用因子方面稍显不足,但因其对高相关性因子分组稳定,整体表现优异。
- 结果表明OWL估计器是高维高相关环境下首选,尤其适用于金融因子动物园问题。 [page::11][page::12]
- 图表1呈现各方法不同 $N$ 与 $\rho$ 配置下的MSE数值详尽对比。
2.4 实证分析(第4节)
2.4.1 数据介绍(4.1节)
- 使用CRSP和Compustat数据库美股数据,1980年1月至2017年12月的月度数据,涵盖NYSE、AMEX及NASDAQ普通股。
- 无风险利率及市场超额收益来源于Kenneth French 数据库。
- 全样本84个月标准化处理因子,保证均衡比较。 [page::12]
2.4.2 因子动物园构建(4.2节)
- 参考Green et al.(2017)100个公司特征,剔除缺失率高于40%特征,最终获得80个异象因子。
- 采用单变量排序法对特征股票分为10档,剔除总市值小于NYSE 20%的小盘股,形成特征因子投资组合收益。
- 图表3(a)(b)显示因子相关性热力图:时间序列计算的绝对相关率超0.5占16%,但因子载荷相关系数绝对值超过0.5达64%,关联高度紧密,突出标准模型共线性问题。
- 这一高度相关性严重影响传统方法在因子识别上的有效性,迫切需要相关性稳健的筛选方法。 [page::13][page::15]
2.4.3 测试资产构造(4.3节)
- 讨论使用个股还是分组投资组合作为测试资产。个股作为测试资产可能带来估计误差(EIV),数据缺失、微型股等问题造成估计偏差。
- 分类投资组合能有效规避数据缺失、EIV及市值权重失衡问题,作者效仿Feng et al.(2020)构造基于市值和其他因子的多维排序组合,形成近2000个测试投资组合。
- 以市值加权法避免小盘股过拟合,同时保证测度覆盖市场大部分市值。 [page::15][page::16]
2.4.4 估计结果—因子重要性排序与时变特征(4.4节)
- 使用OWL估计器在全样本及1980-2000和2001-2017两个分期样本中的表现。
- 综合市值加权与等权重方案,并剔除不同百分位微型股后,观察因子选择的稳定性与变化。
- 发现市值因子(mve)在绝大多数全样本估计中为最重要因子,但因其普遍显著被单独列示。
- 流动性因子(illiquidity,ill)在剔除不同小盘股后的组合中表现重要,且在小盘股更为显著,反映流动性风险对资产回报影响。 其余如交易量波动率stddolvol、资产增长率agr、Beta及Beta平方、现金负债比率和动量因子等均被多次选中,具一定解释力。
- 子样本对比显示,早期(1980-2000年)动量与盈利因子更主导,后期(2001-2017年)流动性相关因子作用加强,体现因子驱动力的时间动态变化。
- 剔除更多小盘股后,市值效应显示消失与重新显现的现象,与Amihud(2002)、Asness et al.(2018)一致,提示市场上的垃圾股干扰了规模效应的显著性。
- 图表4呈现了多种估计下关键因子的选择频次与排序。 [page::16][page::17]
2.4.5 样本外检验(4.5节)
- 参照Freyberger et al.(2020),构建五因子模型对冲组合,分别基于OWL、LASSO、Elastic Net和Fama-MacBeth等方法选出的五个最重要因子构建。
- 通过滚动窗口(120个月)回归测试资产对因子进行预测,构建多空组合,评估样本外的风险调整后表现(夏普比率)及收益分布(偏度、峰度)。
- 发现OWL方法构建的对冲组合的夏普比率普遍高出基准方法20%-30%,表现最为稳健,并且收益分布更接近常态,峰度和偏度较低,显示更好的风险调整表现和风险特征。
- 传统方法普遍未能将市场因子识别为显著因子,尤其在剔除小盘股情况下,OWL依然稳定识别市场因子,这点体现了OWL在因子高度相关性情况下的优越筛选能力。
- 图表5列举了不同样本及微型股剔除条件下各方法选出的前五因子,图表6展示了相应对冲组合的样本外表现数据。 [page::18][page::19][page::20]
---
3. 图表深度解读
3.1 图表1:模拟结果分析
- 表现内容:不同样本容量(N=70, 100, 1000)与因子相关度 ($\rho=0.3,0.5,0.9$) 下,OWL、LASSO、自适应LASSO和Elastic Net对因子风险价格的均方误差 (MSE)。
- 关键趋势:
- 在低样本量和高相关度环境下(N=70或100,$\rho = 0.9$),OWL方法的MSE明显最低,表现最佳。
- LASSO和Elastic Net在高相关度因子下MSE显著增加,表现不稳定。
- OWL在所有环境下对有效因子(bk1)和全部因子都表现出较小的误差。
- OWL稍逊于LASSO等对无效因子的压缩,但整体优势明显。
- 数据支持了OWL在高维、高相关环境中具有更稳健估计优势。
- 模拟逻辑合理,设定亦接近实际因子动物园情况,增强实用性。 [page::11][page::12]
3.2 图表2 & 图表3:因子相关性热图分析
- 图2列示了80个异象因子的名称与涵义。为后续识别提供基础参考。
- 图3(a)与(b)分别表示:
- (a) 因子收益时间序列相关系数矩阵,只有16%的因子对绝对值>0.5,显示整体因子动态相关有限。
- (b) 因子载荷相关性矩阵(第二步回归解释变量),64%的因子对绝对值>0.5,说明当使用因子加载度估计时因子间显示出高度的静态相关性,凸显多重共线性。
- 研究指出当使用传统回归方法直接面对此相关性时,模型估计会不稳定,传统筛选失效。
- 该图表直观体现了因子相关性对模型估计影响的现实基础,强调采用OWL方法的必要性。 [page::14][page::15]
3.3 图表4:关键因子选择结果
- 表示不同加权方式(市值加权VW,等权EW)、不同样本区间及不同小盘股剔除阈值下,OWL选出的因子及其显著性排序。
- 重点因子包括流动性(ill)、市值(mve)、资产增长(agr)、动量(mom6m等)、Beta相关(beta、betasq)、现金负债比例(cashdebt)等。
- 不同时期因子变动显著,刚性逻辑和流动性风险相关因子贯穿始终。
- 剔除不同级别微型股影响因子排序和重要性的变化,显示规模效应受小盘垃圾股影响明显。
- 结果反映因子投资需动态灵活,市值加权更贴近实际市场影响力。 [page::16][page::17]
3.4 图表5:多方法全样本与分样本因子筛选对比
- 展现OWL、LASSO、Elastic Net及Fama-MacBeth方法在不同样本及微型股剔除比例下,选择的前五显著因子。
- OWL持续识别市场因子(mkt)作为关键因子,传统方法难以稳定识别。
- 其它方法选出的关键因子更为分散及不稳定,且在小市值剔除后表现更差。
- 说明OWL方法因子选择的相关性处理更科学、更强鲁棒性。 [page::19]
3.5 图表6:样本外五因子对冲组合表现
- 展示各方法构建的五因子组合的夏普比率、均值、标准差、偏度、峰度。
- 关键观察:
- OWL组合夏普比率最高(如全样本P20下1.21,显著领先LASSO等),意味着单位风险回报最高。
- OWL组合收益率偏度接近零,峰度明显低于其它方法,表明风险分布接近正态,风险特征优良。
- Fama-MacBeth表现最差,受因子相关性影响严重。
- 此优势跨不同样本期保持一致。
- 该实证结果支持使用OWL筛选因子组合能提升实际投资组合风险调整后的表现。 [page::20]
---
4. 估值分析
本报告为学术+应用研究性质,未直接涉及传统的企业估值(如DCF、P/E等),而重点在因子定价模型中的风险价格估计及因子选择方法的性能下降。OWL的估计理论基础为带有加权排序惩罚的稀疏回归,通过优选风险价格实现因子筛选,所涉及的关键输入包括:
- 权重参数 $\lambda
- 权重矩阵 $W$ 设为恒等,以保证资产间权重公平
- 采用蒙特卡洛模拟和实证统计方法推断估计器的偏差和渐近性质
这为多因子资产定价研究中因子筛选提供了一种估值路径,但无传统估值的目标价区间。敏感性体现在 $\lambda1, \lambda_2$ 超参数的选择,对收缩与分组的力度调节。 [page::7][page::8][page::11]
---
5. 风险因素评估
- 主要风险提示来自于模型和实证基于海外历史数据,存在样本外风险及市场结构差异风险。
- OWL模型目前为有偏估计,尚需去偏和统计检验方法完善,使用时需注意统计推断局限。
- 因子相关性强的环境下,因子筛选稳健性虽提升,但仍存在模型设定或数据隐含假设失效的可能。
- 风险管理中需考虑因子相关性变化对投资组合稳健性与表现的长期影响。 [page::0][page::21]
---
6. 批判性视角与细微差别
- 报告对OWL方法的优势强调明显,但也客观指出该方法有偏且无法用当前形式进行统计检验,这恰恰是限制其推广应用的关键。
- 其依赖超参数选择,尽管使用交叉验证降低了人为偏差,但实际应用中的参数敏感性和模型泛化能力仍需关注。
- 相关因子的自动分组虽解决了传统LASSO随机选择问题,但可能隐藏因子间更复杂交互结构,未来研究可考虑更多因子关系模型。
- 实证主要基于美股数据,直接借鉴国内或其他市场尚需验证,尤其考虑市场结构、流动性等差异。
- 文章强调了OWL与SDF结合的创新,但缺乏对如风险价格非线性影响、因子中枢变异等更深层面资产定价机制的讨论,适合未来拓展。 [page::21]
---
7. 结论性综合
本文系统剖析了因子相关性对横截面资产回报因子筛选的影响,提出并验证了基于有序加权LASSO(OWL)估计器的相关性稳健因子选择方法。研究通过理论推导、蒙特卡洛模拟与美股实证三条线索,充分论证OWL方法在面对高维且高度相关的因子空间时,能够有效识别市场中驱动资产回报的重要风险因子,解决了传统LASSO和Fama-MacBeth回归方法在多重共线性影响下的局限。
核心发现包括:
- 因子相关性显著,且传统方法难以稳定识别关键因子,特别是市场因子有效性的低估。
- OWL估计器因其独特的排序权重罚项,具备分组稳定性和渐近一致性,有效避免了因子选择的随机性和不稳健问题。
- 模拟研究显示,在不同采样规模和相关度条件下,OWL显著优于LASSO、自适应LASSO及Elastic Net,尤其在高相关度和有限样本场景。
- 实证中,OWL成功识别流动性、规模、动量等经典异象因子以及市场因子,显示其经济合理性与统计优势。
- 样本外测试揭示基于OWL选择的五因子对冲组合在夏普比率和收益分布特性方面均优于主流方法,体现实际投资价值。
- 报告方法虽存在偏差且尚需拓展去偏理论,但为因子投资及资产定价文献提供了重要工具和视角。
综上所述,本文为解决高维因子动物园中的相关性挑战,提供了一种行之有效的机器学习与经济金融理论结合的先进方法,使得资产定价和因子投资研究能够在复杂现实市场中实现更稳健的因子筛选和风险管理,为后续政策制定和投资策略开发提供了坚实的理论和实证基础。[page::0][page::3][page::7][page::11][page::13][page::16][page::19][page::20][page::21]
---
附录:重要图表 Markdown 格式
因篇幅限制,以下仅展示关键因子相关性热图(图表15页示意):

---
总结
本文围绕因子相关性的挑战深入展开,结合理论证明和实证验证,提出并推广了OWL估计器方案,可为因子投资者和资产定价学者提供重要工具,特别适合面对数量庞大且高度相关的因子集合时实现稳健因子选择和风险揭示。尽管OWL模型目前存在偏差和统计检验不足,本文为该领域提供了宝贵的研究思路和应用示范,具有重要的学术贡献和投资意义。

