主成分分析法下的股票横截面定价因子模型——“学海拾珠”系列之七十六
创建于 更新于
摘要
本报告介绍了一种基于主成分分析法(PCA)提取股票横截面定价因子的模型,构建了“水平、斜度、曲线”三因子模型。该模型通过多变量Fama-MacBeth回归预测预期收益,排序构建投资组合并对组合收益做PCA提取公共因子。实证显示该模型在横截面定价能力和解释收益变化方面优于CAPM、Fama-French三因子及五因子模型等多个主流模型,且在样本外具有良好的稳健性。图表12和13显示此模型在多个投资组合上的优越定价效果及风险特征解读[page::0][page::3][page::6][page::8][page::12][page::15][page::16]。
速读内容
研究方法框架与因子构建 [page::4][page::5]
- 证券收益可分解为预期收益、定价因子及非定价因子。
- 通过多个预测未来股票收益的公司特征变量,运用Fama-MacBeth回归估计股票预期收益。
- 依据预期收益排序构建25个投资组合,形成截面收益序列。
- 对组合收益做主成分分析,提取前三大主成分构建“水平、斜度、曲线”因子。
投资组合构造与因子特征 [page::6][page::7][page::8]

- 25个异象投资组合呈现明显的预期收益区分。
- 第一主成分“水平”因子近似市场组合,解释组合74%方差,相关系数0.95。
- 第二因子“斜度”因子反映高低预期收益股票的逆向运动,捕获动量、账面市值比等斜度特征。
- 第三因子“曲线”因子表现为中间收益组合股票同向运动,极端收益股票负相关,反映波动性和市值大小特征。
因子数量确定及与传统因子相关性 [page::9][page::10]
| 指标 | 25组合 | 100组合 |
|--------------------|--------|---------|
| BIC1, BIC2, BIC3检验 | 均支持三个因子存在 |
- 三个因素共同解释86%投资组合收益方差,且与主流因子(如HML、SMB、Mom等)相关性适中,斜度因子与动量相关最高(0.77)。
- 多因子时间序列回归下,新增曲线因子提高模型解释力,总体平均R²达86%,降低股票横截面平均alpha。
模型定价能力与主流模型比较 [page::11][page::12][page::13][page::14][page::15]

- LSC模型对119个投资组合的超额收益定价拟合优于Fama-French三因子模型,横截面解释R²达56%(FF3为12%)。
- 针对动量组合,LSC模型精准捕获动量效应,FF3模型定价误差明显。
- 在市值和账面市值组合领域表现良好,对极端成长组合略有定价误差。
- 对债券投资组合测试显示曲线因子对应长期债券久期风险特征。
- 相较CAPM、FF3、FF5、Carhart等主流模型,LSC模型平均绝对alpha最低,夏普比率表现优异。
结论与创新点 [page::16]
- 提出将收益预测和因子构建分离的新思路,基于预期收益排序剔除非定价因子联动风险。
- “水平、斜度、曲线”三因子模型概括股票横截面收益中的主要定价风险。
- 模型既能稳健捕获主流因子特性,又引入创新的曲线因子反映极端组合特性。
- 具备一定的理论和实证价值,提供因子模型构建及资产定价的新视角。
深度阅读
金融研究报告详尽分析
报告标题与基本信息
- 标题:《主成分分析法下的股票横截面定价因子模型——“学海拾珠”系列之七十六》
- 发布机构与作者:华安证券研究所,主分析师炜,联系人钱静闲
- 报告日期:2022年1月17日
- 主题:基于主成分分析法(PCA)构建股票横截面定价因子模型,提升因子模型对股票收益横截面变异的解释能力,比较该模型与主流资产定价模型的表现。
核心论点与目标
- 报告介绍一种由海外学术文献提出的创新方法,运用主成分分析法从基于多个收益预测因子构造的股票组合中直接提取公共的定价因子。
- 该方法识别出三个关键定价因子,分别命名为“水平(Level)”、“斜度(Slope)”和“曲线(Curve)”因子,它们在横截面收益解释力上优于传统的CAPM、Fama-French三因子、五因子及Hou的q因子模型。
- 强调该模型不基于单一公司特征,而是从组合层面提取公共联动因子,有助于分离有超额收益的定价因子和非定价因子(风险溢价为零),更精准地理解股票特征因子之间的联动与风险补偿机制。
- 模型在样本内外均表现稳健,特别是在夏普比率测试中取得优异成绩。[page::0]
---
逐章节深度解析
1 简介
- 资产定价因子众多,但其中真正带来收益溢价的“定价因子”较少,许多因子仅捕捉风险共同变动但无溢价。
- 传统方法难以区分定价因子和非定价因子,尤其若只依赖单一特征排序(如账面市值比),易混淆二者。
- 本文首创两步提取法:先用多变量Fama-MacBeth横截面回归估计多个公司特征对未来收益的预测能力,依此排序生成投资组合;然后对组合收益执行PCA提取公共因子。
- 发现三个主成分因子被命名为:
- 水平因子(Level):因子载荷曲线近似水平线,对应市场整体波动,类似市场指数(CRSP加权市值指数),相关系数高达0.95。
- 斜度因子(Slope):从高到低预期收益组合载荷单调倾斜,代表常见的相反价格运动,如动量、账面市值比中的价值与成长反向表现。
- 曲线因子(Curve):载荷呈中间拱起曲线,表明极端(高预期和低预期)股票价格同向变动,且这些极端股票未来收益反而较低,中间预期收益股票相对更高。
- 该模型在数据与样本外均表现优异,能更充分解释横截面股票收益,为资产定价文献提供理论与实证桥梁,明确因子构建的实证规则,避免仅由理论或经验驱动的争议。
- 重要的是,这种方法不强调单一公司特征本身的意义,而是他们对未来收益预测能力的边际贡献,结合反映更系统和互相关联的风险因素联动。[page::3]
2 框架
- 正式引入线性因子模型,区分定价因子F和非定价因子G,其中非定价因子溢价λ为0。
- 预期收益=$E_i$仅由定价因子的beta与溢价决定。
- 关键假设:若单一特征无法区分定价与非定价因子载荷,使用多个预测因子进行横截面回归并排序可以强化定价因子的共同联动,弱化非定价因子的影响,实现“清洗”非定价因子。
- 当Fama-French(1993)等模型采用市值和账面市值比二元排序时,其逻辑在于定价因子载荷不相关的假设。如果载荷相关,则必须在模型中考虑非定价因子,复杂性加大。
- 本文提出的旋转因子方法,能使唯一因子(均值-方差有效组合)含有非零溢价,其余为非定价因子,从而大幅简化因子模型结构。
- 该方法展示了预期收益排序投资组合的优越性,并强调预期收益的不可直接观测性,需要用公司特征间接估计。
- 此框架回应了资产定价因子模型中长期存在的“非定价因子多但未被识别”的现象,说明从多因子结构中分离出必要的定价因子的有效路径。[page::4-5]
3 排序法构造投资组合
- 研究样本为1964年7月至2015年12月的美股数据,变量定义基本沿用Fama-French(2008),细节上引入营业利润率等更稳健指标。
- 使用Fama和MacBeth(三步法):对应每月横截面执行回归以估计特征系数,用其预测未来一个月收益,再根据预测收益排序构造投资组合。
- 回归方程中包含对数市值、账面市值比、动量、股票发行情况、应计费用(正负分解)、资产增长率、营业利润率(带正负标记虚拟变量)等全面特征,分公司规模组单独估计参数,捕捉特征在不同规模股票上的差异暴露。
- 通过此方法构造25个投资组合(异象投资组合),展现出明显的预期收益差异,且特征变量在组合中有明确单调趋势。
- 图表1显示25投资组合的平均超额收益和预测收益高度吻合,同时图表中显示前三个主成分的因子载荷形态。
- 图表2详细展示这些组合的收益及公司平均特征指标,数据显示除市值外多数因子在组合上呈现预期的单调变化。
- 这一方法以多特征信息实现将股票根据预期收益分层,形成可用于PCA的投资组合基础,是提取公共因子的前提和基础。[page::6-7]
4 “水平、斜度和曲线”(LSC)因子模型
- 主要使用主成分分析(PCA)对上述25投资组合的收益进行分解,无需标准化因为收益本身量纲统一。
- PCA的结果显示前三大主成分解释投资组合总变异的86%,其中第1因子占73.8%,第2因子9.16%,第3因子3.05%。
- 第一个因子“水平”因子,负载均匀且关联 CRSP市值加权市场指数达0.95,是市场整体波动的代表。
- 第二个因子“斜度”因子,负载从低预期组合到高预期组合线性递减,反映了做多低预期收益股票做空高预期收益股票的方向,与多数公开因子(SMB、HML、动量等)类似或涵盖。
- 第三个因子“曲线”因子,负载呈中间拱起曲线,指向极端收益股票(高和低)走势同向,但未来表现较差,中间收益股票表现良好,体现了预期收益中间带的风险特征。
- 细节显示该曲线因子与市值相关,但与传统市值因子不同,其体现的是规模与波动率结合下的极端联动模式。
- 图表和数据详尽展示了因子特征和各投资组合间的贡献模式。[page::7-8]
4.1 因子数量的确定
- 应用信息准则(BIC1、BIC2、BIC3)和因子相关性对不同组合划分数量下的主成分进行选择,均支持前三个主成分(LSC三因子)。
- 显示三因子数量既能保证解释能力也简洁,有利于因子经济意义的阐述。[page::9]
4.2 与主流因子的相关性
- LSC三因子分别与常用因子(Mkt-RF,SMB,HML,RMW,CMA,MOM,ME,INV,ROE,Liq-T)相关性分析显示:
- 水平因子与市场组合相关最高(0.96),与SMB存在一定关联(0.47),但与其他因子相关较低,体现其独立性。
- 斜度因子显著负相关于动量(-0.76),与SMB和HML相关度较低,表明此因子捕获了多种特征的综合动态。
- 曲线因子与SMB和水平因子相关接近0.5,反映其部分与规模因素重合,但亦反映新的风险特征。
- 三因子因子与现有因子相关但明显不同,具备独特风险定价信息。[page::9-10]
5 资产定价检验
- 使用25个投资组合作为测试资产,应用时间序列回归分阶引入主成分因子以解释收益。
- 结果显示仅第一个因子(类似CAPM)造成显著alpha;加入第二因子斜度后,平均α由0.39%降至0.16%,平均R²由75%升至83%;加入第三因子曲线后R²增至86%,α无明显变化。第四因子贡献极小,且因子载荷呈现无规律。
- GRS检验结果表明前三因子模型有统计显著性认可,第四因子意义有限。
- 结论是LSC三因子模型大幅提升了对投资组合收益的解释力,且模型简洁有效。[page::10]
6 与主流模型的比较
- 作者将LSC模型与经典CAPM、Fama-French三因子、Carhart四因子、Fama-French五六因子及Hou等应用的q因子模型进行详细横截面和时间序列比较。
- 测试基准包含119个投资组合,包括异象组合、规模账面市场组合、动量组合、行业组合、债券组合和运营盈利组合。
6.1 LSC模型 vs Fama-French三因子模型
- 图表7至13系统展示119个组合和子组合的拟合情况。
- LSC模型在整体拟合质量(点分布接近45度线)明显优于FF3模型,特别是异象投资组合、动量组合和债券资产中优越性显著。
- LSC模型解释了平均收益的56%,而FF3仅12%。
- FF3模型在小盘成长组合及低利润组合中存较大alpha,而LSC模型更多捕获整体收益变异但在某些极端组合略有残留alpha。
- 国债组合测试显示,曲线因子与期限结构及久期潜在风险密切相关,体现LSC模型在跨资产类别的广泛适用性。
- 运营盈利组合测试表现亦显示LSC模型对不同盈利水平股票有较好解释力。[page::11-15]
6.2 LSC模型 vs 其他主流模型
- 综合比较LSC和样本外LSC扩展模型(LSC-NP)、CAPM、FF3、Carhart、FF5、FF6及HXZ四因子模型(Hou等)表现,包括平均alpha绝对值、显著性alpha数量、平均R²与横截面R²及夏普比率。
- LSC模型的平均绝对alpha最低(15个基点),显著alpha数量最少,说明定价误差小且稳定。
- 时间序列与横截面R²指标显示LSC模型在捕获平均收益变异上领先其它模型(54%),远高于CAPM和FF3等。
- 夏普比率测试(样本内、样本分割、滚动窗口)均显示LSC模型的均值方差效率优于所有Fama-French及CAPM模型,说明其更适合构建有效资产组合。
- 在样本分割和滚动测试中,传统模型表现下降明显,而LSC模型表现更稳健。
- LSC模型较好地将多因子风险信息融合且简明,冲淡单一因子特征的噪声和限制。
- 结果展示了主成分分析法构建的LSC三因子模型既有理论创新性又有实证优势。[page::15-16]
7 结论
- 报告总结了提出的主成分分析两步法提取的股票横截面定价因子LSC模型的过程,即多变量回归预测收益排序构造组合,随后从组合收益提取三个主成分。
- 该模型成功捕捉了股票横截面绝大部分的收益变异,解释力优于主流CAPM及Fama-French多因子模型。
- 凭借在样本内外均稳健的表现及较高夏普比率,LSC模型为资产定价理论提供了更精炼、更有效的因子框架。
- 文末重申,结论依据历史数据和文献总结,不构成投资建议。[page::16]
---
图表深度解读
图表1:25个投资组合和前三大主成分(第6页)
- 左图(a)显示25个基于多因子预测排序的投资组合的平均超额收益点与预测收益曲线拟合很好,暗示回归预测较为准确且分层明晰。
- 右图(b)描绘主成分分析提取的前三大主成分在25个组合上的载荷分布:
- Level因子载荷相对水平,接近一致,说明其反映整体水平波动。
- Slope因子呈线性下降趋势,表征斜率影响。
- Curve因子呈中间凸起“拱形”,反映极端组合的特殊联动风险。
- 图表视觉直观展现了LSC三因子经济意义。
图表2:25个投资组合的平均超额收益和特征(第7页)
- 为25个投资组合详细列出包括超额收益(XRet)、市值(JME)、账面市值比(B/M)、动量(Mom)、资产增长(dA/A)等指标。
- 观察到预期收益与多个特征呈现单调趋势,如动量从低到高递增,资产增长呈下降趋势等,和预测方向一致。
- 市值不表现线性变化,说明规模因子复杂,与曲线因子关联体现。
- 支撑了多因子回归排序生成清晰异象组合。
图表3:主成分分析结果(第8页)
- 列前十个主成分的特征值及方差贡献率。
- 第一主成分独揽近74%的方差,证明其极强代表性,后两因子有补充作用共计贡献至86%。
- 体现模型简约且有效。
图表4:不同投资组合分组下的主成分相关性(第9页)
- 显示在10、25、100个组合分组情况下前三个主成分高度相关,说明模型稳定性强。
图表5:前三主成分与主流因子的相关性(第10页)
- 显示主成分与市场因子及SMB、HML等的相关度,支撑LSC三因子既反映主流风险特征又部分独特。
图表6:25个投资组合对主成分的时间序列回归(第10页)
- 递进加入主成分后,模型alpha逐渐下降,R²逐步上升,三因子模型表现最佳。
图表7-13:LSC与Fama-French三因子模型的定价对比(第12-15页)
- 119个投资组合的拟合散点图、异象组合、规模账面组合、动量组合、行业组合、债券组合和盈余组合对比,LSC模型拟合更接近理想,alpha更小且分布更紧凑。
- 体现LSC模型在多资产类别、不同因子样式上均优于经典模型。
图表14:LSC与主流模型整体回归指标比较(第15页)
- 量化比较包括平均alpha、显著alpha数量、时间序列和横截面R²、样本分割及滚动窗口夏普比率,LSC指标领先或等同。
- 明确证明LSC方法的综合优势。
---
估值分析
本报告核心聚焦资产定价因子模型构建与对比,未涉及具体股票估值或目标价,因此本节无估值分析内容。
---
风险因素评估
- 报告风险提示明确指出结论基于历史数据与海外文献总结,不构成投资建议。
- 由于模型依赖历史数据及估计,存在模型失效风险,如未来市场环境变化、因子结构变化可能影响模型稳定性。
- PCA方法虽有效但本质为统计工具,可能捕获样本特有噪声和特征,需谨慎外推。
- 报告未具体讨论风险缓释策略,使用者应结合多模型、宏观分析与风险控制。
- 综合来看,作者较为谨慎,承认模型局限,未过度夸大模型的应用边界。[page::0,16]
---
审慎视角与细微差别
- 报告较为客观,融合理论创新和实证表现,体现稳健的研究态度。
- 但报告中模型表现虽优于传统模型,部分极端组合仍留有alpha,表明模型未完全解释所有收益变异。
- 曲线因子与市值因子关系较强,未来是否包含重复信息存在讨论空间。
- LSC模型将预期收益排序与PCA结合,依赖于预期收益估计准确性,若特征预测失效则模型稳定性或受影响。
- 报告中样本以美股为主,适用性拓展到其他市场(如A股)还需进一步验证。
- 处理方式为主成分旋转导致因子经济含义相对模糊,可能限制投资者直观理解。
- 整体看,报告承认并规避相关争议,是实证向的资产定价研究,呈现当代资产定价因子模型趋势。[page::3-5,16]
---
结论性综合
本报告系统介绍了一种基于主成分分析法提取股票横截面定价因子的创新方法,即先通过多变量横截面回归构造按预期收益排序的投资组合,再通过PCA提取三个公共定价因子:水平(Level)、斜度(Slope)和曲线(Curve)。这三个因子能解释股票横截面收益86%的变异,数学和经济意义明确且稳健。
与传统资产定价模型(CAPM、Fama-French三、五因子及Carhart四因子等)相比,LSC模型:
- 显著降低了模型alpha,缩小定价误差;
- 显著提高了横截面平均收益的解释力,横截面R²由不到10%提升至50%以上;
- 在各种投资组合(规模、市净率、动量、行业、债券、盈利能力等)和样本外测试中表现优异;
- 获得更高的夏普比率,表明其组合构建效率更高;
- 具有理论与实证的创新意义,分离并强化了定价因子与非定价因子的区分,弥补了理论与经验生成因子构建的鸿沟。
图表解析深入揭示了模型在各投资组合上的有效性与稳健性,支持LSC模型作为新的资产定价主流工具的潜力和应用前景。
本文结论基于海量数据和国际顶级学术文献,提供了对当前资产定价框架的有益补充,有望推动定价因子研究理论及实际投资策略的进一步发展。报告同时提示,所述模型基于历史数据,存在一定适用局限,投资者应科学评估与谨慎应用。[page::0-16]
---
参考文献
- Charles Clarke,《The level, slope, and curve factor model for stocks》,Journal of Financial Economics。
- Fama和French系列研究(1993、2008、2015)及Hou等人相关文献。
- 经典资产定价理论与主成分分析原理相关文献。
---
【注:以上分析全部依据报告内容,所有引用均注明出处】
附注:关键图表示例
图表1:“25个投资组合与主成分权重”示意图
图表7:“LSC与Fama-French三因子模型的拟合比较”
---
以上完成了报告的全面详尽分析。

