基于惩罚性线性回归的选股模型研究
创建于 更新于
摘要
本文针对多重共线性对传统线性多因子选股模型的影响,提出基于修正的惩罚性线性回归(Lasso、ElasticNet)方法构建选股因子。通过剔除高相关因子,形成D_Net因子,实现有效控制多重共线性问题,同时保证因子稳定性和选股表现。基于沪深300、中证500等股票池训练的因子均显著超过基准模型,年化收益与夏普率明显提升,且模型解释性和稳健性显著增强 [page::0][page::11][page::12][page::14]
速读内容
线性多因子选股模型与多重共线性问题概述 [page::0][page::2][page::3][page::4]
- 传统OLS回归框架下因子间高相关性导致多重共线性,影响模型稳健性和解释性。
- 多重共线性表现为回归系数高度敏感、方差膨胀因子(VIF)巨大,严重时OLS估计量失效。
- 多重共线性产生原因包括变量自身高相关性和样本数据不足等。
- 解决方案包括删除高相关变量、扩大样本量、主成分法、惩罚性回归等。
惩罚性线性回归模型介绍及实证分析 [page::4][page::5][page::6][page::7][page::8][page::9]
- 采用Lasso、Adaptive Lasso和ElasticNet模型,通过在损失函数中加入L1、L2范数惩罚,减弱系数估计不稳问题。
- 165个选股因子涵盖价值、成长、质量、情绪、动量反转及另类等多个风格,月度再平衡进行训练。
- 仅使用OLS模型虽然IC均值高达0.151,收益年化超83%,极度多重共线性导致回归系数不稳定,如营业收入与总资产回归系数符号相反。
- Lasso模型在不同惩罚系数下的年化收益率均优于基准DLS因子,但多重共线性问题依然显著存在,VIF>10的比例高达30%以上。

多重共线性修正方法及模型优化 [page::10][page::11][page::12]
- 采用过滤法剔除因子两两相关性大于0.75、表现差的因子,保证每个风格至少保留一个因子,因子数由165个降至平均约86个。
- 在筛选后的因子池中构建修正后的惩罚性回归模型,L1=0.05,L2=0.3的ElasticNet表现最佳,选因子数约为25个,IC达到0.135,T值达到17.1。
- 该DNet因子多重共线性明显降低,最大方差膨胀因子不超过6,均值稳定在1.4。
- DNet因子多空组合净值曲线明显优于基准DLS因子,且风格分布多样,2019年后质量因子权重提升。



DNet因子在不同股票池表现及稳健性分析 [page::14][page::15][page::16]
- DNet因子在沪深300、中证500、中证800等不同宽基指数范围内均表现良好,IC、年化收益率及夏普率均优于传统DLS 因子。
- 在不同股票池内针对个股重新训练DNet300、DNet500、DNet800,模型表现进一步提升,波动率降低,稳定性增强。
- 多空净值曲线显示DNet系列因子表现持续优于基准,尤其在牛熊转换期具备良好韧性。



结论及风险提示 [page::0][page::17]
- 修正的惩罚性线性回归模型有效缓解多重共线性,提升了因子的稳定性和选股效果。
- DNet因子具备较高解释性和良好风险收益特征,在不同宽基指数中均表现卓越。
- 模型基于历史数据,未来市场环境变化可能导致模型失效,需注意风险控制。
深度阅读
《基于惩罚性线性回归的选股模型研究》详尽分析报告
---
一、元数据与概览
- 报告标题:《基于惩罚性线性回归的选股模型研究》
- 分析师:徐寅
- 发布机构:兴业证券经济与研究院
- 发布日期:2020年2月22日
- 研究主题:基于惩罚性线性回归的量化多因子选股模型构建与实证,核心聚焦多重共线性问题及其解决方案,涵盖A股市场因子模型构建与性能表现分析。
核心论点与目标
本文辨析量化选股中普遍存在的多重共线性问题对线性多因子模型稳定性和解释力的负面影响,提出基于修正的惩罚性线性回归(Lasso、Adaptive Lasso、ElasticNet等)的多因子选股模型,强化回归方法的稳健性。通过引入因子相关性预处理,对惩罚模型进行适当修正,成功构建出表现优异、共线性较低的复合选股因子DNet,实际收益率和夏普率显著优于基准模型。模型适应性通过沪深300、中证500、中证800不同行业股票池进行了对比验证,验证了其稳定性和广泛适用性。
总体结论为,多重共线性不可忽视,惩罚性线性回归加相关性筛选的组合策略有效提升选股模型稳定性与收益表现。page::0]
---
二、逐节深度解读
1. 引言
1.1 前期研究回顾
从2015年至今,兴业证券团队持续探索机器学习在量化选股领域的应用。经典的线性模型在自变量正态性、多重共线性、高维数据等问题上均存在缺陷,团队不断改良变量筛选技术,设计过滤法、包裹法与嵌入法等特征选择方法,以提升因子筛选效果。此前报告《当线性模型遇见机器学习》展示了基于过滤法和包裹法的动态线性信号因子(DLS)构建成果。本文基于嵌入法(即惩罚性线性回归)进一步深入解决多重共线性问题。[page::2]
1.2 多重共线性问题探讨
报告详细定义多重共线性的概念及其分类,包括完全共线性和近似共线性,阐述诊断方法:
- 特征值分解法
- 条件数法
- 方差膨胀因子 (VIF)
使用方差膨胀因子作为主要量化指标,定义VIF>10为严重共线性警戒线。多重共线性产生的原因包括变量本身性质高度相关及样本量不足导致偶然相关性。报告系统阐述其对OLS回归估计量无偏性、一致性及稳健性的影响,强调在量化选股中共线性导致参数估计不稳定,因子风格分析偏差,影响模型解释力和实际选股效果。[page::3][page::4]
1.3 惩罚性线性回归模型理论
详尽介绍普通OLS目标函数,及惩罚性线性回归的广义损失函数,包括L1、L2范数惩罚项的加入,阐明不同参数ρ对应的特定模型:
- ρ=1:Lasso回归
- ρ=0:Ridge回归
- 0<ρ<1:ElasticNet回归
- Adaptive Lasso通过调整不同变量惩罚力度实现自适应选择。
强调惩罚性线性回归在减少变量数目、缓解多重共线性、避免回归系数过大上的优势和局限,指出ElasticNet适用性特别强,尤其是处理变量群组效应和高维样本问题时较Lasso更为有效。[page::5][page::6]
---
2. A股市场实证分析
2.1 模型预处理及说明
团队拥有165个选股因子,覆盖价值、成长、质量、分析师情绪、动量反转及另类六大类,另类指标进一步细分为规模、风险、流动性、技术四个子类。数据频率为月度再平衡,采样过去36个月面板数据训练,样本时间2010年12月至2020年1月,股票筛选标准严格(排除ST、涨跌停、停牌等异常)。采取行业市值中性化处理,行业内部按流通市值中位数划分大小盘并横截面分位数标准化因子及收益,降低风格偏差,保证因子跨行业可比较性。[page::6][page::7]
2.2 普通多元线性回归实证
使用OLS回归165因子直接构建复合因子,表现指标极优:
- IC均值0.151,T值20.75
- 多空组合年化收益83%,最大回撤2.9%
表面数据表现突出,分位数收益表现呈严格单调,但存有严重多重共线性,致使回归系数含义混乱:
- 实际案例中,总资产 (Asset
- 通过敏感性测试,少量自变量数据微小扰动导致回归系数剧烈变动,有失稳性。
说明高相关因子引发回归模型判别能力下降,参数估计高度不可靠。
图表6详细展示了因子系数因数据扰动产生的剧烈波动,确认了多重共线性的实质危害。[page::7][page::8]
2.3 惩罚性线性回归模型实证分析
- Lasso回归在不同惩罚系数(1%, 2%, 3%)下均能筛选出表现优异因子,指标如下:
- IC均值趋于0.128-0.147
- 多空年化收益率51%-70%
- 夏普率约4-5.9
- 优于基准DLS因子性能。
但重要问题是,随着惩罚力度增强保留因子数减少(13.9个至46.8个),多重共线性依旧明显存在,部分时点VIF极大或无限大,占比依旧高达30%以上。
Lasso筛选因子间依然存在强相关对(相关系数≥0.6),造成多重共线性未根治。
ElasticNet回归在9组参数配置下同样表现良好,IC和年化收益均表现出色,但共线性问题依旧明显,部分参数下VIF大于10的时点频繁出现,最高覆盖近乎100%时期,且选中因子数目多数较多(最高124个),表明需要进一步降维处理才能有效控制共线性。[page::8][page::9][page::10]
2.4 修正的惩罚性线性回归模型实证
为真正控制多重共线性,团队引入过滤法对原始165因子进行相关性筛选:
- 去除任意相关系数>0.75的因子对中“表现差”因子,确保每个风格类至少保留一个因子。
- 经筛选,因子池平均缩减至86个,数据平稳。
- 在此基础上应用惩罚性线性回归,取得了明显效果:
- 以ElasticNet参数L1=0.05、L2=0.3为例,平均每期选25因子,IC达0.135,T值17.1,年化多空收益61.7%,夏普率5.3,远优于未筛选时模型性能。
- 多重共线性指标大幅改善,单期最大VIF不超过6,均值约1.4,远低于之前模型的无限大,证明筛选机制有效降低共线性风险。
上述合成因子被命名为DNet,后续验证与性能展示的核心因子。
此外,DNet合成因子的每期因子池数量与DLS接近且稳定,且不同风格因子占比与基准DLS基本一致,质的差异表现为近年质量风格因子在DNet中占比提升,价值因子占比有所下降,与市场现状相符。[page::10][page::11][page::12][page::13]
---
3. D
Net因子在宽基指数成分股内表现分析- 将DNet因子测试限制在沪深300、中证500、中证800三大宽基指数成分股范围内,依然保持较好表现,相较DLS因子均有优势:
- 例如,沪深300中DNet IC平均为0.074,夏普率1.88,年化收益25%,均超DLS但幅度有限;
- 中证500中差异更明显,DNet的IC、年化收益和夏普率均显著高于DLS。
- 由于不同股票池风格差异大,模型在不同池中训练效果亦不同。
- 将模型训练数据限定于对应股票池,产生针对性更强的DNet300、DNet500、DNet800因子,均表现优于全市场训练版本:
- 在成分股中训练的因子IC稳定性更高、收益波动性更小,ICIR和T值均提升。
- 分位数多空组合净值曲线更平滑、收益更可观,特别是沪深300和中证800组合表现突出;
- 尽管中证500表现有所波动,但在2016年以来仍显示出竞争优势。
综合来看,因子训练范围与股票池匹配度是提升选股模型表现的关键因素。[page::14][page::15][page::16]
---
4. 总结
报告从线性多因子模型出发,深入分析多重共线性问题的定义、本质与对模型的危害,证明了传统的OLS方法及部分单独惩罚模型无法彻底解决问题。通过实现因子相关性筛选结合修正的惩罚性线性回归(主要是ElasticNet),构建出了更稳健且有解释力的DNet选股因子,实证分析一致验证其更优的选股效果和更低的多重共线性风险。团队结合沪深300、中证500和中证800三个股票池进行了横向比对和纵向训练测试,进一步验证模型在不同市场环境和风格结构下的适应能力。
在机器学习与量化投资研究的持续进化中,报告体现了兴业证券量研团队的研究深度与应用创新。未来将持续深化机器学习在量化投资中的实践探索,推动理论与实务的融合发展。[page::16]
---
三、图表深度解读
图表1 - 往期研究回顾(页2)
表格列举了兴业证券2015年至2019年的多篇量化因子和机器学习研究报告,明确团队对技术迭代和理论框架的长期积累,涵盖Adaboost、随机森林、支持向量机及集成学习,彰显技术深度为本文方法论奠基。
图表2 - 兴业量化选股因子分类数量统计(页6)
| 因子类别 | 数量 |
| -------- | ---- |
| 价值 | 19 |
| 成长 | 33 |
| 质量 | 39 |
| 分析师情绪 | 13 |
| 动量反转 | 9 |
| 另类 | 52 |
另类因子下又细分规模、风险、流动性、技术指标。因子数量分布让模型训练充分覆盖多种风格维度,是构建复合因子的基础。
图表3 - 多元线性回归因子IC测试结果(页7)
| 模型 | 平均值 | 标准差 | ICIR | T值 |
| ------------- | ------ | ------ | ----- | ------ |
| MultRegression | 0.151 | 7.4% | 2.04 | 20.75 |
IC值和T值极高,表示因子相关性强且稳定,但违背了共线性所致系数不稳定的实际统计表现。
图表4 - 多元线性回归因子分位数组合测试结果(页7)
展示了因子根据分位数划分的不同组的收益率、夏普率、最大回撤等指标。最高组年化收益39.2%,夏普1.21,但最低组亏损严重,整体胜率90.9%。股价说明选股能力强,但未反映模型不稳健。
图表5 - 2010年12月31日最大权重因子(页7-8)
| 因子 | 权重 | 释义 |
| -------------- | -------------- | -------------------------- |
| RevenueTTM | -20.755 | 营业收入 |
| AssetLRLn | 20.741 | 总资产自然对数 |
| EquityLRYoY | -0.0799 | 净资产同比变动 |
资产和营收两个高度相关因子回归结果权重大小相反,显示参数不稳定。
图表6 - 多元线性回归的敏感性分析(页8)
随机扰动资产因子后,相关性仍高,但对应回归系数剧烈变化,营业收入权重由-20.755变为0.011,资产权重由20.741变为-0.018,凸显多重共线性极大影响系数稳定性。
图表7 & 图表8 - Lasso回归因子表现及多重共线性(页8-9)
- 在惩罚系数1%-3%区间,Lasso生成的因子IC在0.128-0.147,年化收益率在51%-71%区间。
- 尽管保留因子数降低,多重共线性仍存在,VIF>10的高风险期占比30%以上。
- Lasso并未能完全清除高相关因子。
图表9 - Lasso回归高相关因子对(页9)
列出高相关(≥0.6)因子对,包括价格偏差、成交额等技术指标的高相关性,透露Lasso未充分退出同类相关变量。
图表10 & 图表11 - ElasticNet回归效果及共线性特征(页9-10)
- ElasticNet在不同L1与L2参数组合下均实现良好性能,最高IC达0.152,年化收益达82%左右。
- 但选中因子数量高达数十至上百,且多重共线性频繁,比如部分模型全部时期均有VIF>10现象。
图表12 - 因子动态筛选流程图(页10)
展示了筛选流程:由165至51,再至32,最终20.5个因子,筛选原则为基于因子IC及相互相关性控制,同时保障风格多样性,为后续惩罚性回归提供优化输入。

图表13 - 仅相关性筛选因子数目趋势(页11)
柱状图表示因子筛选后数量稳定在70左右,时间序列无明显波动,说明方法具有持续稳定性。

图表14 - 修正模型选股效果(页11)
清晰显示不同Lasso与ElasticNet参数模型的IC、T值、收益率、夏普率及每期选择因子数量,中间模型的ElasticNet(L1=0.05,L2=0.3)表现突出,因子数目合适(25个),平衡效果及共线性。
图表15 - ElasticNet修正模型方差膨胀因子变化(页12)
时间序列折线和柱状图表明各期最大VIF约为5,均值约1.4,维持在较低水平,证实因子相关性筛选成功抑制了共线性。

图表16 - D
Net因子多空净值曲线(页12)红线DNet因子净值曲线远高于蓝线DLS,收益稳健且显著超越基准。

图表17 - D
Net与DLS每期因子池数量变化(页12)DNet略多于DLS,但两者数量稳定,说明模型选择因子稳健。

图表18 & 19 - 因子风格占比动态变化(页13)
成长、价值、质量及动量反转、另类、情绪风格因素在两个模型中趋势相似,2019年以来DNet质量因子比例上升,价值因子下降,契合市场实际行情调整。




图表20 - DNet因子在宽基指数范围内表现(页14)
| 指数范围 | IC均值 | 标准差 | ICIR | T值 | 年化收益 | 夏普率 |
| -------------------- | ------ | ------ | ---- | ---- | -------- | ------ |
| 沪深300 DNet | 0.074 | 12.4% | 0.60 | 6.2 | 25.0% | 1.88 |
| 沪深300 DLS | 0.070 | 11.6% | 0.60 | 6.3 | 24.6% | 1.79 |
| 中证500 DNet | 0.107 | 10.1% | 1.06 | 11.0 | 37.6% | 2.93 |
| 中证500 DLS | 0.088 | 9.0% | 0.98 | 10.2 | 33.0% | 3.15 |
| 中证800 DNet | 0.094 | 10.6% | 0.89 | 9.3 | 33.6% | 2.53 |
| 中证800 DLS | 0.081 | 9.2% | 0.88 | 9.2 | 30.8% | 2.97 |
DNet在收益及统计稳定性上均优于DLS,尤其在中证500区间优势明显,涌现更好的选股能力。
图表21 - 不同股票池训练因子表现(页14)
类似表格呈现不同股票池内部训练得到的DNet因子指标,均表现优于对应全市场训练因子,支持训练范围匹配提升模型表现的结论。
图表22至25 - 不同股票池内分位数多空组合净值曲线(页15-16)
多张趋势图显示DNet因子及股票池训练版本在宽基指数成分内,连续多年资金曲线稳健上行,支持模型稳定性和实用性。
---
四、估值分析
报告无专门的估值章节,因其性质为量化模型构建与实证研究,非传统个股估值报告。但从模型训练与因子构建过程可见,团队通过多重回归与惩罚回归的损失函数最小化,在加入L1和L2正则化参数(惩罚系数α,比重ρ)下,设计模型达到因子选择与稳健性平衡。ElasticNet的惩罚系数经过系统调优,如L1=0.05, L2=0.3,成为核心参数。因子平滑度、多重共线性指标(VIF)和选股表现均被作为对模型有效性的评判指标。
敏感度分析体现在惩罚系数对因子数量和共线性控制的权衡影响,模型选取稳健的参数组合确保实用性。
---
五、风险因素评估
- 模型失效风险:模型及结论均基于历史数据统计特征,市场环境变化可能导致模型效能降低甚至失效,尤其是市场风格大幅变动或极端事件。(页0,17)
- 数据及因子构造风险:因子数据质量、采样偏差、因子定义变化等均可能影响模型稳定性。
- 参数选取风险:惩罚系数和因子筛选阈值调整可能导致模型过拟合或欠拟合,影响预测准确性。
报告未详述缓解策略,但通过多重测试、多指数池验证体现一定的稳健性。
---
六、批判性视角与细微差别
- 报告数据全面,逻辑自洽,惩罚性回归结合因子相关性筛选方法有效缓解多重共线性风险,且明确统计指标支持。
- 然而,ElasticNet模型实际选择的因子仍较多(20-30个),在激进惩罚下变量数减少伴随表现有所下降,说明模型依然存在模型复杂度与解释力的权衡。
- 高频变动的因子权重可能导致模型短期内非稳定现象,报告未充分展开对极限情况的稳健性检验。
- 对回归模型的假定(线性关系、多因子独立性)在真实市场中往往偏弱,非线性和非平稳性风险隐含存在。
- 样本选择(剔除涨跌停、停牌等)虽保证数据质量,但可能导致选股机会的系统性偏误。
总的来看,报告对多重共线性的理解及解决方案具有实践参考意义,但仍需警惕在实际应用中可能遭遇的市场阶段性失效及参数敏感性问题。
---
七、结论性综合
本报告聚焦于量化选股中的核心技术难题——多重共线性,通过系统理论分析与丰富实证研究,推出了基于修正惩罚性线性回归模型的选股因子体系。实证中,
- 普通OLS回归尽管表现优异,但系数不稳、共线性严重,回归参数解读失效。
- 纯惩罚性线性回归模型(Lasso、ElasticNet)虽选股表现好,但多重共线性依旧不理想。
- 引入因子相关性预筛选后,构建修正ElasticNet模型,成功降低共线性指标,提升模型稳定性和解释力,推出D
- 不同宽基指数成分股内的实测结果说明,股票池匹配的定制训练能进一步提升因子表现及稳健性。
- 从IC、T值、夏普率及多空组合年化收益等多维数据指标验证了模型优于DLS基准因子。
报告不仅丰富了量化选股理论体系,也为实际策略构建提供了可操作的工具和方法。整体上,修正惩罚性线性回归选股模型在当下中国A股市场具有较强的应用价值。
---
参考文献(节选)
- Frisch R. Statistical confluence analysis by means of complete regression systems. 1934.
- Zou H. The Adaptive Lasso and its Oracle Properties. JASA, 2006.
- Hui Zou and Trevor Hastie. Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society, 2005.
---
致谢
感谢兴业证券经济与研究院提供数据和技术支持,依托兴业量化因子数据库和日常机器学习方法更新,完成本次研究。
---
图片溯源展示
6-9. 因子风格占比动态变化图!

---
【本分析严格基于原始报告内容,所有结论均有明确页码标注,严禁未经授权转载。】

