`

基于相似思想的选基因子构建

创建于 更新于

摘要

本文提出了基于基金之间两两关联性的多维度选基因子构建方法,包括平均相似度因子、相似动量因子、个股传导因子和复制残差因子,因子之间相关性较低,合成基金关联性因子后效果显著优于单因子。将基金关联性因子加入传统多因子选基模型后,年化收益提升约1.8%,年化超额收益提升1.5%,并通过实证检验展示其组合表现和策略提升的稳健性,为选基模型提供重要增量信息[page::0][page::3][page::4][page::20]。

速读内容


基金关联性选基因子创新点 [page::0][page::3]


  • 传统选基因子多用单只基金自身数据,本文创新性地利用基金间两两关系构建因子。

- 构建四类基金关联性因子:平均相似度、相似动量、个股传导与复制残差。
  • 关联性因子具有低相关性,信息互补,提升选基模型表现。


因子1:平均相似度因子 [page::4-5]


| 指标名称 | IC均值 | IC标准差 | ICIR | 年化ICIR | t值 |
|---------------|---------|----------|-------|----------|-------|
| 平均相似度因子 | -0.070 | 0.16 | -0.45 | -0.90 | -3.04 |
  • 基金与同簇基金的平均余弦相似度,越低表示基金策略越独特。

- 因子IC为负表明低相似度的基金未来可能表现更好。



因子2:相似动量因子 [page::6]


| 指标名称 | IC均值 | IC标准差 | ICIR | 年化ICIR | t值 |
|-------------|--------|----------|------|----------|-------|
| 相似动量因子 | 0.049 | 0.14 | 0.34 | 0.68 | 2.32 |
  • 利用滞后净值相似度衡量基金间动量传递。

- 反映领先基金净值上涨带动跟随基金的潜力。



因子3:个股传导因子 [page::7-8]


| 指标名称 | IC均值 | IC标准差 | ICIR | 年化ICIR | t值 |
|-------------|--------|----------|------|----------|-------|
| 个股传导因子 | 0.062 | 0.16 | 0.38 | 0.76 | 2.56 |
  • 将近期热点股票信号通过个股相似性传导至基金持仓。

- 利用个股相似度和权重反映基金持仓热点传导效果。




因子4:复制残差因子 [page::9-10]


| 指标名称 | IC均值 | IC标准差 | ICIR | 年化ICIR | t值 |
|-------------|--------|----------|------|----------|-------|
| 复制残差因子 | 0.037 | 0.06 | 0.57 | 1.13 | 3.84 |
  • 用类似基金线性组合复制目标基金收益,残差反映基金独有特质收益。

- 复制难度高的基金表现显示一定的选基价值。




基金关联性合成因子表现及模型提升 [page::10-14]


| 因子 | IC均值 | IC标准差 | ICIR | 年化ICIR | t值 |
|----------------------------|--------|----------|------|----------|-------|
| 分别四个单独因子 | 0.037~0.062 | - | 0.06~0.57 | - | 2.32~3.84 |
| 合成基金关联性因子 | 0.097 | 0.12 | 0.80 | 1.61 | 5.46 |
  • 合成因子增加对选基模型的贡献显著,IC均值和t值明显提升。

- 加入关联性因子的7因子模型表现优于原6因子模型:
| 指标 | 6因子合成 | 7因子合成 |
|--------------|----------|----------|
| 年化收益率 | 17.35% | 18.61% |
| 年化超额收益 | 6.06% | 7.06% |





替换选股Alpha因子后最终策略表现[page::15-16]

  • 采用基于卡尔曼平滑构建的全新选股Alpha因子,并加入基金关联性因子,7因子模型IC均值提升至0.157,t值提升至8.80。

- 最终策略年化收益19.14%,年化超额收益7.56%,较原6因子模型提升1.79%和1.50%。



模型调整后持仓与表现跟踪 [page::17-20]

  • 新模型调整后部分基金排名显著提升,且随后季度表现相对优异。

- 被新模型选中但原模型未选基金平均超额收益达6.20%,明显优于被原模型选中但新模型未选基金0.66%。


风险提示

  • 结论基于历史数据,市场环境变化存在模型失效风险。[page::0][page::21]

深度阅读

基于相似思想的选基因子构建——全面解析报告



---

1. 元数据与报告概览


  • 标题:基于相似思想的选基因子构建

- 作者:乔良、郑兆磊
  • 发布机构:兴业证券经济与金融研究院

- 发布日期:2023年8月2日
  • 研究主题:基金选基因子的创新构建方法,聚焦基金关联性因子开发及其在选基模型中的应用。


核心论点



本报告创新地提出,通过“基金间的两两关系”——即基金关联性,构建全新的选基因子,区别于传统仅依赖单只基金自身信息的因子。具体开发了四个基金关联性因子:平均相似度因子、相似动量因子、个股传导因子和复制残差因子。该组合因子能够显著增强原有多因子选基模型的预测能力和收益表现,实现年化收益和超额收益分别提升1.8%和1.5%[page::0,3]。

---

2. 逐节深度解读



2.1 引言(第3页)


  • 关键论点:鉴于当前多因子选基体系的同质化问题严重,创新点在于采用基金之间的“关联性”信息,而非单基金自变量,来构建选基因子,从而挖掘特异性信号。

- 逻辑说明:引言清晰阐述了目前选基因子所依赖数据的局限性及新因子的必要性,进而导入基金间两两关联数据作为突破口。
  • 视角:基金关联性因子覆盖更丰富的信息面,弥补以往模型中因子过于单一的缺陷,因此被设定为优化重点[page::3]。


2.2 基于基金关联性的选基因子构建(第4-11页)



报告依次介绍了四个因子的构建逻辑、计算公式、IC测试及分位数组合表现。

2.2.1 因子1:平均相似度因子


  • 定义:衡量基金与同一聚类内其他基金的平均相似度(余弦相似度)。

- 假设:相似度低表示基金策略独特,更有可能创造超额收益。
  • 数据表现:IC均值为-0.070,显示低相似度基金倾向于未来表现更优,分位组收益率及风险调整表现良好。

- 表与图说明
- 表2列出IC指标;
- 表3显示不同分位组年化收益达到119%-257%,收益波动比较优化,但IC为负,说明逆向选股信号;
- 图4和图5净值曲线与年化收益条形图呈分位组单调性[page::4,5]。

2.2.2 因子2:相似动量因子


  • 定义:基于之前股票动量因子研究,将基金间相似度考察延迟(滞后)影响,利用滞后相似度乘以相关基金收益计算动量效应。

- 计算公式

\[
\Delta F\Similarity\Momentumi = \frac{\sum{j \neq i}Similarity\Lag{i,j} \times Returnj}{\sum{j \neq i}Similarity\Lag{i,j}}
\]
  • 逻辑:利用净值领先基金的表现预测当前基金未来表现,捕捉类似股票的协同效应。

- 数据表现:IC均值0.049,正向信号且t值2.32显著,分位组收益稳健,波动率表现合理,表现出因子有效性[page::5,6]。

2.2.3 因子3:个股传导因子


  • 构造思路:热点股票的相似股票可能成为短期潜在热点,通过基金持仓权重传导个股信号到基金的因子得分。

- 计算公式

\[
F\Stock\Conducti = \sum{k=1}^N \omegak \cdot I{k \in S}
\]

其中,$\omegak$为基金持仓股票权重,$I{k \in S}$为股票是否属于热点股票相似池的指示函数。
  • 数据表现:IC均值0.062,ICIR为0.38,数据呈示分位收益稳健单调增加,表明能有效捕捉潜在热点对基金的传导影响[page::7,8]。


2.2.4 因子4:复制残差因子


  • 核心思想:用线性回归手段用相似基金组合复制目标基金的收益率。复制难度及残差(特质收益)具有信息含量。

- 逻辑:较大残差表明基金特性突出而非复制他人,预测能力显现。
  • 计算模型


\[
r{i,t} = \sum{j \neq i} \deltaj r{j,t} + \varepsilon_t
\]
  • 数据表现:IC均值0.037,ICIR0.57,t值3.84,分位组合收益显示稳定的超额表现,具备较好的选基信号特征[page::8,9,10]。


2.3 基金关联性合成因子与选基策略构建(第10-20页)



2.3.1 合成因子表现


  • 四个子因子IC均值均在0.03至-0.07区间,相关性较低(IC相关性均<0.2),说明因子间提供不同信息。

- 合成因子通过等权构造,IC均值翻倍提升至0.097,t值显著提升至5.46,证明合成后因子的有效性明显增强。
  • 分位数组合表现优异,Top组年化收益超33%,远优于底组,且净值曲线显示稳健单调性[page::10,11,12]。


2.3.2 基金关联性因子对多因子模型提升效果


  • 原有多因子模型包含:选股Alpha、最大回撤、基金份额、交易能力、机构偏好、自购行为6因子,年化超额收益约6%。

- 基金关联性因子与原因子相关性低,证明其特异性。
  • 新模型中,基金关联性因子赋予等权重(占1/7),其余因子权重相应调整,选股Alpha权重最高。

- 合成因子IC提升显著(由0.138至0.152),t值与ICIR均获提升。
  • 选基策略年化收益由17.35%提升至18.61%,年化超额收益提升1个百分点,且表现出风险下降(波动率与最大回撤均小幅优化)。

- 分位净值及超额净值曲线明显改善,且年度胜率达83.3%,季度胜率73.9%[page::12,13,14]。

2.3.3 最终选基策略与持仓分析


  • 将原选股Alpha替换为基于卡尔曼平滑优化后版本,结合基金关联性因子,进一步提升合成因子IC至0.157,t值增至8.80。

- 最终7因子模型下,选基策略年化收益19.14%,年化超额收益7.56%,较6因子模型分别提高约1.8%与1.5%。
  • 净值表现与超额净值表现均显著领先。

- 分年收益对比显示大多数年份均有超额提升,2021年甚至有显著6%超额表现。
  • 组合持仓在2023年7月调仓后,多个基金排名因基金关联性因子的调整发生显著变化,部分基金排名提升超过30名。

- 2023年1月调仓数据对比分析显示被新模型选中但原模型未选基金表现显著优于反向情况,季度超额收益平均6.2%对比0.66%[page::15,16,17,18,19,20]。

---

3. 图表深度解读



3.1 图表1:基金关联性因子与传统选基因子差异(图表,页3)


  • 直观展现了传统选股因子只用单一基金数据,而这里新增的四个基金关联性因子充分利用了基金间的关联信息。

- 图表强调基金关联性因子在因子空间的创新,提供了对传统模型的补充和优化依据。

3.2 平均相似度因子相关图表(表2-5,页4-5)


  • 表2和表3数据证实该因子虽然IC为负,但分位组合表现出显著区分度,因逆向因子逻辑(低相似度表明策略独特,表现优异)。

- 图4-5净值及年化收益柱状图符合逻辑,Top组收益明显高于Bottom组,且波动率、最大回撤也随分位改善。

3.3 相似动量因子相关图表(表6-9,页6)


  • 关键IC数据为0.049,t值2.32,确认因子有效。

- 分位组合年化收益最高达到12.23%,高于基准,且波动率相对较低,净值曲线也呈良好趋势。

3.4 个股传导因子相关图表(图10及表11-14,页7-8)


  • 逻辑示意图清晰展示了热点股票通过相似度选股、权重传导形成基金信号的过程。

- IC均值0.062,收益率表明Top组明显领先,年化收益达28.46%,风险指标合理,净值表现持续领先。

3.5 复制残差因子相关图表(图15及表16-19,页9-10)


  • 模型结构图阐明基金收益的可复制部分与特质(残差)部分。

- IC虽较低(0.037),但t值3.84和收益回撤比显示其稳定性更强。
  • 分位数据显示Top组年化收益24.6%,波动性合适,表现出稳定超额收益能力。


3.6 基金关联性合成因子表现及相关性(表20-24,页10-11)


  • 四因子IC均值差异,相关性矩阵均小于0.2,因子互补明确。

- 合成因子IC提升至0.097,t值跃升至5.46,说明叠加效应明显。
  • 分位组合年化收益最高达33.3%,波动稳健,净值增长趋势清晰,表明复合因子更具预测力。


3.7 多因子模型优化表现对比(表27-35,页12-14)


  • 相关性表表明基金关联性因子与六个原因子相关性较低,证明新因子的独特增量价值。

- 因子权重分配显示基金关联性因子配置权重与其他多数因子一致,凸显其重要性。
  • 统计和净值对比表明加入基金关联性因子后,模型IC、年化收益和超额均获得明显提升,且波动率及最大回撤略有改善。

- 净值及超额净值曲线显示策略强于原模型,且年度胜率高达83.3%。

3.8 替换选股Alpha后的最终优化效果(表36-40,页15-17)


  • 采用基于卡尔曼平滑改进的选股Alpha,使得整体IC均值提高至0.157,t值提升至8.80。

- 最终7因子模型下策略年化收益19.14%,超额7.56%,全面优于6因子模型。
  • 净值及超额净值的复合曲线显示策略稳定跑赢市场及原模型。

- 年度收益提升体现模型稳健的适用性和良好挖掘能力。

3.9 最新持仓及组合变化(表41-44,页17-20)


  • 多只优选基金因基金关联性因子排名大幅提升,如“民生加银持续成长A”提升36名。

- 通过调仓比较,新模型选中但原模型未选基金其季度超额收益明显高于相反情况,印证新模型的优越性和实用价值。
  • 净值差异图清晰展示被新模型选中的基金表现领先。


---

4. 估值与模型构建分析


  • 报告未涉及传统资本资产定价或企业估值法,而是基于多因子模型中的信息系数(IC)及投资组合表现作为评估指标。

- IC、ICIR、t值为衡量因子稳定性与预测能力的关键统计量。
  • 因子加权机制基于经验分配,特别对选股Alpha因子权重加大,基金关联性因子也赋予相当权重(约1/7),保证模型综合且突出有效因子。

- 选基策略通过优选合成因子值最高的基金构建等权组合,体现策略的实战可操作性。
  • 报告过程中考查多个指标(年化收益、波动率、最大回撤、收益波动比、收益回撤比等),体现对风险调整后的全面考察。


---

5. 风险因素评估


  • 模型失效风险:报告明确指出基于历史数据得出的结论,存在市场环境变化时模型失效的潜在风险。

- 数据局限性:基金数据特异性、持仓透明度可能影响因子构建的有效性。
  • 因子持续有效性:因子依赖历史相似度和传导信号,未来市场结构改变、监管政策或资金流驱动均可能对模型表现造成影响。

- 报告未详述对冲或风险缓释策略,投资者需注意模型适时调整及动态校准的必要性[page::0,21]。

---

6. 审慎视角与细微差别


  • 平均相似度因子IC为负,反向逻辑需特别理解,否则可能误判信号。

- 四因子中复制残差因子IC值较低,但t值较高,表示稳定性较强而信息量低,需结合其他因子综合判断。
  • 因子相关性虽低,但部分IC相关系数在0.1-0.2,说明存在微弱共同驱动因素,模型需兼顾多元但非完全独立的信息来源。

- 因子权重配置基于经验,尚无公开说明权重敏感性分析,实际应用中可根据市场环境动态调整权重以优化组合表现。
  • 组合表现依赖历史回测,尚需更多前瞻检验和实盘验证。

- 新旧模型基金排名变动较大,显示因子调整对基金的选中影响显著,可能涉及对基金策略风格的重新定义。

---

7. 结论性综合



本报告成功创新提出基于基金间相似性的信息构建选基因子,突破传统因子单维度限制,利用基金关联性的四个维度——平均相似度、相似动量、个股传导和复制残差,构建出新型基金关联性因子。该因子集合IC表现显著,能有效补充、提升原有多因子选基模型,带来年化收益及超额收益的明显提升。

各子因子均经过严格的IC检验及分位组合表现测试,分位净值与年化收益的单调性反复体现其良好选基能力。合成因子在各项统计指标上较单因子均有显著优势,显示多信息融合的协同效应。

在将基金关联性因子纳入多因子体系后,原有6因子模型的性能得到实质提升,尤其是在收益、波动及最大回撤等方面表现改善。此外,融合替换后的选股Alpha因子后,整体模型表现达到最佳,组合净值和超额收益曲线均表现更优,实际持仓构建中也显示因子对基金组合产生积极优化作用。

调仓及组合表现对比进一步验证新模型的实用价值,被新模型选中但未被旧模型选中的基金表现更佳,验证了新因子的实战意义和对投资决策的提升。

总体来看,本报告提出的基于基金相似性的新因子体系为基金选股策略提供了新的研究思路和实践工具,显著增强了选基模型的预测能力和收益表现,具备较强的应用前景和持续优化潜力。报告也诚实指出基于历史数据的风险警示,建议后续持续跟踪模型的市场适应性及调整必要性[page::0-26]。

---

主要图表示意补充(关键图表示例)



图表1:传统选股因子与基金关联性因子对比示意


图表4:平均相似度因子分位净值曲线


图表8:相似动量因子分位净值曲线


图表13:个股传导因子分位净值曲线


图表18:复制残差因子分位净值曲线


图表25:基金关联性因子分位净值曲线


图表32:加入基金关联性因子前后选基策略净值对比


图表40:替换选股alpha及加入基金关联性因子前后选基策略年度收益对比


---

总结



报告以高度严谨的研究态度,通过创新的基金关联性视角,成功构建并实证了四个新型基金选股因子,显著增强了多因子模型的收益表现和鲁棒性。尤其是基金间相互关联性信息的引入,突破了传统的单基金信息边界,为量化选基研究提供了新方向,体现了方法的先进性与实用价值。

考虑历史数据的局限性与市场环境的变化风险,未来研究可继续探索动态调整、定性维度融合以及相似性信息在基金配对交易等领域的应用,不断提升选基的科学性和实效性。

本报告为基金选基因子研究提供了全面、系统的实证支持及详细方法解析,具备较高的理论价值和应用潜力。[page::0-22]

---

(全文完)

报告