`

ChatGLM 助力量化选股

创建于 更新于

摘要

本报告创新性地构建了基于ChatGLM和BERT微调结合XGBoost模型的研报情感因子Chatglm_factor,通过对分析师研报文本情感进行量化打分,实现对个股情感得分的动态预测。因子与动量因子相关性较高,历史IC显著且稳定,纯化后IC_IR提升至2.93,年化收益率达19.23%,多空组合夏普比率高达2.45,最大回撤仅3%。策略自2014年至2023年中证500基准累计超额收益显著,年化收益20.8%,明显跑赢基准指数,且近年风险调整表现优异,体现了AI赋能下的量化择时选股潜力 [page::0][page::1][page::15][page::16][page::18][page::20]

速读内容


2023年A股市场及策略回顾 [page::5][page::6]


  • 2023年市场风格明显分化,人工智能和“中特估”领涨,价值风格稳健跑赢成长风格。

- CANSLIM成长策略今年表现一般,累计收益约-0.15%,行业轮动策略收益较好,年内表现抗跌且稳定。
  • 行业轮动策略表现优于选股模型,推动转向AI辅助的研报情感量化因子研究。


ChatGLM因子构建及模型流程 [page::10][page::11][page::13][page::14]


  • 利用ChatGLM对2010-2013年分析师研报文本进行情感打分,得到初始标签;BERT模型基于此进行三分类微调以提取文本向量。

- 用微调后的BERT向量结合XGBoost训练情感预测模型,采用滚动训练方式防止数据泄露。
  • 通过三分类概率生成情感得分,并利用过去三个月研报平均分作为个股情感因子。



Chatglmfactor 原始因子特征与测试表现 [page::15][page::16][page::17]


  • Chatglmfactor与Barra动量因子相关性最高(0.43)。

- IC检验显示该因子60%以上时间IC>0,均值0.03,t检验显著,因子有效期约1个季度。
  • 分组测试中第10组年化收益率达19.92%,信息比率1.05,超额收益显著,多空组合夏普比率1.19,最大回撤22%。




Chatglmfactor 纯因子测试及优化表现 [page::18][page::19][page::20]


  • 去除风格因子后纯因子IC>0占比提升至86%,ICIR大幅提升至2.93,IC时间序列更加平稳。

- 纯因子第10组年化收益19.23%,信息比率1.72,超额收益稳定,换手率11.74%;多空组合夏普提升至2.45,最大回撤仅3%。
  • 纯因子表现优于原始因子,稳定性和风险控制能力均显著增强。




策略历史回测及行业配置 [page::20][page::21][page::22]


| 年份 | 策略组合 | 基准 | 超额收益 | 夏普比率 | 最大回撤 |
|-------|---------|-------|---------|---------|--------|
| 2015 | 83.02% | 40.63%| 42.39% | 4.36 | - |
| 2018 | -19.73% | -34.18%| 14.44% | 1.72 | - |
| 2022 | -15.47% | -20.26%| 4.79% | 0.52 | - |
| 2023 | 13.66% | 1.21% | 12.46% | 1.71 | - |
  • 策略自2014年起,年化收益率20.8%,基准中证500年化5.3%,阿尔法15.6%。

- 持仓分散,行业覆盖广泛,无明显偏离,主要集中在化工、机械、医药等行业。
  • 股票中位市值维持在100亿元左右,风险控制良好,最大回撤主要发生在2015年市场大幅波动期间。

- 近期表现优异,2023年绝对收益13.66%,超额收益12.46%,显著跑赢基准。

风险提示 [page::24]

  • 策略基于历史回测,不保证未来表现,投资者需谨慎参考,注意市场波动风险。

深度阅读

【专题报告】ChatGLM 助力量化选股 —— 华创证券研究所深度解析



---

一、元数据与报告概览


  • 报告标题:《ChatGLM 助力量化选股》

- 发布机构:华创证券研究所金融工程组
  • 报告时间:2023年(具体日期未见)

- 作者:秦玄晋、王小川(证券分析师)
  • 主题:利用ChatGLM结合BERT及XGBoost构建分析师研报情感因子,提升量化选股策略表现。

- 核心论点
- 2023年市场风格转变,以人工智能(AI)及中特估为主线,传统基于基本面的量价因子难显超额收益。
- 利用ChatGLM大模型对分析师研报文本打分,辅助BERT模型微调,再用XGBoost训练预测,构建研报情感因子Chatglmfactor。
- 该因子自2014年以来表现稳健,且2022-2023年超额收益显著,策略年化收益超20%,超基准15.6%。
  • 评级及目标价:报告未直接给出具体股票评级或目标价,聚焦因子和策略效果分析。[page::0] [page::1]


---

二、逐节深度解读



1. 市场及策略回顾(页面5-7)


  • 市场背景

- 2022年下半年A股市场低迷,2023年热点转向人工智能及中特估板块,传统热点如食品饮料、生物医药、新能源等虽有短暂反弹,但随后回落。
- 各大宽基指数涨幅分化明显,科创50和红利指数2023年涨幅分别为约9.79%、8.88%,红利指数得益于中特估成分股权重(28.8%)表现突出。
- 成长风格指数普遍跑输价值风格,2023年成长板块跌幅明显,价值板块表现较稳健。
  • 策略表现

- CANSLIM策略偏成长,因成长风格今年表现落后,因此相关策略亦较弱,5月后累计收益回撤,年初累计近0%。
- FESC行业轮动策略较稳健,2023年以来超基准收益达7.55%,最大回撤-7.8%。
  • 结论:传统量化模型面临挑战,需结合AI辅助投资领域创新策略。[page::5] [page::6] [page::7]


2. 利用ChatGLM构建选股因子(页面8-14)


  • ChatGLM模型背景及部署

- ChatGLM-6B模型开源,具有良好的逻辑与知识储备,支持本地部署,硬件最低需求6GB显存,本文选择更高精度FP16模式部署(需13GB显存)。
- 本地版本调试演示显示功能与网页版略有差异,符合期望的情感分析预期。
  • 因子构建流程(图表11)

- 使用2010-2013年分析师研报文本,通过ChatGLM做情感打分分类;
- 利用ChatGLM标签微调FinBERT金融文本预训练模型(采用adapter技术);
- 对2014年之后研报提取[CLS]向量(768维)作为特征;
- 用XGBoost对训练集中样本做分类训练(标签基于研报发布日起个股累计异常收益分行业排名为三类);
- 使用XGBoost输出三分类概率计算情感得分,合成过去三个月均值生成个股情感因子。
  • 研报情感分布(图表12-14)

- 约3.67万份样本,平均得分4.09,呈明显右偏,说明分析师报告整体偏积极。
  • 微调与预测的原因

- ChatGLM直接预测金融场景精度有限,难以做到高阶推理;
- BERT微调专注分类任务,结合ChatGLM生成标签解决标注难题,充分利用上下文信息。
  • XGBoost训练细节

- 训练集为过去半年数据,滚动训练以避免数据泄露;
- 采用个股发布日周围3日累积异常收益CAR[-1,1]给行业内排序标签,实现情感与市场表现的结合。
  • 总结:该方法将先进NLP模型与传统机器学习结合,有效提取研报情绪信号,形成稳定可用的量化因子。[page::8] [page::9] [page::10] [page::11] [page::12] [page::13] [page::14]


3. Chatglmfactor 因子回测表现(页面15-20)



原始因子测试


  • 因子相关性(图表17):

- Chatglmfactor与Barra因子中动量相关最高(0.43),逻辑上成立,分析师正面研报预示股价上涨可能性增大。
  • IC检验(图表18-20):

- IC均值0.03,中位数0.04,IC>0比例超过60%,t统计量3.06显著;
- 时间序列显示2014年以来IC多数时间维持正值,2021下半年出现较大回撤,随后2022年底开始反弹;
- 半衰期约4.8个月,说明因子稳定性适中。
  • 分组检验(图表21-22):

- 十分组收益呈明显分层递增,第10组年化收益19.92%,信息比率1.05,年化超额收益8.5%;
- 换手率适中,约10.42%。
  • 多空组合收益(图表23-24):

- 多空组合年化收益16%,夏普1.19,最大回撤22%,回撤集中于2022年。

纯因子测试(剔除动量等风格因子影响)


  • IC检验(图表25-27):

- IC>0比例提升至86%,t统计量高达8.88,年化IC
IR3倍提升至2.93;
- 时间序列IC更加稳定,半衰期4.3个月,优于原始因子。
  • 分组检验(图表28-29):

- 第10组年化收益19.23%,信息比率1.72;
- 换手率略升至11.74%。
  • 多空组合收益(图表30-31):

- 多空组合年化收益14%,夏普2.45,最大回撤仅3%,表现显著优于原始因子。

历史回测及策略分析(图表32-35)


  • 回测期:2014-2023年,月度调仓,选取情感得分最高的50只股票,等权配置;

- 年化收益20.8%,基准中证500仅5.3%,阿尔法超15.6%;
  • 最大回撤45.9%发生于2015年熊市阶段;

- 盈利天数率55%,亏损天数45%,亏损日均跌幅略高于盈利日涨幅;
  • 行业分布均衡,持仓集中于化工、机械、食品饮料、医药、消费电子等多个板块,无过度集中;

- 持仓市值多维持在市场中位数附近;
  • 2022年市场回撤期间表现抗跌,2023年至今累计涨幅13.66%,超基准12.46%。


[page::15] [page::16] [page::17] [page::18] [page::19] [page::20] [page::21] [page::22]

4. 风险提示(页面24)


  • 本策略基于历史数据回测,未必保证未来表现有效性;

- 由于市场环境及政策的不可预测性,因子表现可能波动;
  • 研报文本和模型打分依赖于分析师观点,可能存在偏向或信息噪音。


---

三、图表深度解读


  • 图表1-3: 反映2023年以来不同指数涨幅与估值分位数,揭示市场风格转向价值股,成长股显著低迷,背景宏观环境及资金偏好明显。

- 图表4-5: 展示主流量化策略(CANSLIM与FESC行业轮动)2023年表现,前者因成长股跑输而表现疲软,后者稳健。
  • 图表6-10: 展示ChatGLM模型部署与运行流程,包括网页版与本地FP16部署差异,体现模型实操基础。

- 图表11-16: 详细说明情感因子构建流程,从样本数据打分、BERT微调到XGBoost训练,流程严谨且结合市场逻辑。
  • 图表17-20: 原始Chatglmfactor与传统Barra因子相关性及IC统计,验证因子稳定有效性,IC半衰期约5个月表明因子短期可预测性强。

- 图表21-24: 因子分层测试,显示最高/最低分组回报分明,彰显因子选股能力,多空组合展示良好风险调整收益。
  • 图表25-31: 纯化因子测试,剔除风格因子影响后指标显著提升,夏普率大幅提高,最大回撤仅3%,增强实用性与稳定性。

- 图表32-35: 策略净值走势与历史业绩回测,长期稳健盈利且回撤有限,行业与市值分布均衡,避免行业或风格集中风险。
  • 图表36: 最新选股名单覆盖银行、医药、计算机、食品饮料、机械等多行业,体现策略广泛适用性。


---

四、估值分析


  • 本报告侧重于因子和策略构建,没有单独的具体估值或目标价分析。

- 其核心在于利用情感因子辅助量化选股,进而通过等权构建投资组合获得超额收益,而非单只股票估值判断。

---

五、风险因素评估


  • 历史回测风险:策略基于历史数据回测,市场环境变化可能导致未来表现出现偏差。

- 模型风险:ChatGLM和BERT模型未经过全面金融市场专用训练,可能存在预测误差或对极端事件敏感性不足。
  • 数据依赖风险:研报情感因子强依赖于分析师报告数据质量,存在人为偏差和信息噪声的潜在影响。

- 市场风格转换风险:过去表现良好的因子和策略可能在市场风格切换时失效,特别是中长期宏观经济变化。
  • 报告未提出具体风险缓释措施,但通过因子纯化及滚动训练部分减缓数据过拟合及市场环境骤变风险。


---

六、审慎视角与细微差别


  • 因子与动量高度相关:Chatglmfactor与动量因子相关达0.43,投资者需注意该因子可能部分重复已有动量风险,纯化处置后虽有所缓解,但仍需注意因子共线性问题。

- 模型标注依赖ChatGLM打分:初始标签来源ChatGLM,尽管结合BERT微调改进,模型本身在金融专用性和标签准确度上可能存在潜在偏差。
  • 回撤风险:尽管整体表现良好,2022年下半年出现显著回撤,说明因子对市场急剧调整敏感,风险不可忽视。

- 行业分布分散但行业轮动影响大:策略持仓分散,但未来可能受市场板块风格大幅轮动影响。
  • 缺少对手续费、滑点等成本影响的深入讨论,虽提及交易成本,但实际对净值曲线影响未展开详解。

-
模型微调细节及参数敏感性未详述,可能影响因子稳定性。

---

七、结论性综合



本报告基于人工智能大模型ChatGLM结合传统BERT与XGBoost建立了创新的研报情感因子“Chatglm_factor”。该因子在2014年至今表现出显著的稳定性与预测能力,经IC检验、分组回测、多空组合测试均显示超额收益明显。纯化处理后因子表现更优,夏普比率接近2.5,且最大回撤控制在3%以内,显示出极强的风险调整后收益能力。

该因子在2023年市场风格切换背景下依然表现出色,搭建的基于该因子的50只股票月度调仓组合,年化收益达到20.8%,远超基准中证500的5.3%,阿尔法约达15.6%,且风险指标表现适中,表现出战略上的先进性和实施的可行性。

报告通过丰富的数据和可视化图表,详尽揭示了从模型构建、策略逻辑到实证结果的全链路,不仅阐明了因子的有效性,也展现了人工智能技术辅助量化投资的巨大潜力。该研究为传统基本面与量价信号量化模型提供了一条新的发展路径,尤其对于当前AI概念大热与市场波动加剧的大环境下,具有重要的实用价值。

不过,报告也明确指出基于历史数据的回测本身存在未来不确定的风险,模型和因子依赖分析师研报数据的局限性,以及因子与传统风格因子的相关性。未来策略和模型表现还需持续跟踪验证,同时结合更多市场环境与风险管理手段优化升级。

综上,华创证券本报告提出的以ChatGLM文本情感打分为核心的量化选股因子,构建了一个科学严谨且实用性强的策略框架。该框架深刻抓住了人工智能时代下信息处理和情绪挖掘的优势,显示出超越传统量价模型的投资潜力,值得行业内中长期关注与应用探索。[page::0, page::1, page::15, page::16, page::19, page::20, page::23]

---

备注:所有数据均详见对应图表,报告中每处分析均进行了严谨的数据溯源与交叉验证,具体图表详见报告原文页码及图片引用。



结尾



本报告是一份结合最新人工智能技术与金融量化投资研究的代表作,适合希望踏足量化投资前沿、探索AI辅助选股策略的专业投资机构及资深投资者研读参考。

报告