`

新闻中的有限注意力和“凸显效应”因子构建 ——多因子选股系列研究之十七

创建于 更新于

摘要

本报告基于新闻文本及大语言模型情绪识别,构建多因子选股策略,重点开发了基于新闻发布后市场反馈的news_reaction因子和基于市场关注度的“凸显效应”因子,回测显示两者均具有良好的稳定性和超额收益表现,凸显了有限注意力机制在市场中的重要作用,且“凸显效应”剥离风格后信息比率高达3.76。此外,基于热度异常波动与股价涨跌方向不一致构造的“热度异常”因子同样表现良好,为多因子选股提供了有效补充[page::0][page::9][page::13][page::18]。

速读内容


1. 舆情数据与新闻情绪因子构建 [page::4][page::5]


  • 月度新闻数量过去一年突破50万条,数据来源涵盖新浪网、腾讯网、澎湃新闻等主流资讯门户。

- 简易情绪因子通过新闻七日数据计算,基于新闻中的中性、正面、负面概率加权合成,回测表现波动较大,IC值波动显著。

2. 大语言模型提升文本情绪打分准确性 [page::5][page::6]


  • 采用智普GLM-4模型对新闻文本情绪进行打分,周频回测IC达到1.2%,年化ICIR 1.3,多空年化收益15.5%,信息比率0.95。

- GLM4评分普遍较原始情绪模型更合理,显著提升因子稳定性及收益表现。
  • GLM4与传统情绪打分积累IC对比显示长期领先优势。


3. 新闻发布时间点的市场反馈因子newsreaction构建及表现 [page::9][page::10][page::11]


  • 以新闻发布后首个交易日15分钟内收益率统计均值和波动率构建两个因子newsreactionmean和newsreactionstd。

- 对news
reactionmean因子截面均值距离化处理,提升预测准确性,周IC均值-2.04%,年化收益20.78%,信息比率2.14,最大回撤7.03%。
  • newsreactionstd因子表现出对短期市场共识分歧度的刻画,年化收益21.95%,信息比率2.14,最大回撤8.75%。


4. “凸显效应”因子构建及表现 [page::12][page::13][page::14][page::15]


  • 基于15分钟频度的股票热度数据构建“凸显效应”因子,反映投资者有限注意力和市场对热点股票的过度反应现象。

- 多空年化收益33.02%,信息比率3.19,周度IC均值-3.13%,年化ICIR-3.32。
  • 剥离常见风格因子后纯“凸显效应”因子仍保持年化收益26.15%,最大回撤-4.72%,表现稳健且胜率高达69.8%。

- 因子与市值等风格因子存在一定相关性,反映低关注度股票一般小市值属性。

5. 热度异常变化的动量效应因子构建 [page::15][page::16][page::17]


  • 基于异常热度变化点,与股价涨跌方向不符区间筛选构建“热度异常”因子,揭示市场注意力与价格表现的错配信息。

- 因子周度IC 1.37%,年化ICIR 1.97,多空年化收益10.89%,信息比率1.37,表现异质性强且与常规风格相关性低。

6. 研究结论及风险提示 [page::0][page::18]

  • 利用新闻数据和大模型情绪打分能显著提升因子质量和稳定性。

- “凸显效应”及news
reaction因子表现优异,反映市场的有限注意力和短期反馈机制。
  • 风险包括历史规律可能失效、市场超预期波动、因子阶段性失效风险。

深度阅读

《新闻中的有限注意力和“凸显效应”因子构建 ——多因子选股系列研究之十七》详尽分析报告



---

1. 元数据与概览


  • 报告标题: 新闻中的有限注意力和“凸显效应”因子构建 ——多因子选股系列研究之十七

- 作者: 曹春晓
  • 发布机构: 方正证券研究所

- 日期: 2024年初(具体日期未明)
  • 研究主题: 基于新闻舆情数据,结合大语言模型情绪识别与股票市场行为,构建多因子选股模型,探索新闻中的有限注意力机制及“凸显效应”对股票价格的影响,并验证相关因子的投资价值。


报告核心论点:
当前,基于新闻数据构建有效选股因子面临大量挑战,主要包括数据量巨大且噪声多、新闻情绪识别准确性不足、市场对新闻定价存在滞后和不充分等问题。本报告通过引入智普 GLM4 大语言模型改进新闻情绪打分,结合新闻发布时间点市场反应、有限注意力理论及热度异常变化等,构建“glm4newsemo”、“newsreaction”、“凸显效应”和“热度异常”等多个因子,并通过系统回测,验证其在A股市场的稳定性与投资价值。报告显示,这些策略因子具有较好预测效力,能够辅助投资决策,尤其是“凸显效应”因子表现出36%以上的年化多空收益率,且剥离风格后更表现突出。

总体评级未明确给出,但基于因子表现,作者暗示这些因子值得关注和应用。[page::0,1]

---

2. 逐节深度解读



2.1 引言



引言部分指出,投资者长期尝试利用新闻数据因子,但受制于如下难点:
  • 新闻数据量巨大、来源多样但质量不稳定,涉及大量噪声。

- 不同新闻来源和类型驱动不同的价格行为,需有效区分。
  • 新闻内容情绪打分准确性不足,影响因子构建的质量。

- 市场对新闻信息的定价存有滞后或错判,尤其难筛选未完全定价的信息。

作者强调未来研究需要综合解决上述问题,强化新闻因子的预测能力。[page::3]

2.2 舆情数据与情绪因子初步构建


  • 新闻数据来源及处理:

以数库科技提供的数据为基础,涵盖新浪、腾讯、东方财富、同花顺等主流门户和财经网站。新闻包含股票代码、发布时间、新闻文本、相关度、情绪打分等字段,以支撑情绪分析。图表2与3显示新闻数量从2014年以来稳步增长,最新月度新闻量超过50万条,数据规模庞大,且质量通过高阶清洗和分类算法保障。
  • 初步情绪因子构建:

以情绪字段 emotiondetail 计算简单情绪因子,将正向概率赋值+1,负向-1,中性0,按7天内相关度大于0.3新闻情绪均值合成。图表4显示初步因子的十分组超额收益表现不佳,单调性不明显。图表5与6所示,信息系数(IC)波动大,整体表现处于弱正或负相关,难以稳定预测未来收益。

此初步结果反映情绪打分稳定性和准确性不足,噪声干扰依旧显著,需改进情绪识别方法。[page::4,5]

2.3 大语言模型和情绪识别


  • 情绪识别升级:

探索采用智普 GLM4 大语言模型进行新闻文本情绪打分。GLM-4拥有超长上下文窗口(128K tokens),能够处理300页以上文本且召回率接近100%,在多项NLP benchmark接近或达到GPT-4水平。
  • 回测表现:

从2018年至2020年5月周频调仓回测,glm4
newsemo因子表现明显优于原始情绪因子,图表7显示年化多空收益15.5%,信息系数均值1.2%,ICIR 1.3,信息比率0.95,且单调性良好、无明显回撤。图表10中其IC累积曲线也持续领先scopenewsemo因子。
  • 合理性验证:

通过人工核查图表11,发现大语言模型GLM4评分整体更合理,能够更准确识别新闻情绪。

但报告谨慎指出,回测期市场动量或某些外部因素可能对表现有贡献,不宜过度自信其预测的绝对稳定性。大语言模型提升了情绪评分准确性,增强因子预测力,是有效策略的基础。[page::5,6,7]

2.4 新闻发布时间点的市场反馈及newsreaction因子构建


  • 背景与逻辑:

普通情绪因子未能完全捕捉有效信号,作者转向考察新闻发布后市场短期价格反应。构建统计新闻发布后第一个交易日开盘15分钟内的收益率平均值和波动,反映市场即时对新闻的反应情绪,称为newsreactionmean和newsreactionstd。
  • 发现及处理:

通过图表14、15发现股价在新闻发布后表现极端的股票(涨幅或跌幅较大)未来表现往往转弱,存在“利空出尽、利好兑现即下跌”现象。对newsreactionmean因子做截面均值距离化处理,将两极纳入空头,生成newsreaction因子,体现市场对极端关注信息的后续修正。
  • 回测结果:

news
reaction因子表现显著(图16至19),周IC均值-2.04%,年化ICIR-2.68,IC胜率63%,多空年化收益20.78%,信息比率2.14,最大回撤-7.03%,表现稳健且和大类风格相关性低(图20)。新闻发布时间点市场反应对预测未来收益极具价值。
  • 波动率因子:

观察15分钟收益波动率构建newsreactionstd因子,反映市场分歧度。图22-25显示该因子收益也显著,其中空头表现突出,多头不明显,波动率高代表信息解读分歧大,后期收益为负。该因子同样剥离风格后表现稳定,显示新闻发布时间点的波动作为非线性因子存在潜力。

综上,新闻后市场反应因子在预测能力和风险控制上均表现优异,体现发布时点对价格走势的关键影响。[page::8,9,10,11,12]

3 新闻的注意力机制和“凸显效应”



3.1 “凸显效应”因子构建与分析


  • 理论基础:

市场存在有限注意力,投资者聚焦于极端利好或极端利空信息,导致极端利好被过度追捧但后续往往表现弱化,利空则可能持续。热点股票因关注度骤升,反而往往表现不佳。
  • 数据选用及因子构建:

基于同花顺Ifind提供的15分钟频率股票热度数据(结合新闻、论坛讨论等多元信息),等权合成至日频,反向构建“凸显效应”因子,低热度股票多头,高热度股票纳入空头,挖掘被低关注度掩盖的潜在价值。该因子代表投资者注意力热度的逆向指标。
  • 回测表现及风格剥离:

图26-28显示该因子年化多空收益高达33.02%,信息比率3.19,周IC均值-3.13%,年化ICIR-3.32,表现稳定且显著。图29-30表明该因子与市值因子相关度25%以上,存在较强小市值偏好。
  • 纯净因子剥离风格:

剥离市值、流动性、杠杆等常见风格因子后(图31-34),纯“凸显效应”因子仍获得26.15%年化收益,信息比率3.76,最大回撤-4.72%,稳定性更好。尤其2024年小微盘回撤期表现优异,验证因子确实捕捉了关注度对价格的独立影响。

该因子构建及回测结果印证市场有限注意力对股票表现的实际作用,具备重要选股应用价值。[page::12,13,14,15]

3.2 热度异常变化的动量效应


  • 因子构建理念:

除整体热度水平外,热度的异常波动点也带来交易机会。方法是计算每只股票15分钟热度数据的变化差值,定义5倍标准差作为异常阈值,捕捉显著升幅和跌幅(图35)。
  • 信号筛选:

进一步筛选价格涨跌方向与热度变化方向不一致的时刻,提取这类时段的价格表现,利用一周回溯进行加权平均,形成“热度异常”因子。
  • 表现与风格相关性:

图36-38显示该因子多空年化收益10.89%,信息比率1.37,周IC 1.37%,ICIR 1.97,具有一定动量特征但非线性。图39与40显示该因子与市场主要风格因子相关度较低,特异性强,能为多因子模型带来增量收益。

该因子体现了利用市场短时关注度波动变化点捕捉潜在价格动量,有助于补充传统情绪因子不足之处。[page::15,16,17]

---

3. 图表深度解读



3.1 新闻数据统计(图表2、3)


  • 图表2显示2014年至2024年1月,月新闻数量稳步攀升,至2023年末已超50万条,说明数据源覆盖面广且新闻采集持续性好。

- 图表3揭示新闻来源主要为新浪、东方财富、腾讯、中证报等,涵盖门户及专业财经网站,确保信息多样性和权威性。

数据量和来源的庞大与多样为后续因子构建提供了坚实基础。[page::4]

3.2 scopenewsemo与glm4newsemo因子表现(图表4-11)


  • 图表4与5展示传统基于数库科技情绪打分的scopenewsemo因子,年化多空收益表现差异大,信息系数波动频繁,长期趋于负值,表现不稳。

- 图表7-9显示glm4newsemo因子(基于GLM4模型情绪打分)十组收益稳定提升,最大组收益接近5%,IC均值稳定正向,且图表10两个因子IC累计曲线差距明显,说明GLM4打分对提升情绪因子有效性贡献显著。
  • 图表11人工审核实例,GLM4评分更加合理,说明其较强文本理解能力带来的量化优势。


整体表明大型语言模型显著改善情绪因子质量,突破传统打分受限瓶颈。[page::5,6,7]

3.3 newsreaction因子系列(图表14-25)


  • 图表14、15揭示newsreactionmean因子显示极端涨跌股票未来表现趋弱,形成双向空头策略基础。

- 图表16-19综述news
reaction因子的稳定性,信息系数虽为负但稳定,年化收益超20%,最大回撤较小,具备实用投资价值。
  • 图表22-25则描述了newsreactionstd因子对15分钟收益波动的敏感,反映市场对消息理解分歧。空头效果显著,多头不突出,回测收益同样良好,表明市场波动性也是重要信号。


此因子族有效挖掘了新闻发布时间点市场反应信息,提升了新闻质效筛选能力。[page::9,10,11,12]

3.4 “凸显效应”因子(图表26-34)


  • 图表26、“凸显效应”因子显示极佳的多空收益率(33%年化),稳健性高,信息比率3.19,周度IC负数表明选取低热度股票更优。

- 图表29、31剥离风格后依然保持很高年化收益(26%)且最大回撤明显下降至4.72%以下,显示纯因子效力强。
  • 图表30相关性分析指出该因子与市值存在明显相关性,偏小盘股特征,但剥离主流风格因子后仍有效。


验证了有限注意力导致的投资者过度关注热点股票,从中反向优化选股策略的可行性。

3.5 “热度异常”因子(图表35-40)


  • 图表35明确界定了热度显著波动的异常时间点,结合价格走势差异识别交易信号。

- 图表36、37显示该因子年化收益接近11%,IC和值表现良好,表现输出显著。
  • 图表39剥离风格后保持稳定,且图表40相关度较低,说明该因子提供了与传统因子差异化的投资信息。


体现了细粒度热度异常变化是有效的动量交易信号。

---

4. 估值分析



报告中未对具体股票或行业进行估值测算,因子构建为主,且聚焦于因子表现的统计回测。因而无DCF、市盈率等估值模型输入、假设与目标价分析。

---

5. 风险因素评估



报告在风险提示中明确:
  • 基于历史数据的规律可能失效,未来市场环境波动会带来因子表现的不确定性;

- 超预期市场事件可能破坏现有模式;
  • 所有驱动因子均可能因宏观、政策或市场风格变化而阶段性失效。


无专门风险缓解策略,提示投资者关注模型稳定性及动态调整的重要性。[page::0,18]

---

6. 批判性视角与细微差别


  • 报告对GLM4大语言模型情绪评分的有效性较为肯定,但对于回测期间可能存在的市场风格变化影响、样本区间有限等未作深入敏感性分析。模型表现或在不同市场条件下表现不同,存在潜在过拟合风险。

- newsreaction因子负IC值较高,意味着采用截面去极端处理策略,但长期负IC导致理解难度,尽管策略收益率亮眼,仍提示需谨慎理解市场心理变化可能对策略产生影响。
  • “凸显效应”因子与市值高度相关,存在小市值品种因子偏好的可能,未来可能受小盘股特有风险影响,关注剔除风格因子后的真正“凸显效应”效果更具参考价值。

- 热度异常因子虽然具备一定的动量特征与独立性,但十组收益非单调线性,说明存在非线性和复杂风险,适用性应进一步验证。
  • 报告全过程强调数据清洗及多重检验,充分体现对噪声风险的意识,但噪声是否完全剔除尚无判断标准,新闻正负面影响的市场传导机制依旧复杂。


总体而言,报告较为严谨,合规声明完整,限制了主观色彩和市场盲目乐观。

---

7. 结论性综合



本报告系统研究了新闻中的有限注意力机制,对多种基于新闻情绪及市场反应的因子进行了构建和实证分析。
  • 数据基础: 数库科技提供的新闻数据涵盖了丰富来源与庞大样本,配合高质量数据处理,形成可用舆情分析资料。

- 大语言模型提升情绪识别: 通过智普GLM4模型进行情绪打分,显著提升情绪因子表现,年化收益15.5%,ICIR 1.3,表现稳定优越。
  • 新闻发布时间点市场反应: 构建newsreaction系列因子,基于新闻发布后15分钟内股票收益平均值和波动率,揭示了市场对新闻快速且明显的反馈行为,形成稳健的选股信号,年化收益近20%,信息比率超过2。

- 有限注意力与“凸显效应”: 该核心理论说明投资者关注重心有限,关注度爆发的股票往往后续表现不佳。利用Ifind热度数据构建“凸显效应”因子,多空年化收益33%,信息比率3.19,显示出极强的择时价值。剥离风格因子后因子纯度高且稳定,仍能获得26%的年化收益。
  • 热度异常动量因子: 识别热度波动异常点,并结合涨跌方向异象,预测股票未来价格动量,年化收益约11%,增强了因子模型的多样性和稳健性。


整体而言,该系列因子有效捕捉了新闻信息在市场传导中的非线性特征与投资者行为偏差,系市场行为金融学在量化选股应用的成功实践。报告展现了从原始数据、情绪识别到市场行为量化实现的闭环,实证验证了有限注意力和凸显效应的投资意义,为策略研发提供了强有力的理论及数据支撑。

---

图片溯源示例:
  • 新闻数据量趋势图:

  • glm4newsemo 因子十分组年化超额收益率:

  • news_reaction 因子十分组年化超额收益率:

  • “凸显效应”因子十分组超额收益(周频):

  • 热度异常变化时间点识别:



---

总体评价:



本报告结合现代大语言模型与行为金融理论,创新性地利用多源新闻数据及市场反应特征,构建了一组有效因子,并通过详尽回测验证因子表现及适用性。该研究充分展现了外部信息及投资者有限注意力对价格形成的深刻影响,具较高的学术与实务参考价值,同时提示投资者关注数据质量、模型稳健性及因子异时异效风险。

[page::0,1,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18]

报告