`

Does Overnight News Explain Overnight Returns?

创建于 更新于

摘要

本文基于约240万篇新闻文本,应用机器学习主题模型与回归分析,系统揭示过夜新闻如何解释美股标普500成分股的过夜收益偏高现象。研究发现新闻主题的时变流行度及市场对主题响应的差异共同导致盘中与过夜收益的收益差异。利用新闻驱动的因子,成功预测未来一年的股票盘中和过夜表现,显著复现过夜收益优于盘中收益的效应,且剔除极端选股后该效应不显著。此外,新闻驱动因子有效解释了收益的延续与反转现象,且独立于动量、特征以及库存管理效应,提供了对过夜收益谜题的新视角。[page::0][page::1][page::11][page::23]

速读内容


过夜与盘中收益差异及新闻的作用 [page::1][page::4]


  • 近30年标普500股票收益主要由过夜收益驱动,盘中平均回报为负或接近零,过夜收益年化约7.2%。

- 新闻内容与市场响应差异是解释该现象的重要原因。

新闻主题模型及方法 [page::5][page::6][page::7]

  • 基于Latent Dirichlet Allocation(LDA)模型建构了200个新闻主题。

- 引入市场回报信息优化主题选择,以解释市场对新闻的反应。
  • 半年或多年来累计的公司新闻主题曝露作为主要变量,测算公司对应主题曝露向量。


新闻主题曝露的持久性分析 [page::8]

  • 公司对各主题的新闻曝露在时间序列上高度持久,尤其是盘中新闻曝露的持续性更强,回归系数大约为0.9(盘中)和0.79(过夜)。


利用新闻预测回报与选股表现 [page::9][page::11]


  • 基于过去四年累积新闻曝露,对未来一年盘中和过夜收益进行lasso回归预测。

- 按预测排名选出过夜收益最高的25只股票作为“过夜多头”,盘中收益最低的25只股票作为“盘中空头”。
  • 预测股票过夜收益表现显著优异,盘中空头组表现显著负面,且剔除这两组后剩余股票过夜盘中收益差异不显著。


过夜与盘中新闻主题重要性的时间演变 [page::12][page::13]


  • 过夜正向收益的主题多为负面经济或行业新闻,盘中负收益的主题与其通常相反。

- 例如金融危机期金融相关主题对应盘中负回报与过夜正回报。

过夜与盘中新闻曝露与响应的差异贡献分析 [page::15][page::16]



  • 盘中与过夜新闻曝露高度正相关(约0.84的中位数相关系数),但市场对相同主题新闻的敏感系数显著负相关,体现市场对同一主题在两个时段的不同反应。


控制动量、库存管理等因素后新闻因素依旧显著 [page::18][page::20][page::21]

  • 采用一半样本回归参数预测另一半样本回报,剔除动量影响后新闻因子依旧显著。

- 分离库存管理策略后,新闻驱动的选股仍显著,证明新闻信息与库存管理效应相互独立。
  • 逆库存管理策略分析支持零售投资者对开盘异动的解释,但新闻因子提供了年度收益预测,与投资者注意力指标互补。


新闻驱动因子对收益的延续与反转的解释力 [page::22][page::23]

  • 新闻驱动主题因子部分解释了盘中与过夜收益的延续性及两者之间的反转效应,显著提升了对市场异象的理解。

深度阅读

金融研究报告详解:Does Overnight News Explain Overnight Returns?



---

1. 元数据与概览


  • 报告标题: Does Overnight News Explain Overnight Returns?

- 作者: Paul Glasserman, Kriste Krstovski, Paul Laliberte, Harry Mamaysky
  • 发布日期: 2025年7月8日

- 研究主题:
本报告研究美国股市过去约30年间“隔夜收益显著优于盘中收益”这一现象,探讨新闻资讯对日间和隔夜股票回报差异的解释力,运用自然语言处理(NLP)和机器学习技术分析大量新闻文本,以新闻主题的时间变化及市场对新闻反应的差异解释隔夜和盘中回报的异同。
  • 核心论点:

1. 美国股市绝大部分收益来自于隔夜交易时间,而盘中回报为负或接近零。
2. 大规模新闻数据(2.4百万篇文章)通过监督式主题分析,挑选出与市场回报相关的新闻主题,解释了盘中与隔夜回报的差异。
3. 新闻主题在盘中与隔夜时间段的出现频率不同,且市场对同一新闻主题在两时间段的反应存在差异。
4. 基于新闻的模型成功预测了隔夜表现优异和盘中表现较差的个股,并解释了相关的回报延续与反转效应。
5. 对新闻机制与其他文献中的解释机制进行了对比,新闻分析提供了新的视角。

关键词涵盖“盘中与隔夜回报、资产定价、自然语言处理、机器学习”等,属于金融计量经济与资产定价领域的研究。

---

2. 逐节深度解读



2.1 引言与问题背景(第1-3页)


  • 关键论点:

研究强调近30年美国股市实证现象:超过90%以上的收益来自隔夜交易,盘中收益长期为负或持平。表1及图1展示了这一事实及相关回报的延续与反转特征(“over-intra correlations”)。
研究着重探讨新闻流量与市场对新闻反应如何驱动此现象。作者使用S&P500公司大规模新闻文本数据,结合自然语言处理的主题模型,生成公司每日及隔夜的新闻主题暴露量(topic exposures),并考察这些暴露与未来回报的关系。
研究发现基于新闻的股票回报预测模型能够较好识别隔夜表现优异和盘中表现较差的股票组,剔除这些股票后,“隔夜-盘中”回报差异显著降低甚至消失。
  • 逻辑与假设:

- 新闻的内容与市场反应存在时间段差异,且影响股票回报。
- 公司新闻暴露持续性强,使得年度级别的回报预测成为可能。
- 利用机器学习技术(lasso回归)从众多新闻主题中筛选重要的解释因素。
  • 数据举例:

图1显示2000-2022年S&P500指数股票的累计隔夜和盘中对数回报,隔夜回报显著优于盘中;
表1列出年间股价盘中与隔夜回报的相关系数,体现回报延续和跨期反转效应[page::1][page::2].

2.2 文献回顾(第2-3页)


  • 研究定位:

研究围绕“隔夜收益大于盘中收益”的现象,与以往学者(如Cooper et al. 2008, Kelly and Clark 2011, Bondarenko and Muravyev 2023, Boyarchenko et al. 2023)发现相一致。
不同解释机制包括:
- 欧洲市场开盘导致隔夜不确定性解决(Bondarenko和Muravyev)
- 市场中介库存管理(Boyarchenko等),但无法解释个股隔夜优势以及回报延续性。
- 零售投资者情绪和注意力效应(Berkman et al. 2012等)
报告指出其基于新闻内容的模型与投资者注意力解释不矛盾,且提供了更长时段(年)级别的价格预测能力。
  • 理论借鉴:

报告也提及了异象模式(momentum, reversal)与日夜回报关系的文献,并采用文本分析技术从新闻量化入手,推动对隔夜回报相关现象的理解[page::2][page::3].

2.3 数据与预处理(第4-5页)


  • 主要样本:

- 887只曾被纳入S&P500的股票,1996-2022年的数据。
- 股票价格取自CRSP数据库,计算盘中回报(开盘到收盘)和隔夜回报(收盘到次开盘),考虑分红和拆股。
- 公司特征包括市值、账面市值比、投资、盈利性、12个月动量、波动率等,按文献绿色、手与张(2017)方法计算。
  • 新闻数据处理:

- 文章来自Thomson Reuters News Feed Direct(TR)。
- 去除未提及S&P500公司、提及超过3家公司(整体市场新闻)、字数少于25字文章。
- 剩余约240万篇新闻,其中约2/3为隔夜新闻(收盘至次开盘间发布),节假日新闻归于次日隔夜。
- 对文本词干化(stemming),去停用词,非字母数字字符处理,数字归类(NUM--、MIL--等)。
- 词汇表约44,000个有效词条,不考虑n-gram,仅单词维度分析[page::4][page::5].

2.4 主题模型方法(第5-7页)


  • 核心技术:

采用Latent Dirichlet Allocation(LDA)主题模型,结合作者早期研究中创新的“branching LDA”算法,将主题选取与股票回报解释能力挂钩,增强主题与股价之间的关联。
  • LDA基本原理:

- 主题作为词概率分布。
- 每篇文档对应主题的概率分布。
- 利用Gibbs采样估计主题分布,考虑文档共现词群。
- 采用10轮迭代抽样及模型筛选,通过逐步微调,选出最大化回归解释力的主题模型。
  • 主题数量与时间窗口:

- 设置主题数K=200,测试表明对结果影响不大。
- 构建2020年模型(用1996-2020新闻),以及2010年模型(只用至2010年新闻,后续新闻用该模型解码),便于半样本及完全样本外测试。
  • 新闻主题暴露量计算:

- 公司j在时间t、时间段p(盘中/隔夜)对主题k的新闻暴露为该公司该时间段内所有新闻的对应主题概率之和。
- 主题暴露呈200维向量,为量化新闻内容的核心载体。
  • 主题模型持久性:

面板回归结果显示公司对给定主题的年度新闻暴露高度持久(系数0.8-0.94),表明新闻内容的延续性强,方便长期预测[page::5][page::6][page::7][page::8].

2.5 新闻主题对股票回报的预测与实证(第9-11页)


  • 回报预测模型:

- 使用过去n年(主要n=4)累积的新闻主题暴露来预测下一年度公司盘中和隔夜回报。
- 将年度回报作为因变量,新闻主题暴露(向量)及控件(市值、账面市值比、投资等)作为自变量,采用LASSO回归剔除无关主题,提升模型稳健性和解释力。
- 预测值等于估计系数与当前新闻暴露的乘积。
  • 选股策略和绩效:

- 根据预测的隔夜回报,选取前25家公司构成“隔夜多头组合”(LS^o)。
- 根据预测盘中回报,选取后25家公司构成“盘中空头组合”(SS^i)。
- 实证显示,隔夜多头组合实际上隔夜表现优异,盘中空头组合盘中表现最差,且剔除这些“极端”组合后,隔夜与盘中回报差异大部分消失。
- 在半样本(2020模型+2001-2022)和完全样本外(2010模型+2011-2022)都证实了结果的稳健性。
- 结果同样适用不同的窗口长度(n=1时类似)。
  • 图表解读:

- 图3展示了这些组合和非选择股票的累积回报走势,隔夜多头回报持续领先,盘中空头呈持续亏损,非选股表现平稳。
- 表3详细列出了各组合的日均回报(单位:基点),统计显著支持上述结论[page::9][page::10][page::11].

2.6 主题贡献与动态演变(第12-13页)


  • 主题贡献定义:

利用主题系数与公司的相对主题负载(相较于全体样本均值)相乘,量化某主题对预测回报的贡献。
  • 主要发现:

- 盘中和隔夜的贡献主题常不同,且同一主题在不同时间段影响符号相反(负相关)。
- 不同年份重要主题反映当年市场关注的重大事件或行业危机,如2008年金融危机期间金融相关主题表现为隔夜正向、盘中负向回报。
- COVID-19相关主题在2020年盘中主导负向回报、隔夜正向回报。
- 主题分组利用大语言模型辅助归类,方便理解和展示。
  • 图4直观反映了2001年至2022年间主题贡献的重要动态演变规律,展现了多个行业及宏观主题在不同年对回报的异质影响[page::12][page::13].


2.7 主题间跨公司溢出效应例证(第13-14页)


  • 溢出效应解释:

- 某公司A在某主题k上年内出现较大隔夜回报,该主题对市场反应系数较大,说明市场对相关主题新闻反应显著。
- 另一个公司B若随后一季对该主题暴露较高,则预计次年隔夜回报也较高。
- 这中间不仅体现了自相关,也反映了通过新闻主题跨公司间的影响与传播,即“新闻溢出效应”。
  • 实证例子见表5:

包含多对公司(类型A和B)故事,各公司新闻文本、相关新闻主题词及相应回报展示。
逻辑拒绝简单的动量解释,也证实溢出效应真实存在,强化了主题新闻流量和市场反应的预测价值[page::13][page::14].

2.8 机制分析:新闻暴露与市场反应的分解(第15-17页)


  • 研究问题:

是否隔夜回报超过盘中回报,更多由新闻内容本身的差异决定,还是市场对新闻反应的差异所致?
  • 模型设计:

- 统一新闻暴露,区分市场反应(系数β)
- 统一市场响应,区分新闻暴露
- 同时区分新闻暴露与市场响应
  • 发现:

在不同设定下,隔夜多头和盘中空头组合均表现优异且差异显著,未选股票的差异不显著,说明两因素均重要,但市场响应差异影响更大。
- 相关统计分析(图5、6、7)指出:
- 盘中和隔夜新闻暴露高度正相关(即内容大致相似)。
- 同一主题的两段市场响应呈负相关,即对同一新闻主题隔夜和盘中的市场反应方向往往相反。

这个结果解释了为何分开市场响应比区分新闻暴露更能提高预测准确性[page::15][page::16][page::17].

2.9 控制特征与动量后的稳健性测试(第17-19页)


  • 对公司特征调整后的回归显示:

- 隔夜精选股票在特征调整回报上依然显著跑赢同类股票,盘中精选股票跑输明显。
- 移除极端选股后的差异显著性消失,进一步说明新闻驱动的预测包含了主要的隔夜-盘中回报差异信息。
  • 动量效应控制:

- 在预测模型中加入盘中与隔夜动量控制,且在构建预测时剔除动量成分。
- 通过交叉样本估计及包含滞后日回报变量实证,排除预测只是动量效应的代理。
- 结果依然显著,支持新闻主题模型的独立解释力[page::18][page::19].

2.10 与库存管理机制的比较(第19-21页)


  • 库存管理理论背景:

- Boyarchenko等(2023)提出,做市商通过持股隔夜承担风险,为此隔夜收益率较高。
- 该机制主要解释指数期货的隔夜漂移,以及盘中到隔夜的一日回报反转。
  • 本报告观点:

- 库存管理不能解释股票的隔夜正收益,也难解释昼夜回报的延续性及隔夜与盘中均存在的反转模式。
- 采用分割样本设计和多重回归验证,证实新闻驱动选股与库存管理选股效果均显著且互不替代,组合信号叠加效果更佳。
  • 逆向测试:

- 测试根据前一日隔夜回报选股对应盘中回报表现(逆向库存管理)同样验证了新闻选股表现独立且稳健。
  • 结论:

新闻主题模型和库存管理机制提供了互补且独立的信息来源,新闻驱动机制深化对应隔夜收益的理解[page::19][page::20][page::21][page::22].

2.11 新闻驱动对回报延续与反转的解释(第22-23页)


  • 实证测试:

分别对盘中与隔夜回报的自相关、盘中对隔夜及隔夜对盘中的交叉影响,通过对过去回报和新闻主题预测回报的回归分析验证。
  • 结果表明:

新闻主题预测显著解释了大部分年度级别的回报延续与日夜交叉反转效应。
包括过去回报和新闻预测变量的多元回归中,两者均显著,说明新闻数据揭示了回报动态的重要组成部分[page::22][page::23].

---

3. 图表深度解读



3.1 图1:2000-2022年S&P500累计日内(蓝)与隔夜(橙)对数回报

  • 显示隔夜回报稳步上升且显著高于盘中回报,盘中回报呈下跌或震荡态势。

- 可视化支持本文“隔夜收益显著优于盘中收益”的核心论断,是研究出发点[page::27].

3.2 图2:估计与预测流程示意图

  • 展示以过去n=4年新闻暴露为自变量,在第t年用过去数据回归当年回报,随后用估计系数预测t+1年回报。

- 明确模型设计细节,确保严格时间序列因果顺序,防止未来数据泄露[page::28].

3.3 图3:基于新闻预测的股票组合累计对数回报(2020模型)

  • 蓝色实线(隔夜多头)展示强劲增长,红色实线对应非选股票增长缓慢。

- 蓝色虚线(盘中空头)表现持续下降,红色虚线对应其他股票盘中正收益。
  • 说明预测有效区分了超额收益与超额亏损的股票组,切实体现主题模型的投资实用价值[page::29].


3.4 图4:2001-2022年盘中与隔夜主题贡献热力图

  • 颜色深浅代表各主题贡献大小,符号指示主题系数符号。

- 明显可见不同年主题贡献的时变性及昼夜间符号的潜在反转,视图生动印证了市场对同一新闻有时在不同交易时段反应相反的模型核心假设[page::30].

3.5 图5:主题系数散点图,盘中vs隔夜(含零点与剔除零点版本)

  • 负相关趋势明显,特别在剔除零系数后,说明选定主题对盘中与隔夜回报方向多呈相反。

- 符合论文核心结论,即市场对新闻反应存在昼夜差异[page::31].

3.6 图6:主题总新闻暴露散点图(公司总和,排除极端)

  • 显示正相关,新闻主题在盘中与隔夜阶段出现频率高度同步,进一步支持内容本身变化不大,差异主要源自市场反应[page::32].


3.7 图7:公司年度内盘中与隔夜主题暴露相关系数分布

  • 中值高达0.84,表明个股对同一主题的新闻暴露量在盘中与隔夜高度一致。

- 为确保结论稳健,排除了显著离群值[page::33].

3.8 表2-10概述

  • 表2:主题暴露年度持久性回归,系数均在0.79-0.94之间,表明新闻主题暴露高度持续。

- 表3-4:不同模型和时间窗口下,新闻基选股表现均显著,非选股差异不显著。
  • 表5:主题溢出现象企业案例,验证新闻主题溢出效应。

- 表6-7:控制公司特征和动量后,新闻基效果依然显著。
  • 表8-9:剔除库存管理信号后,新闻信号表现不减,且二者能叠加收益。

- 表10:新闻预测捕捉昼夜回报延续与交叉反转的机制效应。

---

4. 估值分析



该报告聚焦于资产回报预测与解释,未涉及传统的公司估值技术或价格模型。因此无典型估值方法(如DCF、市盈率等)分析,但在金融资产定价和回报预测角度,主题模型与LASSO回归构成了核心预测“估值”框架,即用机器学习模型估计新闻对回报的影响权重。

---

5. 风险因素评估



报告虽未专门讨论风险因素,但论述中隐含以下方面的限制风险:
  • 新闻文本与数据质量风险: 新闻覆盖不足或误差可能影响主题提取和暴露准确性。

-
模型过拟合风险: 虽采用交叉验证和特定算法减少过拟合,但特定时间窗口或主题数量选择仍可能影响效果。
  • 市场结构演变风险: 该机制基于过去30年数据,未来可能因市场微结构、交易行为变化而弱化。

-
转移性与交易实施风险: 虽具预测能力,但因高换手率交易成本限制实际交易策略有效性。

报告中采用样本外验证、特征控制、多方法对比缓解了部分风险,并未提出专门的风险缓解策略[page::1-23].

---

6. 批判性视角与细微差别


  • 报告清晰区分了新闻影响、库存管理、投资者注意力等多重因素,力求对“隔夜收益之谜”提供更全面解释。但对可能存在的模型缺陷(如主题误分类、语义歧义)未详细论述,值得后续关注。

- 预测模型基于过去新闻暴露的持续性,对突发事件或结构性变革的适应性存疑。
  • 尽管控制了动量、公司特征等,但该方法依赖大量复杂参数和机器学习模型训练,实务应用时需谨慎。

- 报告未深入讨论市场微结构变化对后续结果的影响(如电子盘、延时发布新闻等)。

---

7. 结论性综合



该研究以丰富高频新闻数据为基础,结合先进的主题模型和机器学习技术,系统地揭示了美国股市“隔夜回报显著优于盘中回报”的机制。其主要贡献及发现包括:
  • 利用2.4百万篇新闻数据,成功构建了反映公司对具体新闻主题暴露的量化指标。

- 证实主题新闻暴露在公司间和时间上的高度持续性,成为预测盘中与隔夜年度回报的有效工具。
  • 识别出市场对同一新闻主题在盘中和隔夜交易中的不同敏感性,即对同主题新闻盘中常表现为负向对隔夜常表现为正向影响,解释了隔夜和盘中回报的风格差异。

- 基于新闻主题的股票组合策略显著区分隔夜表现优异股票与盘中表现差股票,剔除这些股票后隔夜与盘中回报差异基本消失,验证了新闻流量是主要驱动因素。
  • 控制传统影响因子、动量效应和库存管理机制后,新闻基效应依然稳健,表明其独立性和信息增量价值。

- 进一步通过实证表明,新闻报道的持续性和市场对新闻的差异性反应解释了年级别的回报延续及盘中-隔夜互反转效应。
  • 图表清晰展现该机制在不同时段、行业及重大事件中的表现,对金融市场的资产价格形成机制提供了新的实证视角。


结论上,新闻,尤其是新闻报道的时变主题内容及市场对这些主题的异时段反应,是解释美国股市长期存在的隔夜收益率溢价及日内收益滞后现象的核心因子。这一分析方法为未来高频新闻文本与股价动态研究提供了重要范式及参考[page::0-23,27-33].

---

参考附件图表链接示例(部分)


  • — 图1: 累计盘中与隔夜回报对比

- — 图3: 预测组合累计回报
  • — 图4: 主题贡献演变

- — 图5: 盘中与隔夜主题系数散点图
  • — 图6: 主题暴露正相关可视化

- — 图7: 公司主题暴露相关分布

---

总结



本研究采用创新的机器学习文本挖掘技术,揭示了复杂市场现象“隔夜收益大于盘中收益”背后的新闻驱动机制。其严谨的实证设计、丰富的数据集及详细的分析框架为金融资产定价和市场微结构研究贡献了有力的理论与实证工具,具有较强的理论和应用价值。

[page::0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,27,28,29,30,31,32,33]

报告