News-Aware Direct Reinforcement Trading for Financial Markets
创建于 更新于
摘要
本文提出一种基于大语言模型提取新闻情绪分,结合原始价格和成交量序列输入至强化学习代理,实现无需手工特征设计的端到端交易决策。以加密货币市场为例,测试了DDQN和GRPO算法,结果表明结合新闻情绪显著提升累计收益,序列模型(LSTM优于Transformer)在捕获时间依赖性方面表现出色,证实新闻信息及时间序列建模对量化交易的重要价值[page::0][page::1][page::3][page::4][page::5]
速读内容
框架概述与创新点 [page::0][page::1]

- 通过LLM自动提取新闻情绪和风险分数,与市场1分钟OHLCV数据合并为序列输入。
- 不依赖传统技术指标或手工特征,实现基于原始数据和新闻信息的强化学习交易。
- 使用DDQN(离线算法)与GRPO(在线算法)两类RL方法,前者用于评估分值更新,后者为基于PPO的改进版本。
数据处理与模型架构 [page::2][page::3]


- 新闻使用Gemini-2.5-flash模型批处理,评分范围1~5覆盖情绪及风险等级。
- 市场数据时间跨度2019年底至2024年初,数据被分割为训练70%、验证15%、测试15%区间,避免数据泄露。
- 采用三种网络架构:MLP(单时点),LSTM与Transformer(序列模型)比较时间依赖捕捉能力。
- 超参数用Optuna优化,涵盖网络结构和强化学习算法参数。
交易表现与评估结果 [page::3][page::4][page::5]

| 网络架构 | DDQN Top1 | DDQN Top10 | GRPO Top1 | GRPO Top10 |
|------------------------|-----------|------------|-----------|------------|
| MLP | 80.6 | 153 | 203.2 | 151.5 |
| LSTM | 329.8 | 338 | 447.5 | 289.5 |
| Transformer | 307.1 | 223.8 | 227 | 219.4 |
| LSTM (无新闻信号) | 201.9 | 118.1 | 135.4 | 265.9 |
| Transformer (无新闻信号) | 283.8 | 199.3 | 272.1 | 224.9 |
- LSTM结合LLM新闻情绪信号的性能显著优于未使用新闻信号的模型和其他架构模型。
- 序列模型(LSTM/Transformer)均超过MLP,表明连续时间序列信息对策略效果至关重要。
- Transformer表现低于LSTM,可能因未针对时间序列做专门改造。
- 实盘回测收益方面,所有模型均超越BTC市场基准收益56%,最佳策略累计回报高达124.5%。
- 复杂动作空间及风险管理未考虑,研究作为概念验证阶段。
量化策略关键点总结 [page::2][page::3][page::4]
- 原始输入包括新闻情绪分和市场价量序列,无需手工设计指标,直接强化学习从时序数据中提取特征与交易信号。
- 使用DDQN和GRPO两种强化学习算法,结合LSTM和Transformer网络架构。
- 超参数空间广泛调优,保证各模型配置的公平性和稳定性。
- 策略采取简单持仓规模选择(空仓、多仓、一份BTC),辅以0.1%止盈止损风险控制。
- 回测和验证均在市场真实历史数据和主流加密货币BTC/USDT合约上进行。
深度阅读
《News-Aware Direct Reinforcement Trading for Financial Markets》报告深度解析
---
1. 元数据与报告概览
- 报告标题: News-Aware Direct Reinforcement Trading for Financial Markets
- 作者: Qing-Yu Lan, Zhan-He Wang, Jun-Qian Jiang, Yu-Tong Wang, Yun-Song Piao
- 机构: 中国科学院大学物理科学学院
- 日期: 未具体注明,参考文献中的2024-2025内容,推断为2024年或之后
- 研究主题: 基于新闻感知的强化学习在金融市场,特别是加密货币市场中的量化交易应用
核心论点:
本报告提出一种无需手工特征和规则,直接利用大语言模型(LLM)提取的新闻情绪得分,结合原始市场价格和交易量数据,作为强化学习(RL)输入的端到端新闻感知交易框架。通过对加密货币市场(BTC/USDT)进行实验,采用两类代表性RL算法(Double Deep Q-Network, DDQN和Group Relative Policy Optimization, GRPO)和不同神经网络结构(MLP、LSTM、Transformer)进行评估,验证了该方法优于市场基准且有效利用了时间序列信息的优势。
目标价或评级相关内容报告未涉及,研究重点在于算法框架的提出及验证,强调新闻信息的直接引入和序列模型对市场时序依赖性的捕获能力。[page::0,1,4]
---
2. 章节逐节深度解读
2.1 摘要与引言
- 关键信息:
金融市场对新闻极为敏感,传统基于技术指标的特征设计常采用手工规则,且面临概括性差、应用局限,尤其在加密货币市场更为明显。
报告创新点是直接基于LLM提取的新闻情绪与风险得分,与原始OHLCV(开高低收量)数据合并,通过序列模型(LSTM/Transformer)送入RL代理进行交易决策。
认为新闻的忽略导致市场状态部分可观察性降低,增加非平稳性,提出应将新闻纳入交易状态空间以缓解此问题。
- 推理依据:
基于近年LLM在自然语言处理领域对金融文本情绪提取的强大能力,及RL在自动决策中的自适应优势,结合二者产生新闻感知交易策略具备理论上的先进性和实用可能。[page::0]
2.2 相关工作综述
- 内容总结:
总结了金融领域RL的演进路径,包括早期的Q-learning、Actor-based方法,以及后期结合深度网络(如DQN、PPO等)的发展。几乎所有成功方法都依赖技术指标或手工特征。
另外,强调新闻情绪纳入市场状态的意义,回顾了从词典法到LLM技术的情绪提取发展,指出目前研究仍基于手工特征或同步引入技术指标,缺乏直接以新闻情绪和原始价格数据构成状态向量的尝试。
- 作者立场:
他们尝试填补这个研究空白,即完全去除人工设计,直接输入新闻情绪和市场原始数据,测试RL算法效果。[page::1]
2.3 方法论
2.3.1 新闻情绪提取
- 利用先进的LLM(模型为Gemini-2.5-flash)基于模版化提示,自动打分情绪分值(1–5,负至正)和风险分值(1–5,低至高),结合置信分数输出。
- 新闻批量输入,灵活高效,且通过上下文长度监控防止影响结果准确度。
- 界面提示结构如图3所示,保证格式统一,便于后续自动处理和聚合。[page::2,3]
2.3.2 强化学习架构
- 算法选用:
- 离策略RL:DDQN,缓解Q值过高估计问题,利用目标网络和Q网络双重判定。
- On-policy RL:GRPO,是PPO的变体,采用群体相对奖励避免价值函数网络开销。
- 网络结构:
- MLP,基线模型,处理单时点信息。
- 序列模型(LSTM、Transformer),考虑时间序列依赖。
- Transformer采用标准编码器堆叠,并引入可学习的位置编码。
- 优化: AdamW优化,进一步细粒度超参调节。
- 状态空间构建: 市场1分钟OHLCV和新闻情绪风险得分合并,形成统一时间序列输入。
- 数据分割: 2019年至2024年,时间序列分为训练70%、验证15%、测试15%,避免信息泄漏,保证模型泛化测试。[page::2,3]
2.3.3 超参数调优
- 使用Optuna的TPE算法探测超参数空间。
- 包括序列长度、隐藏层规模、Transformer注意力头数量、学习率、折扣因子等全面调节,极大保证模型公平比较和优化效果。
- 训练过程中采取早停策略,避免过拟合。
- 详细调参列表附录A(表3)中。[page::2,8]
2.4 性能评估
- 实验设计: 离散动作空间,三类操作(空头、多头、持有),结合实际0.1%的止损/止盈机制。
- 样本采集: 随机选取多个3000分钟连续交易段进行训练、验证和测试。
- 评估指标: 平均累计收益(USDT)和完整回测收益率。
- 对比项:
- 含新闻情绪信号 vs 无新闻情绪信号(ablations)
- 三种网络架构(MLP、LSTM、Transformer)
- 两个算法(DDQN、GRPO)
- 验证集Top1表现者和Top10模型的均值稳定性分析
- 主要发现:
- 含新闻情绪信号的模型整体累计收益显著优于无新闻信号版本,表明情绪信息有助于预见市场变化。
- 序列模型较MLP明显更优,诠释连续时序建模的重要性。
- LSTM在本实验环境下表现优于Transformer,分析认为Transformer未特别针对时序进行优化,而LSTM天然适合捕捉因果时序关系。
- GRPO及DDQN均能受益于所提框架,说明方法对算法选择具鲁棒性。
- 表1展示Top1与Top10平均累计回报数值(如DDQN+LSTM Top1约329.8 USDT,GRPO+LSTM Top1 447.5 USDT等)。
- 表2全周期回测中,LSTM含新闻版本DDQN Top1回报124.5%,远超无新闻版本47%。
- 图4详细呈现了各模型在测试集上的累计收益走势,能直观比较不同架构和新闻信号的影响。[page::3,4,5]
---
3. 图表深度解读
图1:新闻感知强化学习框架示意图
- 说明:
展示了整体数据流:新闻文本输入LLM生成情绪与风险得分,与市场价格数据合并构成时间序列输入送入RL代理。
DDQN部分展现了Q网络和目标网络结构及梯度更新机制,GRPO则展示多智能体相对奖励计算和目标函数优化。
最终动作反馈至交易环境,获得奖励信号。
- 解读:
该图明确展现了数据融合到决策输出的整套流程,突出整合LLM输出与市场时间序列,体现论文创新点。
- 限度/备注:
没有具体量化输入维度和网络层次深度,但能透视主要流程和关键技术桥梁。[page::1]
图2:LLM输入提示格式
- 说明:
由两个分块构成,分别为情绪分和风险分评分标准,定义了1-5分具体含义和必须以JSON结构输出。
- 解读:
规范化输入输出保证可批量自动处理,降低错误率,提高标准化程度。
- 意义:
该格式是自动化情绪提取的关键支撑,确保新闻评价客观且结构化,便于进一步数值融合。[page::3]
图3:BTC 1分钟价格时间序列划分
- 说明:
三个颜色区分训练(蓝)、验证(橙)、测试(绿)时间段。
- 解读:
显示划分基于时间线顺序,最大程度避免未来数据泄漏,保证模型评估的真实性。
- 趋势:
训练阶段覆盖了2020年加密货币多轮牛市峰顶,验证、测试包括下跌和波动期,测试难度较大。[page::3]
图4:不同模型在测试期的累计收益线图
- 说明:
按DDQN和GRPO分块,每块又分Top1与Top10平均,曲线对应不同模型与是否含新闻信号。
- 解读:
- DDQN: LSTM+新闻信号曲线整体最高且增长稳定;无新闻版本显著落后。
- GRPO: 同样趋势,LSTM表现优异,Transformer表现较弱。
- MLP曲线最低,显示时序信息不可或缺。
- BTC价格价格基准曲线明显被各模型超越。
- 故事性:
视觉呈现量化了新闻信号和时间序列处理能力对策略收益的实质提升,支持正文结论。[page::5]
表1:3,000分钟平均累计回报
| 网络架构 | DDQN Top1 | DDQN Top10 | GRPO Top1 | GRPO Top10 |
|-----------------------|-----------|------------|-----------|------------|
| MLP | 80.6 | 153 | 203.2 | 151.5 |
| LSTM | 329.8 | 338 | 447.5 | 289.5 |
| Transformer | 307.1 | 223.8 | 227 | 219.4 |
| LSTM(无新闻信号) | 201.9 | 118.1 | 135.4 | 265.9 |
| Transformer(无新闻信号) | 283.8 | 199.3 | 272.1 | 224.9 |
- 解读:
LSTM结合新闻信号取得最高单模型表现(DDQN 329.8,GRPO 447.5),且表现明显优于禁用新闻的版本,突出新闻信号的价值。
Transformer整体次于LSTM,且新闻信号提升幅度较小。
MLP持续落后,证明时序网络的必要性。[page::4]
表2:全周期回测累计收益百分比
| 网络架构 | DDQN Top1 | DDQN Top10 | GRPO Top1 | GRPO Top10 |
|-----------------------|-----------|------------|-----------|------------|
| MLP | 114.9% | 91% | 59.9% | 83.7% |
| LSTM | 124.5%| 119% | 124.5% | 106.8% |
| Transformer | 112% | 95.8% | 79.1% | 92.2% |
| LSTM(无新闻信号) | 47% | 67.8% | 68.3% | 89% |
| Transformer(无新闻信号) | 131.8% | 66.7% | 54.4% | 69.2% |
- 解读:
再次确认含新闻信号的LSTM DDQN表现最佳(124.5%),相较无新闻版本提升巨大(47%)。
但有趣的是Transformer无新闻信号DDQN在Top1表现竟然达到131.8%,需注意或与数据样本或训练细节有关,提示Transformer对新闻信号的敏感度不及LSTM。[page::4]
---
4. 估值分析
本研究属于算法框架与性能验证,未涉及估值分析。其成果为强化学习中集成新闻情绪信息以提升交易策略性能的实验方案与方法论。[page::0~5]
---
5. 风险因素评估
报告并无单独风险章节,但提出的潜在风险可从以下几个方面理解:
- 市场风险与非平稳性: 金融市场(尤其加密货币)波动大,变动率高,环境非稳定,RL策略需适应不断变化的市场特征。
- 模型风险: Transformer架构未特别优化时间序列,可能导致对新闻情绪捕捉不到位。
- 新闻数据风险: 新闻情绪评分基于LLM,有固有的随机性与误差。新闻覆盖面、时效性和质量不均可能影响策略表现。
- 动作空间简化: 当前仅简化为三动作,实际市场操作远更复杂,策略泛化到实盘存在难度。
- 过拟合风险: 尽管采用时间序列分割和早停策略,仍可能受限于样本范围和回测设计。
报告建议未来研究在更复杂的动作空间、风险管理策略、多智能体架构和针对新闻等模态的模型改进上持续探索。[page::4]
---
6. 批判性视角与细微差别
- 创新性与局限:
本研究首次尝试完全去除人工设计的技术指标,直接用LLM导出的新闻情绪和基本交易数据输入RL,思路创新突出。
但Transformer性能不足提示架构设计有待增强,目前的Transformer未针对金融时序做优化,影响了多模态信息整合。
- 数据与泛化有限:
研究仅基于加密货币BTC/USDT时间序列和Yahoo财经新闻,市场覆盖相对单一,结果的泛化性与架构有效性仍需其他资产类别和更多样本验证。
- 模型解释性不足:
虽采用情绪和风险评分输入,模型内部决策透明性和情绪信号与价格波动具体关联机制未深入分析,未来亟需补充可解释性研究。
- 训练稳定性及超参依赖:
强调调参对结果影响大,随机性因素仍存。报告虽设Top10平均减少偶然性,但强化学习自然波动需要更多稳定性实验。
- 指标设计简单:
止损止盈0.1%未考虑交易费用、滑点等实际因素,导致实际可部署性受限。
- 不同算法表现差异体现模型适用性,且说明新闻信号的效益依赖具体架构设计。[page::3,4]
---
7. 结论性综合
本报告提出了一种新闻感知的强化学习量化交易框架,核心创新在于:
- 直接集成LLM新闻情绪与风险评分与原始市场OHLCV数据,去除手工设计技术指标依赖,简化特征工程流程。
- 利用LSTM和Transformer两类序列模型捕获时间序列中的价格与新闻情绪动态,特别LSTM表现更优,说明其对时序依赖更强的适应性。
- 验证了在加密市场背景下,该框架结合DDQN和GRPO两种RL算法均能显著优于市场基准和无新闻信号的模型。
- 新闻信息的加入显著提升了模型的长期累计收益,强调了新闻作为市场“额外信息冲击”的不可替代价值。
- 序列模型优于静态MLP模型,充分体现时间关系在策略决策中的关键作用。
- 图表与表格直观展示了绩效提升的数量化证据及不同网络结构对新闻信号敏感度的差异,强化了文本论点。
- 研究奠定了未来无需人工干预、基于LLM处理多模态金融数据的RL自动交易系统基础,具备实践研究价值。
未来研究方向涵盖多智能体系统设计、更复杂真实交易环境建模、以及针对Transformer等架构时序性能的优化改进。此外,增强模型解释性和实盘部署能力亦为重点。[page::0~5]
---
总结
本报告以科学严谨且极具前瞻性的视角,系统研究了基于LLM推导新闻信号融合的强化学习交易模型,在加密货币市场实现无人工设计特征条件下的性能突破。其结构清晰、论证充分,涵盖算法设计、数据处理、模型训练、性能验证多个关键环节,量化表现突出,辅以详细的图表和超参数解析。为金融市场中新闻信息和时序模型相结合、提升交易智能化水平提供了宝贵参考和研究范式。
---
以上分析全部基于报告章节内容及图表数据,引用均标明具体页码。

