Feature-driven reinforcement learning for photovoltaic in continuous intraday trading
创建于 更新于
摘要
本文提出一种基于特征驱动的强化学习方法,针对光伏电在连续盘中交易中的不确定性,实现了在市场微观结构和实时价格环境下的最优顺序交易策略。该策略结合Proximal Policy Optimization算法与线性可解释策略结构,通过解析历史丹麦市场数据训练和验证,显著提升了盈利性并降低了电量不平衡风险,证明了其数据高效性和实时可部署性 [page::0][page::1][page::4][page::7]。
速读内容
模型框架与方法概述 [page::0][page::1][page::2]
- 将光伏盘中交易建模为具有风险权衡的多阶段马尔可夫决策过程(MDP),目标为最大化预期盈利同时惩罚残余不平衡和交易规模。
- 设计特征驱动的线性策略,将时间、电量预报、市场价格、气象信息以及交易深度等多维输入作为特征,动作为推荐买卖净量。
- 采用Proximal Policy Optimization (PPO) 强化学习算法训练特征权重,训练中融合了特征缩放、探索噪声和策略正则化。
- 形成策略后,实时交易环节使用预训练权重和市场约束求解混合整数二次规划确定最终交易量。
实验数据及市场背景 [page::3][page::4]
- 采用2023-2024年丹麦电力市场数据,包含逐小时日内连续竞价价格、平衡价格、光伏发电和气象变量。
- 模拟基于10MW光伏装机,容量因子12.5%,融合15%日内预报误差和8%更新波动。
- 设计执行模型模拟真实订单簿成交概率及价格影响,结合市深度设施限制。
- 训练集为2023年,测试集为2024年,保证时间顺序保证模型泛化。
性能评估与对比 [page::5]

- 相较于完全依赖日内盘后结算的基线策略,特征驱动RL策略(FDRL)实现了约0.5%的利润提升,且交易次数控制在平均41次/月,解释了策略的选择性介入。
- 利用各种市场压力(如交易深度减少、平衡价格波动等)测试,策略表现稳定,对价格涨跌敏感性符合预期。
场景测试与特征重要性分析 [page::5][page::6]


- 移除气象特征会显著降低策略收益,凸显天气作为关键输入的重要性。
- 价格深度和市场微观结构特征在学习权重中占主导地位。
- 使用更短的预报时间窗口能进一步提升交易收益,但可能加大风险。
- 不同风险偏好权重对平均收益影响有限,表明策略本身偏保守。
策略行为与学习效率 [page::6][page::7]


- 策略倾向使用限价单而非激进市价单,交易量大多集中于小中等区间。
- 训练在六个周期内快速收敛,学习稳定且方差小,验证了样本效率和鲁棒性。
- 算法决策延迟极低(均值约0.038毫秒),满足实时交易需求。训练耗时低于1小时。
策略解释性与经济意义 [page::6][page::7]
| 特征 | 权重 | 说明 |
|----------------|-------|----------------------------|
| Intraday Ask Price | -0.216 | 价格越高,交易量减少 |
| Bid Depth | +0.210 | 市场深度越大,交易量增加 |
| Forecast Uncertainty | -0.207 | 不确定性高,降低交易积极性 |
| Imbalance Price | -0.190 | 惩罚越严厉,交易越谨慎 |
| DA Price | -0.180 | 日前价格升高,交易量减少 |
- 积极权重展示市场微观结构与价格信号的重要性,线性模型保证策略透明易解释。
- 负权重反映风险管理动机,如高不确定性和惩罚限制交易冲动。
- 该特征权重分布具备稳定性和经济合理性,便于实际监控和合规。
深度阅读
金融研究报告详细分析
---
一、元数据与概览
报告标题: Feature-driven reinforcement learning for photovoltaic in continuous intraday trading
作者及机构: Arega Getaneh Abate, Xiufeng Liu, Ruyu Liu, Xiaobing Zhang,丹麦技术大学技术、管理与经济系
发布时间及研究背景: 近期发表,针对丹麦及北欧电力市场中的光伏(PV)发电在连续日内电力交易中的策略优化问题
研究主题: 结合特征驱动的强化学习(RL)方法,针对光伏发电在电力连续日内市场中的交易策略进行建模和优化
核心论点与创新点:
报告提出一种将数据驱动特征整合入光伏日内交易RL状态空间的方法,利用Proximal Policy Optimization (PPO)算法训练一个主要线性且可解释的策略。该策略作为一个多阶段马尔可夫决策过程(MDP)优化利润与平衡罚金权衡,且在丹麦电力市场历史数据上训练,展示出优于多个基准策略的稳健表现。作者强调该方法的实际部署可行性和经济可解释性。
主要贡献点摘要:
- 将PV日内交易建模为多阶段的决策问题,明确平衡罚金纳入目标函数
- 采用PPO强化学习训练线性偏好的策略权重,实现顺序决策学习
- 设计实盘可执行且符合市场微结构与交易规则的策略
- 多维度实证验证及案例分析证明技术效率与提升收益能力
- 明确市场微结构、价格与气象特征在策略中的关键作用
作者目标是融合物理属性、市场状态以及预测特征,通过强化学习提升电力日内交易经济效益,减少平衡成本。
---
二、逐节深度解读
1. 引言(Section I)
关键论点:
- 光伏发电存在发电不确定性和短期电价波动风险。
- 现阶段常用的做法是按单次日前市场预测提交发电计划,导致偏差以不利价格结算。
- 连续日内市场(Intraday Continuous Market,IDC)允许发电商根据最新信息动态调整持仓,降低不平衡罚金,提高收益。
- 设计有效的日内交易策略需考虑PV生成波动、价格动态和市场微结构(流动性、交易规则等)。
- 现有文献中虽有涵盖风险规避、预测改进及RL交易的研究,但未有整合特征驱动连续日内交易的全框架。
论证依据:
- 参考北欧及丹麦数据,风光发电误差驱动日内与日前价差,强调动态调整必要性。
- 指出市场设计因素如单价格不平衡制度对策略实施的影响与挑战。
- 批判现有方法未充分考虑连续交易中实时特征加入及平衡罚金的协同优化。
2. 模型构建(Section II)
市场环境定义(II.A)
- 以平衡责任方(BRP)为主体,考虑计划区间内每小时发电承诺、实际发电和盈亏调整。
- 定义了决策变量:日内卖出量 \( qt^{ask} \) 和买入量 \( qt^{buy} \),以减少偏差 \( et = Gt^{act} - Gt^{DA} - qt^{ask} + qt^{buy} \)。
- 优化目标是最大化日内交易利润与平衡市场结算的综合收益,三项二次惩罚项:平衡罚金、交易规模风险和偏离推荐策略惩罚。具体数学形式详见报告1页。
- 限制条件包括只允许单边交易(买或卖)、容量限制和非负约束,加入二进制变量保证单边执行。
- 参数 \(\alpha, \beta, \kappa\) 调节风险厌恶程度及策略执行紧密度。
特征驱动决策模型(II.B)
- 推荐动作 \(a
- 策略权重向量 \(\boldsymbol{q}\) 是线性映射,学习阶段为最大化历史利润,在线阶段固定权重实时计算推荐动作。
- 在训练环节用解的代理建模替代日内交易中混合整数二次规划(MIQP)求解以提速。
RL训练与连续市场建模(II.C & II.D)
- 强化学习算法采用PPO(基于策略梯度)迭代训练线性参数 \(\boldsymbol{q}\),通过历时数据模拟多轮次盈利场景并更新策略。
- 将连续日内交易抽象为有限时域带折扣的MDP,状态包含当前持仓、预测及不确定性、市场价及流动性特征,动作是交易量及价格偏差(激进程度)。
- 报告具体定义了成本模型(线性手续费+交易深度相关的二次冲击),终值函数考虑不平衡风险,通过条件风险价值(CVaR)评估尾部风险。
- 策略结构即包含线性解释成分和神经网络非线性部分,可根据解释需求调节。
3. 数值实验(Section III)
数据及市场环境(III.A)
- 使用丹麦电力市场2023-2024年数据,涵盖日前承诺、实际发电、发电预测、价格、流动性快照。
- 模拟10MW光伏站,年容量因素12.5%,发电误差及预测误差基于实测统计估算。
- 采用整合气象观测数据的多源特征,模拟实际交易深度与价格冲击机制。
- 训练集为2023年,2024年为测试集,数据预处理兼顾一致的交割周期。
训练及基准检验(III.B.1)
- 训练采用每日交易24个小时视为episode,5组随机种子测试一致性。
- 标签基准包括:仅日前持仓(Spot-only)、完全追踪最新预测误差(Forecast Tracking)、简单符号价差启发式策略(Heuristic)以及有未来信息的完美预知者(Oracle)。
- 结果显示FDRL(特征驱动强化学习)策略利润提升约1.5千欧元,交易次数为41次/月,较基准更优且风险调整表现良好(图2)。
压力测试(III.B.2)
- 流动性抑制(降低可用深度至25%和50%)对收益提升影响有限,交易数量略增加,说明方法对市场深度变化鲁棒。
- 不平衡价上下波动时,惩罚加剧导致利润提升幅度缩小,尾部风险加大,降低交易动机。
- 去除气象特征导致绩效下滑且收益转负,强化气象数据关键性。剔除流动性特征会增加激进行为,提升交易量同时加剧风险。去除市场特征也令交易频次上涨,暗示其对选择合适交易时机重要。
- 预测窗口越短(1小时)带来最大收益提升,但同时带来尾部风险的扩大,反映更频繁更新信息能提升收益但增加波动。
- 不同CVaR参数设置大体无显著影响,表明模型学习结果已自然适度保守。
特征重要性分析(III.B.2中图4)
- 市场报价量(买卖深度)、不平衡价和预测不确定度为策略权重的主要负载。气象特征(如辐射总量GHI、云量和气温)也处于前列。
- 权重符号符合经济直觉,如高不平衡价减少交易,高买深度增加交易激进度。
交易行为分析(III.B.3)
- 策略较为保守地选择限价单多于市价单,交易集中特定时间节点,交易体量偏小,长尾但中位数约0.224 MWh。
- 交易次数有限,且在不同市场约束及信息条件下,交易量及频率变化与预期一致。
训练收敛与计算效率(III.B.3 & III.B.4)
- 训练在6个epoch后收敛,单次训练耗时约8分钟,总耗时低于1小时,显示算法高效。
- 推理延迟仅0.038毫秒,远优于实际每小时交易所需60秒决策预算,说明可用于实时部署。
策略可解释性(III.B.5)
- 线性权重提供了策略的透明度,便于监管与审计。
- 最高权重特征符号和数值均反映经济意义:价差、深度和预测不确定性成为调节交易量和激进度的核心因子。
---
三、图表深度解读
图1(第3页)
内容描述:
展示交易订单簿的初始与更新情况。左图为T=1时基础买卖档位及价量关系,右图演示加入一个买单如何匹配现有订单、部分成交与订单簿更新过程。
解读:
有助于说明连续日内市场的撮合微观机制,体现市价单立即撮合且限价单的执行概率依赖于对手深度。图中显示市价单优先且需承担价差/冲击成本。作者据此建立了符合市场机制和成本结构的MDP模型。
图2(第5页)
内容描述:
上图柱状图比较FDRL与各比较策略的总利润(千欧元)及风险调整收益(Sharpe比率),下图展示各策略的交易次数。
解读:
- FDRL实现了约312千欧元,总利润略高于Spot-only及基于预测的规则。
- 交易次数比Spot-only多(41次)但远低于Oracle(73次),体现选择性介入。
- 风险调整收益处于各策略前列,表明收益提升不伴随风险急增。
图3(第5页)
内容描述:
不同压力场景下相对于Spot-only的利润提升(条形)、交易次数(橙色线)与5%CVaR(下图绿色条)统计与置信区间。
解读:
- 降低流动性略增交易次数但维持正收益提升,显示策略对市场深度鲁棒。
- 不平衡价格提高导致收益提升收窄并加大尾部风险。
- 剔除不同特征域引发交易活跃度与收益改变,反映各特征域对策略效果的贡献。
- 使用更短预测窗口增加收益但风险偏大。
图4(第6页)
内容描述:
策略权重绝对值最高的十个特征条形图,颜色区分市场、流动性、预测及气象特征。
解读:
- 市场深度和报价量(买卖盘体积)相关特征占据多数最高权重。
- 预测相关的波动度和误差也占重要位置。
- 气象特征,如全球水平辐射和温度,也高权重反映天气对PV不确定性的影响。
图5(第6页)
内容描述:
(a) 交易动作空间利用分布,颜色代表交易次数,X轴为激进度(限价订单偏差),Y轴为交易体量。
(b) 交易体量分布柱状图,红线标注中位数交易量。
解读:
- 多数交易集中于负激进度(限价单),显示策略倾向于保守交易。
- 交易体量多集中在小到中量区间,符合实际运作中逐步调整平衡的策略。
图6(第7页)
内容描述:
五个不同随机种子的训练动态表现,含平均回报与95%置信区间,策略损失及价值估计损失变化趋势。
解读:
- 收敛速度快,回报稳定增长,损失减小,说明算法训练稳定且样本效率高。
表格II(第5页)
内容描述:
多场景下FDRL策略与基准Spot-only的比较,指标包括利润、置信区间、交易次数及5%日常CVaR。
解读:
- 不同场景维持1-2千欧元左右制度提升,置信区间均较窄。
- 交易次数保持在40次附近,且CVaR变化有限,显示策略总体鲁棒性。
表格III(第7页)
内容描述:
推理与训练阶段计算性能指标,覆盖平均延迟、不同置信百分位延迟及训练速度。
解读:
- 超高速推理满足实时交易需求。
- 训练耗时较低,方便周期性更新。
表格IV(第7页)
内容描述:
策略中各重要特征的权重值及其解释,区分交易体量与激进度两维度。
解读:
- 体量方面,价格越高交易体量越小,市场流动性和预测不确定度反向影响体量。
- 激进度方面,流动性越高倾向更市场化(激进)交易,波动与预测差异减少激进度,反映风险规避。
- 权重符号与经济理论一致,体现真实市场行为。
---
四、估值分析
本报告为强化学习策略研发和性能评估型研究,未直接涉及传统财务估值模型,但应用了以下定价与风险估算概念:
- 基于Markov决策过程形式构建环境价值函数,采用条件风险价值(CVaR)量化尾部风险。
- 交易成本模型涵盖固定线性费用与基于流动性深度的非线性冲击成本。
- PPO算法优化预期累计收益(考虑不平衡罚款),推广策略的风险调整能力。
整体视为策略优化问题,通过机器学习的经验风险最优化获得准最优行为策略。
---
五、风险因素评估
报告明确包括的风险因素:
- 发电预测不确定性: 天气驱动的PV输出波动显著,预测误差直接影响不平衡成本。
2. 价格波动风险: 日内价格强烈波动及微观市场结构复杂,影响交易策略的收益稳定性。
- 流动性风险: 市场深度限制了实际交易量,尤其在流动性低迷时利润空间收缩。
4. 模型简化风险: 报告指出交易执行层仍为简化模型,未涵盖策略订单簿互动与多场所差异,实际执行风险存在。
- 训练与评估时效性限制: 一个训练年度及后续测试年度,面临实质监管和市场变化的潜在不确定。
缓解策略主要依赖于多情景压力测试与特征敏感性分析,策略在多样市场环境表现出一定鲁棒性,但建议未来研究扩展风险涵盖范围。
---
六、批判性视角与细微差别
- 模型与现实复杂度: 模拟执行基于简化的市场深度与限价单成交概率模型,省略了真实场所订单簿互动的细节,可能高估策略性能。
- 单一资产限制: 仅关注单一10MW PV资产,未讨论多资产或组合管理风险,策略推广须谨慎。
- 市场规则动态: 新兴市场设计和政策(如单价格模型、15分钟产品实施)持续发酵,模型可能需要持续适应以应对制度风险。
- 特征选择与结构化假设: 虽然线性政策实现了良好的解释性,但非线性复杂交互项被弱化,部分市场状态隐含信息可能未深度捕捉。
- CVaR风险调整效果有限: 经验显示不同风险参数调整收益差异较小,可能表明模型在极端风险控制方面仍有提升空间。
---
七、结论性综合
本报告系统提出并验证了一种针对光伏发电连续日内市场交易的特征驱动强化学习策略。通过将时间、市场、气象及预测特征融入状态空间,采用PPO训练线性策略权重,成功实现了收益提升与风险控制的平衡。利用丹麦实盘数据,策略较基准日前持仓策略实现明显超额收益,且风险调整表现优良,特别是在多种流动性及不平衡价格冲击压力下均表现稳定。策略交易决策偏保守,强调选择性介入,交易频率合理且符合市场惯例。训练过程展现高效收敛性和极低推理延迟,具备实际部署潜力。策略线性可解释性强,经济含义明确,有利于合规监督与实务应用。
图表分析进一步支持以下观点:
- 市场微结构(买卖深度、价格)与预测不确定度是调节交易量和激进度的核心特征。
- 气象数据对提升策略收益至关重要,剔除加剧亏损。
- 使用更短节奏的预测窗口,可获得更大的收益潜力但需付出更高风险代价。
- 策略在不同市场深度及价格波动环境下稳健,显示较好的风险适应能力。
总的来说,报告展示了结合强化学习与多源特征建模的前沿方法,为光伏连续日内交易提供了可行、经济且透明的策略解决方案,推动了可再生能源灵活参与电力市场的实践与理论前沿。
---
附图示例
- 图1订单簿与交易匹配示意
- 图2策略性能对比
- 图3压力测试结果
- 图4特征权重
- 图5交易行为
- 图6训练收敛情况
---
文中观点依据页码溯源:[page::0,1,2,3,4,5,6,7]

