`

DeepAries: Adaptive Rebalancing Interval Selection for Enhanced Portfolio Selection

创建于 更新于

摘要

本文提出DeepAries框架,结合Transformer与PPO实现动态自适应再平衡区间选择与资产配置,显著减少交易成本,提升风险调整收益和最大回撤表现,实证验证覆盖四大国际股市,展示了针对不同市场波动的灵活应对能力和强鲁棒性[page::0][page::1][page::4][page::6]。

速读内容


DeepAries模型创新与设计理念 [page::0][page::1][page::2]

  • 首次将再平衡区间选择视为离散动作,资产权重配置为连续动作,联合优化提升资产组合管理适应性。

- 利用Transformer捕获多资产时间序列的长短期依赖关系,赋能智能动态决策。
  • 采用PPO算法处理混合动作空间,既优化权重又动态调整再平衡频率,降低不必要的交易费用。


四大国际市场实证表现对比 [page::4]


| 方法 | DJ 30 CAGR(%) | Sharpe Ratio | Max Drawdown(%) | FTSE 100 CAGR(%) | KOSPI CAGR(%) | CSI 300 CAGR(%) |
|------------|---------------|--------------|-----------------|------------------|---------------|-----------------|
| DeepAries | 7.90 | 0.130 | 13.67 | 9.95 | 14.27 | 5.09 |
| 固定日度 | 2.31 | 0.048 | 21.81 | 2.51 | -4.47 | 1.33 |
| 固定月度 | 5.19 | 0.111 | 20.71 | 5.29 | 5.71 | 3.98 |
  • DeepAries在年化收益率和波动风险调整指标上大幅领先传统固定区间重平衡,尤其是在表现复杂多变的中国CSI 300市场仍保持正收益,展示强泛化性。

- 自适应策略相较月度重平衡表现更为稳健,兼顾及时调整与降低交易频次。

Transformer架构与自适应区间选择对比 [page::5]

  • 通过丰富的Transformer变体(包括iTransformer、Informer、Reformer等)测试,自适应重平衡均提升收益和风险指标。

- iTransformer与自适应再平衡结合表现最佳,DJ30年化收益从2.31%跃升至7.90%,最大回撤由21.81%降至13.67%。
  • 说明高效捕获空间与时间特征的Transformer架构对强化学习策略稳定性贡献显著。


抗交易成本能力分析 [page::6]


  • 在交易成本从基线0.01%放大5倍和10倍条件下,DeepAries仍维持较稳健组合表现。

- 相较固定日度再平衡策略,DeepAries能更有效控制交易费用对收益的侵蚀,特别是在波动较大的KOSPI市场表现优异。
  • 显示自适应间隔策略具备实战中对成本波动的强韧性。


总结与贡献 [page::0][page::6]

  • DeepAries创新性地综合考虑交易时机和资产权重决策,实现更符合市场动态的组合管理。

- 通过深度强化学习聚合Transformer时序特征挖掘与PPO策略优化,验证多市场下均衡表现优势。
  • 有效减少频繁交易带来的成本与风险,推动智能投顾与资产管理方法向实际可用迈进。

深度阅读

深度分析报告:DeepAries — 基于自适应调仓间隔的强化学习组合管理框架



---

1. 元数据与报告概览



报告标题:DeepAries: Adaptive Rebalancing Interval Selection for Enhanced Portfolio Selection
作者及机构:Jinkyu Kim, Hyunjung Yi, Mogan Gim, Donghee Choi, Jaewoo Kang,均来自韩国不同高校及英国帝国理工学院
会议:34th ACM International Conference on Information and Knowledge Management (CIKM ’25),2025年11月10–14日,韩国首尔
页码:0-7页
主题:提出一种基于深度强化学习的动态资产组合管理方法,核心为联合优化调仓时机(调仓间隔)和资产配置权重,旨在提升风险调整后的收益表现,减少交易成本,实现更高效和实用的投资组合管理。

核心论点及目标
  • 现有强化学习(RL)组合管理框架绝大多数基于固定调仓周期,忽视市场环境动态变化,导致交易成本不必要增加或反应迟缓。

- DeepAries创新性整合Transformer架构的市场状态编码器与Proximal Policy Optimization(PPO)算法,实现调仓次数(离散变量)和资产配比(连续变量)同步决策。
  • 实证数据覆盖多个国际主流股市,结果显示DeepAries在风险调整收益、最大回撤、交易成本等方面显著优于传统固定频率策略。

- 提供了在线互动Demo及完整源码和数据集,强化了实用价值和解释性。
  • 该方法开启了调仓频率自适应选择与资产配置融合决策的新范式。


综上,作者旨在通过带有自适应调仓间隔的深度RL框架提高实际投资组合的风险调整收益,减轻交易成本负担,同时保持策略对市场状态的敏捷响应。[page::0][page::1]

---

2. 逐节深度解读



2.1 引言与动机(第0-1页)



传统组合优化方法(如Markowitz均值-方差理论、CAPM)普遍静态处理资产配置,缺乏对连续动态市场环境的适应,且与调仓策略相关的“何时调仓”问题往往被忽略。市场现实中,二者(何时调仓与如何调仓)构成相辅相成的动态决策问题。

近年强化学习尝试解决动态配置,但因多采用固定固定调仓期和全仓液化方式,导致在市场稳定期交易频繁而成本高昂,同时在市场波动时滞后调整,存在显著不足。文献中已指出单纯固定调仓频率对成本与收益的权衡效果有限。

创新挑战:如何结合离散型调仓间隔选择和连续型资产权重调整,设计可捕捉市场动态的适应性调仓策略。

解决方案概述:DeepAries提出利用Transformer编码器将跨时间与跨资产关系融合成隐状态表征,使用PPO强化学习框架协同优化调仓间隔和权重,实现更优的风险收益平衡与成本控制。

贡献点
  • 新颖的自适应调仓间隔强化学习建模。

- 统一利用Transformer处理多资产时序数据。
  • 高效的联合动作空间设计及PPO训练策略。

- 多市场实证验证了相比固定频率策略的优越性。
  • 现实应用的互动Demo支持。


本章节成功勾勒出研究创新的实践痛点和学术价值基础。[page::0][page::1]

---

2.2 相关工作综述(第1页)



经典组合优化
  • Markowitz均值-方差模型和CAPM均为静态单期框架。多依赖经验法则(heuristic)定期调仓,难以灵活应对快速变化。反馈成本管理不足导致策略失效或成本过高。


强化学习进展
  • Jiang等提出的EIIE模型基于CNN资产评价,及后续引入成本敏感型奖励机制以抑制频繁交易。

- HADAPS等模型采用异步优势演员评论者算法改进组合控制。

Transformer时间序列模型
  • Transformer架构在捕捉财务序列中长远依赖效果显著,多头自注意力机制兼顾时间和资产维度。

- RAT及DeepClair利用Transformer提升了市场关系建模和波动应对能力。

局限性总结
  • 现有RL组合策略仍多采用全仓调整及固定周期调仓。动态调仓时机和部分调仓比例的研究不足,操作空间复杂,导致实用性受限。


DeepAries即针对上述瓶颈提出自适应调仓间隔的联合决策框架,旨在减少无效交易成本,提高市场适应能力。[page::1]

---

2.3 问题建模(第2页)



设置与定义
  • 资产集合$X=\{x1,...,xN\}$。

- 观测状态为时序市场特征张量$s(Tm) \in \mathbb{R}^{N\times \tau \times F}$,其中$\tau$为回溯时间窗长,$F$为资产特征数。
  • 动作双分支:

- 离散动作:调仓间隔$h
m \in \mathcal{H} = \{h1, ..., hL\}$,代表下次次调仓时间间隔。
- 连续动作:资产权重向量$w(Tm) \in \mathbb{R}^N$,满足非负和单位和约束。
  • 时间更新$T{m+1} = Tm + hm$。

- 基于区间价格相对向量$y(Tm)$计算投资回报率$R(Tm, hm) = y(Tm) \cdot w(Tm) - 1$。
  • 奖励函数以回报$R$为基准,并对选中最佳间隔$h^$加奖励因子$b$,惩罚非最优间隔选择,以促进策略与市场条件对齐。

- 加入交易成本因子$\mu(T
m)=1 - c \sum |wi(Tm) - wi'(Tm)|$,体现权重调整的手续费影响。

优化目标:最大化最终组合价值$V(TM)$,即在策略$\pi$下联合优化调仓间隔和权重配置。

此严格且实用的RL建模框架全面涵盖多资产序列动态、交易成本考量、联合离散和连续动作空间,同时设计奖励引导调仓频率适应市场变化,合理平衡风险、收益与成本。[page::2]

---

2.4 DeepAries方法论(第2-4页)



面临三大主要挑战
  • C1:股市数据维度高且非平稳,涵盖复杂时序和不同资产间依赖。

- C2:固定调仓间隔不适合所有市场状态,导致交易成本与风险控制两难。
  • C3:联合学习离散时间控制与连续资产权重调节导致训练不稳定,需高鲁棒RL算法。


核心设计理念
  • 多样Transformer架构探索:比较经典Transformer、Informer、Reformer、Autoformer等,采用多头自注意力捕获时序与横截面复杂关系。

- 自适应调仓间隔选择:设计离散策略网络$f
{\mathrm{adapt}}$基于资产嵌入输出对调仓间隔概率分布进行采样。
  • 基于PPO的联合动作优化:PPO训练能够同时处理离散间隔选择和连续资产权重调整,克服训练不稳定难题。


具体实现细节
  • 输入为资产历史价格张量$X(t)$,通过Transformer编码器生成隐藏表征$H(t)$,经Temporal Attention与前馈网络输出资产级嵌入$e(t)$。

- $e(t)$经$f{\mathrm{adapt}}$映射为调仓间隔概率分布,采样获得决策间隔$h$。
  • $e(t)$又经$f{\mathrm{port}}$生成资产权重的高斯分布参数,采用tanh激活及归一化确保权重合法性。

- 设计单独的价值估计器$\nu{\ell}$对应每个调仓间隔,整体价值函数为加权期望。

损失函数设计
  • 联合策略分布$\pi{\theta}(\ell,a|X) = pt(\ell) \cdot \pi{\theta}(a|X,\ell)$,通过PPO框架优化。

- 奖励结构中融入调仓间隔的奖励调整促使模型向最优调仓周期学习。
  • 总损失包括PPO截断策略梯度损失与MSE值函数误差,两者平衡促进稳定高效训练。


该方法构成一个先进的端到端训练框架,实现了基于市场状态的时机选择与资产配置动态调整的有机结合,技术先进且实用性强。[page::2][page::3][page::4]

---

2.5 关键算法流程(第3页)



训练流程总结(见算法1):
  • 迭代历史市场数据,编码器生成特征嵌入。

- 基于特征嵌入,软max采样获得调仓间隔,采样生成资产权重。
  • 计算区间收益及交易成本影响,更新组合价值。

- 根据间隔选择与收益关系调整奖励函数。
  • 记录转换,PPO优化策略和值函数。

该流程支持动态调仓决策迭代推进,实现长期收益最大化。[page::3]

---

2.6 实验结果(第4-6页)



评估市场:美国DJ30、欧洲FTSE100、韩国KOSPI、中国CSI 300,覆盖20年历史,10次独立随机实验验证。

主结果(表1)

| 指标 | DJI 30 | FTSE 100 | KOSPI | CSI 300 |
|-------|---------|-----------|--------|----------|
| CAGR(%) | 7.90(三大指标中优异)| 9.95 | 14.27 | 5.09 |
| 夏普比率(SR) | 0.130 | 0.086 | 0.180 | 0.070 |
| 索廷诺比率 (SoR) | 0.211 | 0.123 | 0.372 | 0.109 |
| 最大回撤(MDD %) | 13.67 | 18.23 | 22.77 | 10.95 |

DeepAries在17个指标中领先于17个竞争模型,尤其CSI 300市场中传统模型多数呈负值,DeepAries实现正收益,体现了跨市场稳健性和泛化能力。

调仓间隔效用验证(表2)
  • 自适应调仓间隔方案无一例外优于固定每日调仓策略,在风险调整收益及最大回撤表现上均改善明显。

- 固定月度调仓表现紧随DeepAries,表明适时降低交易频率在某些市场状态下有助于降低波动和成本。

Transformer变体消融(表3)
  • iTransformer作为DeepAries骨干模型表现最佳。对比固定调仓间隔, 自适应调仓机制使得iTransformer在DJ30市场复合年增长率提升近3倍,夏普率提升近3倍,最大回撤下降近40%。

- 多款Transformer架构均受益于适应性调仓,但信息选择及能力存在差异,iTransformer优势明显。

交易成本敏感性分析(图2)
  • 增加交易成本(基本费率的5倍和10倍)对所有策略有负面影响,但固定每日调仓策略跌幅更大。

- DeepAries通过减少不必要调仓次数,有效缓解高交易费率环境下净值损失,彰显其现实应用环境的韧性。

实验设计严谨全面,数据支撑充分,结论明显,模型有效性和实用性均得到了充分证实。[page::4][page::5][page::6]

---

2.7 结论与未来展望(第6页)


  • DeepAries成功提出基于市场动态的自适应调仓间隔强化学习框架,实现了调仓时机与资产权重的联合优化。

- 通过Transformer编码和PPO训练,模型不仅提升了风险调整收益,还显著减少交易成本和最大回撤。
  • 多市场20年数据验证其鲁棒性,交易成本敏感性测试展示其实际应用潜力。

- 开源数据和动态图示Demo增强了研究的透明性与复现度,为业界投资决策提供有效工具。
  • 未来工作可以拓展到更广泛的资产类别、更细粒度的交易时机选择,以及非线性交互的深度模型强化。


---

3. 图表深度解读



3.1 图1:方法对比示意图(第0页)


  • 左图(Previous Works):固定调仓间隔,频繁(如每日)交易,导致交易成本乘以7倍,无现实Demo应用。

- 右图(DeepAries):采用时间序列Transformer编码器和PPO强化学习智能体,自适应调仓间隔(例如持有20天),大幅缩减交易次数(乘以2),并具备实时Demo。

该图直观展现了DeepAries刷新传统组合管理交易频率及成本效率的优势。[page::0]

---

3.2 表1:四大市场主要模型绩效对比(第4页)



涵盖指标包括:
  • CAGR(年复合收益率),越高越好。

- SR(夏普比率)、SoR(索廷诺比率)、CR(Calmar比率),均为风险调整后收益指标,数值越大表示风险调整收益越优。
  • MDD(最大回撤),数值越低,风险控制能力越强。


DeepAries在多数指标中名列前茅,尤其是CSI 300市场,传统模型往往表现负收益,DeepAries首创地实现正向风控兼顾的收益。[page::4]

---

3.3 表2:调仓间隔策略消融对比(第4页)


  • 对比固定每日、固定每周、固定每月及自适应20天等调仓策略。

- 自适应策略在大多数指标和市场中表现优于每日调仓(尤其夏普比率和最大回撤)。
  • 固定月度调仓在部分市场表现紧随自适应策略,显示长期持仓降低交易频率的优势。


该表验证了自适应间隔策略有效提升收益风险比和降低交易成本的实际影响。[page::4]

---

3.4 表3:Transformer变体与调仓策略联合消融(第5页)


  • 表格展示多种序列模型(LSTM, TCN, Transformer及多种Transformer变体)在固定vs自适应调仓下的表现。

- 注重比较CAGR、夏普比率、最大回撤等关键指标。
  • iTransformer结合自适应调仓获得最大性能提升(尤其DJ30市场CAGR从2.31%提升至7.90%)。

- 某些Transformer变体(如Informer, Autoformer)在引入自适应调仓后反而表现下降,暗示模型选择与调仓机制需联合考虑。

该表突出不同编码器对适应性调仓策略的承载能力及最终表现差异,支持iTransformer为最优骨干。[page::5]

---

3.5 图2:交易成本对策略的影响(第6页)


  • 图中分别在FTSE 100(牛市环境,顶部3个图)和KOSPI(高波动市场,底部3个图)下,展示基线费率及5倍、10倍放大费率的资产组合净值曲线。

- 蓝线为固定每日调仓策略,红线为DeepAries自适应策略,灰线为市场指数。
  • 在交易成本提升阶段,固定每日策略净值迅速下滑,表现极差,远低市场指数。

- DeepAries在所有成本水平均保持较好表现,明显优势于固定策略,表现出其适应成本环境的优越性和风险缓释能力。

该图强化了实用交易中成本敏感性,突显自适应调仓机制优化交易成本的重要现实意义。[page::6]

---

4. 估值分析



本报告为金融算法模型研究论文,未涉及公司或股票估值,本节不适用。研究核心是风险调整收益的提升和交易成本降低,不依赖传统财务指标估值模型。

---

5. 风险因素评估



报告虽未专门章节细致陈述风险因素,但从内容可辨识如下潜在风险:
  • 模型依赖假设的风险:奖励函数基于“最优调仓间隔$h^$”的ex-post计算,实际训练环境中难以实时准确判别,可能导致训练时策略偏差。

- 市场环境变化风险:模型以历史市场数据训练,假设市场长期统计特征稳定,新型极端事件可能导致性能下降。
  • 交易成本及执行风险:高频调仓仍面临滑点、流动性限制等未显性模拟风险。

- 模型复杂性与训练稳定性:联合离散连续动作空间本身训练复杂,需要精细超参调优,风险在于训练失败或过拟合。
  • 适用范围限制:虽跨国市场验证,仍主要限于股票市场,其他资产类别适用性未知。


报告对部分风险通过奖励结构设计、自适应机制和广泛测试进行一定缓释,但未提供详尽的风险控制和策略调整方案。

---

6. 批判性视角与细微差别


  • 报告作者对自适应调仓的优越性强调明显,但固定月度调仓方法也表现相对稳健,提示“减少调仓频率”本身是主要变量,深度模型能力提升仅是在此基础上的进一步优化。

- 调仓间隔奖励函数依赖事后“最优间隔”定义,虽然提升训练信号,但实际应用中不可预测最优间隔,存在潜在过拟合风险。
  • 虽涵盖多种Transformer变体,然而部分最新模型(如Informer, Autoformer)自适应调仓反而表现下降,显示模型与策略联合调优至关重要,可能存在变体选择方面的局限。

- 交易成本实验设定仅模拟一定费率放大,实际市场滑点、流动性等微观结构风险未体现。
  • 报告中“交叉市场”测试增强泛化性,但多市场差异性分析略显薄弱,未来工作可深入研究区域市场特性的适应策略。


整体上,报告具备很高专业性和创新性,但这些细节值得后续工作关注和优化。

---

7. 结论性综合



DeepAries作为首个集成自适应调仓间隔选择资产权重连续优化的深度强化学习框架,创新性地解决了传统固定频率调仓策略在风险控制与交易成本权衡中的不足。通过Transformer编码市场复杂时序和多资产关系,配合PPO算法稳定训练,DeepAries实现了端到端的动态调仓决策。


从四大国际主流股市20年真实历史数据的广泛测试结果来看:
  • DeepAries在17/20项绩效指标中领先所有对比方法,涵盖年复合收益率(最高14.27%)、夏普率(最高0.18以上)及最大回撤显著减少(最低10.95%)。

- 在难度极大的中国CSI 300市场,传统方法多表现为负收益,DeepAries独树一帜实现正收益,体现模型泛化与鲁棒能力。
  • 调仓间隔自适应机制相较固定每日调仓带来显著提升,而固定月度调仓表现不可忽视,提示调仓频率本身是核心变量。

- 通过广泛的Transformer变体消融实验,iTransformer表现最佳,且与自适应调仓结合效果极佳。
  • 交易成本敏感度实验进一步验证DeepAries在成本压力加剧环境下表现更稳健,明显优于固定频率调仓策略。


图表与数据强烈支持自适应调仓机制及深度Transformer编码器对提高风险调整收益和降低交易成本的巨大贡献。论文提出的联合调仓间隔和资产配置优化架构为动态组合管理开辟了新路径,兼顾理论创新和应用价值。

综上,报告明确展示了DeepAries的综合竞争优势,具备较强的学术创新性和现实投资指导意义,尤其适合需要在复杂多变市场中动态权衡成本和收益的资产管理场景。[page::0][page::1][page::2][page::3][page::4][page::5][page::6]

---

参考图片



图1 - DeepAries与以往工作对比示意





图2 - 交易成本增加对组合表现的影响(FTSE 100和KOSPI)



报告