`

深度投资组合管理中的对比学习和奖励平滑——“学海拾珠”系列之一百八十四

创建于 更新于

摘要

本报告提出基于深度强化学习的投资组合管理框架,结合对比学习和奖励平滑技术提升智能体在面对不确定资产价格走势时的泛化和稳健性。通过在美国股市和加密货币市场实证,模型相较传统和其他DL方法表现出更高的投资组合价值与夏普比率,尤其在下跌市场中平滑奖励发挥正则化作用,有效减少过拟合和波动风险。消融研究及与TS2VEC的比较进一步验证了对比学习与奖励平滑的协同效益 [page::0][page::4][page::12][page::14]。

速读内容


方法框架与核心技术 [page::3][page::6]


  • 将投资组合管理表述为MDP,智能体学习长期收益最大化的资产权重分配策略。

- 引入对比学习通过神经关系推理发现资产间具有预测价格趋势相关性的正负对,增强状态表征能力。
  • 奖励平滑鼓励智能体在连续时间段采取一致行动,减少由价格波动带来的策略过拟合。


网络结构及训练细节 [page::9]


  • 输入由过去31个交易日的资产价格(包括收盘价、最高价、最低价)及当前组合权重构成。

- 采用卷积层提取单资产表征,再进行特征拼接,输出投资组合权重。
  • 使用AdamW优化器,分别在美国股市和加密货币市场使用不同学习率和批量大小,平滑长度设为5。


实验数据与评估设置 [page::10]

  • 数据覆盖美国股市多个历史时期及加密货币市场不同区间,分别使用日频与30分钟频数据。

- 采用买入并持有、UCRP、OLMAR、WMAMR、DPM、SARL为基线,进行综合比较。
  • 利用多个随机种子训练以缓解训练初始化随机性的影响,重点测试对比奖励与奖励平滑的贡献。


核心量化结果与消融分析 [page::11][page::12][page::13]


图表4 美国股市投资组合绩效对比:

| 方法 | 投资组合价值 (增长期) | 夏普比率 | 最大回撤 |
|-----------------|----------------------|----------|----------|
| Buy & Hold | 1.39 | 2.13 | 0.06 |
| UCRP | 1.40 | 2.41 | 0.05 |
| DPM | 1.23±0.20 | 0.75 | 0.20 |
| DPMv2 | 1.38±0.10 | 1.21 | 0.29 |
| SARL | 1.13±0.23 | 0.47 | 0.27 |
| SARL
v2 | 1.37±0.39 | 1.01 | 0.32 |
| Ours (PPM+sRT) | 1.69±0.09 | 1.61 | 0.25 |

图表5 加密货币市场投资组合绩效:
  • 本模型在加密市场表现尤为突出,显著超越各基线,即使整体市场价格趋势下降,仍实现正收益。

- 平滑奖励与对比学习的结合使策略在变化市场中更加稳健,回报与风险的平衡更优。

量化策略总结:对比学习与奖励平滑在DRL中的应用 [page::6][page::9][page::12]

  • 利用NRI网络识别资产间的高度相关对,构建正负样本对进行对比训练,增强特征表征的鲁棒性。

- 奖励平滑通过考虑未来多个时间步奖励,防止策略过度依赖瞬时回报,降低动作方差。
  • 多目标优化结合最终组合价值、奖励平滑和对比奖励,权重动态调整($\alpha=\exp(-R_T)$),智能体能响应收益波动调节正则化强度。

- 实证回测展示了组合策略(PPM+sRT)在不同市场环境下均优于单独策略与对照基线,显著提升风险调整后收益。




深度阅读

深度投资组合管理中的对比学习和奖励平滑——报告深度解析



---

一、元数据与概览



报告标题: 深度投资组合管理中的对比学习和奖励平滑——“学海拾珠”系列之一百八十四
分析师: 杉、严佳炜
发布机构: 华安证券研究所
发布日期: 2024年4月10日
主题: 本文聚焦在使用深度强化学习(DRL)技术进行投资组合管理,重点提出通过对比学习和奖励平滑方法提升DRL智能体在金融市场中针对未来价格走势不确定性的鲁棒性和泛化能力。[page::0]

核心论点: 本文提出了一种基于深度强化学习架构的新方法,集成了“对比学习”与“奖励平滑”技术,通过从关联资产数据中提取稳健的特征表示,帮助智能体在动态、多变的市场环境下实现累积投资收益最大化。该方法在美国股市和加密货币市场均得到了实证验证,且经过消融实验表明两者结合效果最佳。

---

二、逐节深度解读



1. 引言及背景(1.1节)



投资组合管理(PM)是传统金融的关键领域,经典方法依赖现代投资组合理论(MPT),侧重于平均收益和协方差矩阵分析,忽略了更丰富的市场指标如价格趋势、新闻数据。近年来,深度强化学习(DRL)被用于优化动态投资组合,以智能体从历史市场数据中学习灵活策略为目标,提升策略适应性。

然而,DRL训练对环境和奖励敏感,导致训练场景与实际市场差异时表现不佳。此现象对金融投资组合尤为突出,因为价格波动具有随机性,训练期与测试期环境差异较大。作者提出用计算机视觉领域新兴的对比学习技术以提升智能体在不同市场环境下的泛化能力。但对比学习直接应用于金融时受限于无法通过简单的数据增强正负样本生成,故引入神经关系推理(NRI)来自动捕捉资产间基于未来价格趋势的正负配对。进一步结合奖励平滑技术,对奖励函数在未来多个时间段进行平滑处理以减少策略过拟合和激进行为。

综上,本文旨在提升RL智能体在金融市场的不确定性下的稳健表现,方法论在美国股市和加密货币两个极具代表性的市场环境中均获得良好实证效果。[page::4][page::5]

---

2. 文献综述(1.2节)



早期强化学习以浅层神经网络与Q-learning实现收益最大化目标,但难以适应非平稳金融数据。后续结合深度神经网络的深度强化学习(Deep RL)逐渐成为主流,通过复杂网络结构如长短期记忆(LSTM)、图神经网络(GNN)、模糊学习等技术改进资产表征与策略质量。

此外,多维度资产状态增强(结合价格、新闻等)显著提升盈利能力。许多研究强调交易成本、最大回撤的权衡,以及策略梯度法在实际中的优越性。

本文受这些技术启发,选用基于策略梯度的深度强化学习方法,结合突破性的对比学习捕捉资产间潜在关系以及奖励平滑机制,形成创新的多任务学习框架。[page::5]

---

3. 模型介绍(第2章)



3.1 投资组合管理的马尔可夫决策过程(MDP)


  • 状态 $st$ 包含历史价格张量 $xt$(过去 $k=31$ 个时间段多个资产的价格数据)及投资组合权重 $wt$。

- 动作 $a
t$ 代表不同资产权重分配,所有权重和为1,包含现金。
  • 资产价格变动和交易成本被细致建模,考虑买卖费用和资产相对价格变化,从而定义投资组合价值与收益。

- 目标是最大化期望贴现累计对数奖励,即投资组合长期收益,而非单期最优。[page::5][page::6]

3.2 对比学习的基本思想


  • 对比学习通过拉近正资产对(未来价格走势高度相关的资产对)表征的距离、拉远负对距离,优化编码器生成“稳健”资产表征。

- 使用神经关系推理(NRI)图神经网络无监督学习资产间关系,预测未来价格变动,自动构造正负对。
  • 对比奖励是对编码器表征之间余弦相似度的严格优化,提升主模型在特征空间的判别力和泛化性。[page::6][page::7]


3.3 奖励平滑


  • 传统奖励函数面临价格波动的极大不确定性,即时奖励波动大,易过拟合训练数据。

- 通过未来$F$时间步内奖励的平滑处理,鼓励智能体连续时间步采取相似行为,进一步正则化策略,减少激进波动。
  • 平滑奖励权重 $\alpha$ 与即时奖励相关,智能体收益低时加大平滑权重,以保护投资组合价值。[page::8][page::9]


3.4 策略梯度与模型实现细节


  • 策略网络以卷积神经网络编码多资产历史价格,融合当前资产权重信息后通过softmax层输出资产权重分配。

- 训练采用AdamW优化,结合多任务目标:即时投资收益、奖励平滑、对比奖励。
  • 使用在线学习与基于几何分布的采样策略,增强模型对近期状态的响应能力。

- NRI模块采用两层全连接网络,训练时把资产状态分组进行对比学习,保持训练稳定性及效率。[page::9][page::10]

---

4. 模型有效性评估(第3章)



4.1 数据与实验设置


  • 数据涵盖美国股市(日频,9只高流动性股票)与加密货币市场(半小时级,10种加密货币/现金)。

- 交易费用设为0.25%;智能体根据开盘价格重新分配资产权重,期末根据收盘价获得奖励。
  • 采用8个随机种子训练以防初始化偏差,进行多次实验取平均,确保结果稳健。

- 基线方法包含多种传统投资组合策略(买入持有、均匀常数再平衡等)和现有DRL算法(DPM,SARL及其升级版本)。[page::10][page::11]

4.2 消融实验


  • 图表4(美国股市)和图表5(加密货币)显示,在大多数市场情况(上涨、无变动、下跌)中,采用对比学习与奖励平滑(PPM+sRT)的方法在投资组合价值(PV)和夏普比率(SR)上领先其他模型。

- DRL方法整体优于传统PM方法,表现出更强灵活性和适应性。
  • 融合深度网络架构的DPMv2和SARLv2超越原始版本,但仍落后于本文的PPM+sRT方案,表明对比学习和奖励平滑的增益明显。

- 加密货币市场表现尤为突出,得益于更频繁交易及策略动态调整,在整体价格趋势向下时依旧取得了正收益,体现出模型强大适应能力。
  • TS2VEC时间序列数据增强方法较为先进,但不及PPM+sRT,突出本文基于预测性资产配对的对比学习更适合本领域任务。[page::11][page::12]


4.3 统计显著性及局限性


  • 使用四分位均值和95%置信区间进行评估(图表7),进一步验证PPM+sRT在多种环境与随机初值下保持显著优势。

- 传统方法统计指标(图表8)亦提供对比参考,强调DRL技术的领先地位。
  • 研究团队诚实指出策略收益与波动风险的权衡问题,即使夏普比率较高,也不是所有实例中最大回撤最小,提示该模型在实际应用时需综合考量风险控制。

- 由于金融市场的不确定性及环境变化,历史表现优异不必然代表未来表现,且风险提示强调不构成投资建议。[page::13]

---

三、图表深度解读



图表1(文章框架)[page::3]



该思维导图清晰展示了本文逻辑脉络——从问题提出(DRL在PM中对泛化能力和奖励设计的挑战),文献综述到基于对比学习与奖励平滑的算法设计,再到实证展示,最后总结和贡献明确,体现报告结构严密。

图表2(对比学习基本思想)[page::7]



图示说明了如何通过资产当前和未来价格走势进行正对匹配,图中的资产Node(A,B,C,D)以边上的相关性系数展示资产间的正负相关关系。该可视化帮助理解财富分配决策中相关资产表征生成的直观机制。对比学习通过最大化正对相似度并最小化负对相似度训练编码器,提升特征区分能力。

图表3(网络架构图)[page::9]



具体展示网络的卷积层结构:输入是过去31天、每日3个价格维度的市场数据,经过1×2和1×30卷积提取特征,再经过1×1卷积融合资产权重和偏置项,最终输出资产权重。该设计反映了策略网络专注于时序特征与跨资产信息融合。

图表4与图表5(美国股票市场与加密货币市场不同策略表现)[page::11]



两个表格详细列明各种策略在不同市场行情中的表现指标(投资组合价值PV、夏普比率SR和最大回撤MDD):
  • 重点凸显“PPM+sRT”模型在多数市场状况下投资组合价值和夏普比率均为最高或接近最高,尽管最大回撤数值有时较高,体现收益与风险的平衡问题;

- 传统的buy & hold等策略在上涨市场中表现实在,但在波动或下跌市场阶段受损严重;
  • DRL深度网络模型(DPMv2,SARLv2)表现优于传统PM,但低于提出的新模型,验证对比学习及奖励平滑的有效性。


图表6(美国与加密货币市场投资组合价值时间序列)[page::12]



各模型投资组合价值随时间累积变化图形直观显示:
  • PPM+sRT红线逐步领先,体现稳定的增值趋势;

- 部分基线在波动市场中暴跌,表现不稳定;
  • 加密货币市场更体现出PPM+sRT强大的交易频率优势和回报能力。


图表7(置信区间统计图)[page::13]



横向柱状图显示PPM+sRT在投资组合价值和夏普比率上的显著优势,置信区间较宽但均超越其他模型,说明该方法的性能不随参数随机变化而减弱。

---

四、估值分析



本文主要属于方法论创新与模型性能评价报告,未涉及传统金融资产估值、市场预测或公司价值分析,因此不涉及估值模型(DCF、PE倍数等)解析。其核心“估值”层面表现为对投资组合不同策略回报的量化比较和统计评估。

---

五、风险因素评估


  • 历史数据限制风险:模型基于历史市场数据训练,未来市场环境的不可预测变化可能导致效果下降。[page::0][page::13]

- 市场变化与模型适应风险:如市场结构性变革可能使训练得出策略失效。对比学习虽提升泛化能力,但非万能。
  • 高波动风险:夏普比率和最大回撤指标表明,模型收益往往伴随较高风险,需谨慎使用。

- 模型复杂度与训练不确定性:深度强化学习需大量训练,训练过程对随机初始化敏感,存在一定不确定性。[page::10][page::13]
  • 非投资建议声明:全文明确指出不构成投资建议,仅供学术研究参考。


---

六、批判性视角与细微差别


  • 报告中对比学习的优越性论断依赖于NRI自动判定关联资产对,然而其无监督训练过程可能存在噪声,潜在影响模型稳定性,细节未深度披露。

- 奖励平滑设计虽有效减少激进行为,但在极端行情下是否会限制策略灵活性,需进一步研究。
  • 模型在最大回撤指标上并非最优,说明收益风险的平衡仍是挑战,实际交易中需要配合风险管理手段。

- 由于多市场多时间段测试,但测试期数据不乏重叠或相关性,未来需更多独立验证以证实泛化能力。
  • 对比学习和奖励平滑的权重调整依赖经验法则(如$\alpha = \exp(-R_T)$),对方法鲁棒性具有一定依赖。

- 文章自我批判和强调限制较为充分,未出现明显逻辑矛盾,分析严谨。

---

七、结论性综合



本报告系统展示了针对投资组合管理问题的深度强化学习方法创新——结合对比学习与奖励平滑技术,以提升智能体在犯模拟多变资产市场条件下的泛化与稳健表现。通过自动推断资产间正负相关关系,进行多任务联合学习,模型能够捕捉资产间未来价格走势的潜在联系,实现对市场动态的有效响应。

实证研究中,该模型在美股和加密货币两大典型市场的多种行情下均取得了领先的投资组合价值和夏普比率,尤其在加密货币市场表现更佳,证明该方法有效支持复杂市场环境中的动态资产配置。消融实验进一步佐证了对比学习和奖励平滑的协同增效。统计意义上的置信区间分析展现了结果的稳健性。

同时,最大回撤指标表明策略仍面临收益波动风险,且金融市场不确定性使历史表现不能完全保证未来收益。报告充分披露了该风险,并未将其作为投资建议,而是提供一种研究范例与技术提升路径。

综上,作者的总体判断是,该基于DRL的对比学习与奖励平滑框架实现了投资组合管理的显著性能提升,并为未来金融智能交易领域提供了新的方向与工具。[page::0],[page::4],[page::7],[page::11],[page::13],[page::14]

---

参考图表索引


  • 图表1:展示文章框架和逻辑链条[page::3]

- 图表2:示意对比学习如何根据资产未来价格走势构造正负对[page::7]
  • 图表3:策略网络详细卷积神经网络架构图示[page::9]

- 图表4&5:分别为美国股市和加密货币市场不同策略的投资组合价值、夏普比率及最大回撤统计[page::11]
  • 图表6:投资组合价值时间序列曲线,体现策略随时间表现[page::12]

- 图表7:投资组合价值及夏普比率的四分位均值及95%置信区间条形图,体现统计显著性[page::13]
  • 图表8:传统策略统计指标对比补充[page::13]


---

结语



此份《深度投资组合管理中的对比学习和奖励平滑》报告,详细介绍了当前前沿的DRL技术在金融投资组合策略优化中的运用创新。文章结构严谨、内容丰富,涵盖了模型原理、技术实现、实证评估及风险提示,适合具备一定金融工程及人工智能背景的专业研究人员、策略开发者进行学习和参考。报告数据翔实,图表辅助直观,具有较高的学术与实务价值,但对其应用效果需保持审慎态度,结合实际投资场景综合考量风险管理因素。

---

(全文基于提供内容精确解读,所有引用均标注溯源页码,确保分析的溯源与严谨性。)

报告