`

LLM-Enhanced Black-Litterman Portfolio Optimization

创建于 更新于

摘要

本论文提出了一种系统化框架,将大型语言模型(LLM)的回报预测及其不确定性转化为Black-Litterman投资组合优化模型中的核心输入——投资者观点及其置信度。通过在标普500成分股上的回测实验,结果表明由顶尖LLM驱动的组合在绝对收益和风险调整收益方面均显著优于传统基线模型。研究发现,不同LLM展现出截然不同且稳定的投资风格,而模型选择即是投资风格的选择,其表现依赖于市场环境的一致性。这为将自然语言处理模型应用于量化投资提供了新视角和方法论基础 [page::0][page::1][page::4][page::5][page::7]

速读内容


研究框架设计与数据处理 [page::2][page::3]


  • 利用Black-Litterman模型,通过Bayesian方法融合市场均衡收益与LLM生成的观点。

- 数据覆盖2024年6月至2025年6月,共13个月,分为3个月验证期与10个月测试期。
  • 投资组合每两周调仓一次,输入为过去两周股票及市场数据,输出为未来两周预期收益。


LLM模型选择与预测视角结构 [page::2][page::3]


| 模型名称 | 参数规模 | 发行时间 | 开发商 |
|------------------|----------|----------|----------------------|
| Gemma-7B [27] | 7B | 2024年2月 | Google DeepMind |
| Qwen-2-7B [32] | 7B | 2024年6月 | 阿里云 |
| LLaMA-3.1-8B [6] | 8B | 2024年7月 | Meta |
| GPT-4o-mini [25] | 约8B | 2024年7月 | OpenAI |
  • 提出结构化Prompt设计,通过系统与用户两个阶段引导模型输出单一数字的未来两周日均收益预测。

- 多次采样(N=100)后,计算均值作为视角收益,方差作为置信度矩阵的元素。

实验及性能表现 [page::4][page::5][page::6]



| 指标 | EW | MVO | BLM-Gemma | BLM-Qwen | BLM-Llama | BLM-GPT |
|------------------|--------|--------|-----------|----------|-----------|----------|
| CAGR ↑ | 0.1907 | 0.0607 | 0.1590 | 0.2811 | 0.2751 | 0.0768 |
| 年化夏普比率↑ | 0.8937 | 0.2793 | 0.6386 | 1.0624 | 1.2286 | 0.3619 |
| 年化波动率↓ | 0.1938 | 0.2841 | 0.2481 | 0.2413 | 0.1975 | 0.2093 |
| 最大回撤(MDD)↓ | -0.1688| — | 0.1551 | -0.1375 | -0.1383 | 0.1649 |
  • BLM-Qwen与BLM-Llama模型表现最佳,分别在绝对收益(CAGR)和风险调整收益(夏普比率)上显著超越传统均衡及MVO策略。

- BLM-Llama具有高凸显差异化投资观点,波动较大但策略高效;BLM-Qwen表现稳定,观点分布偏乐观中庸。
  • BLM-Gemma持悲观观点,表现受限;BLM-GPT表现中规中矩,情绪波动较大。


LLM投资风格分析 [page::5][page::6]


  • BLM-Llama视角收益分布极为分散(+0.1786均值,0.6903标准差),表现出强烈的多空对比和高信念投资。

- BLM-Qwen视角集中,波动最低(Std:0.2872),表现为稳健乐观。
  • BLM-Gemma持续悲观,均值为-0.3847,预测稳健但偏负。

- 观点风格直接驱动组合表现,凸显了不同LLM“投资经理”角色的差异。

投资表现与市场情绪结合 [page::7]


  • 表现优异而稳定的模型(BLM-Llama和BLM-Qwen)其观点整体乐观,与测试期的上涨市场环境高度一致。

- 表现不佳的模型(BLM-Gemma)持续悲观,与上涨行情背离,错失市场反弹机会。
  • 观点稳定性和情绪契合度成为投资成功的关键。


预测准确度与投资回报 [page::10]


| 指标 | MVO | BLM-Gemma | BLM-Qwen | BLM-Llama | BLM-GPT |
|------------|--------|-----------|----------|-----------|----------|
| MSE ↓ | 0.9376 | 1.2373 | 0.5125 | 0.5288 | 0.6505 |
| RMSE ↓ | 0.9683 | 1.1123 | 0.7159 | 0.7272 | 0.8066 |
| MAE ↓ | 0.6989 | 0.8608 | 0.5168 | 0.5281 | 0.5702 |
  • 预测误差最低的BLM-Qwen和BLM-Llama对应最高的投资收益和风险调整收益。

- MVO基准表现最差,说明基于历史均值的预估局限明显。
  • BLM-Gemma虽预测误差较高,但在框架中产生稳健的负向信号,表现仍优于MVO和BLM-GPT。


资产配置动态解析 [page::12][page::13]



  • LLM增强BLM策略动态调整权重,体现对市场与预测的快速响应。

- 基线策略(均等权重和传统MVO)权重相对稳定,缺乏对预测信号的主动调整。

深度阅读

详细解读报告:《LLM-Enhanced Black-Litterman Portfolio Optimization》



---

1. 元数据与概览


  • 报告标题:LLM-Enhanced Black-Litterman Portfolio Optimization

- 作者及机构
- Youngbin Lee(Elice, AI Quant Lab, MODULABS)
- Yejin Kim(Meritz Fire & Marine Insurance, AI Quant Lab, MODULABS)
- Juhyeong Kim(Mirae Asset Global Investments, AI Quant Lab, MODULABS)
- Suin Kim(Elice)
- Yongjae Lee(Ulsan National Institute of Science and Technology)
  • 发布日期:预计2025年,会议为ACM国际信息与知识管理大会(CIKM '25)

- 研究主题:融合大型语言模型(LLM)与Black-Litterman投资组合优化模型,实现更系统化和自动化的投资组合构建方法。
  • 核心论点概述

- 传统均值-方差优化面临参数敏感性问题,Black-Litterman模型通过融合市场均衡预期收益和投资者“观点”缓解了该问题。
- 目前,生成这些“观点”(即期望收益及信心水平)普遍依赖主观判断或零散定量模型,难以系统化和规避人类偏差。
- 本文创新之处在于提出了一套系统框架,将LLM的预测收益及预测不确定性转化为Black-Litterman模型中的投资观点与其置信度。
- 基于S&P 500成分股的回测显示,该框架驱动的投资组合表现优于传统基准(包含等权和均值-方差优化组合),且不同LLM呈现出独特且一致的“投资风格”。
- 选择LLM等同于选择一种投资风格,其成功依赖于与当前市场行情的匹配程度。
- 研究成果及代码公开于GitHub。

---

2. 逐节深度解读



2.1 引言(Introduction)


  • 关键内容

- 均值-方差优化受制于预期收益和协方差矩阵这一类输入参数的敏感性。
- Black-Litterman模型将主观投资观点作为贝叶斯先验,融合市场均衡收益,从而获得更稳定合理的预期收益估计。
- 本文关注于如何用LLM系统化生成投资观点及其置信度,而非开发新的时间序列预测模型。
- 这一系统化方法可以消除人工偏见,实现可扩展的定量投资观点生成。
  • 逻辑依据

- Black-Litterman改进了均值-方差模型的局限,但关键瓶颈是可靠的观点输入。
- LLMs具备处理复杂非结构化信息的天然优势,能为观点生成带来革命性方法。

2.2 相关工作(Related Works)


  • 2.2.1 Black-Litterman模型与观点生成挑战

- 传统模型依赖经验判断,容易产生认知偏差(如过度自信、羊群效应)。
- 机器学习被用于提高观点的客观性,但多基于结构化历史数据,无法有效处理非结构化信息来源。
  • 2.2.2 LLM在金融领域的应用

- LLM在金融文本理解、情绪分析和价值评估中已有多项研究,部分尝试用LLM进行收益预测。
- 存在的缺口:多聚焦于预测准确度,少关注如何将不确定预测系统化地融合进投资组合构建。
- 本文填补此空白,首次提出系统方法量化并融合LLM预测及其不确定性到Black-Litterman框架。

---

2.3 研究方法(Method)



2.3.1 数据说明(Data Description)


  • 选取市值最大的50只S&P 500股票,数据覆盖2024年6月至2025年6月。

- 数据分为两段:
- 验证期(3个月):用于调优Black-Litterman模型中的关键超参数τ。
- 测试期(10个月):用于盲测投资组合表现。
  • 投资组合每两周调仓一次,每次输入过去两周的股票价格及相关的公司元数据给LLM预测未来两周的收益。


2.3.2 LLM的选择与观点生成


  • 模型选择:

- 采用四个主流大型语言模型:Gemma-7B(Google DeepMind)、Qwen-2-7B(Alibaba Cloud)、LLaMA-3.1-8B(Meta)、GPT-4o-mini(OpenAI,估计参数约8B)。
- 所有模型知识截止时间均早于数据测试段,避免未来信息泄露。
- 模型均为instruction-tuned,保证预测稳定性。
  • 结构化提示设计

- 系统提示(system prompt)设定为“金融分析师”,要求模型输出未来两周的平均日收益率,且只输出单个浮点数字。
- 用户提示(user prompt)具体给出:
- 股票历史两周日收益序列
- 所属行业及大盘收益序列
- 股票标识和公司基本信息
- 预测收益按百分比形式给出(如-0.36表示-0.0036),提升数据区分度。

2.3.3 融入Black-Litterman模型


  • Black-Litterman简介:它通过贝叶斯方法,将市场均衡收益(基于CAPM、市值权重)和投资者观点结合,获得后验预期收益。

- 本文核心改进
- 由LLM多次(N=100)生成对每只股票的预测收益,求均值形成观点向量 \(\mathbf{q}\)。
- 观点置信度基于预测方差,形成对角线矩阵 \(\Omega\),反馈不确定性,权重自动调整。
- 观点与资产对应,通过身份矩阵 \(\mathbf{P}\) 映射(固有观点为单一绝对收益)。
- Black-Litterman的超参数τ用于平衡市场均衡收益和LLM观点的权重。
- 后验期望收益 \(\pmb{\mu}\) 被用作优化输入,计算最优资产配置 \(\mathbf{w}^\)。
  • 估值方程: 见文中Equation 1和2。


---

2.4 实验设计与结果(Experiment and Results)



2.4.1 实验设置


  • 四个基于不同LLM的Black-Litterman投资组合方案(BLM-Gemma,BLM-Qwen,BLM-Llama,BLM-GPT)。

- 基准包括:
- 市场基准(S&P 500指数)
- 等权分配投资组合(EW)
- 传统历史均值-方差优化(MVO)
  • 绩效量度全面,涵盖收益(CAGR、均值)、风险(年化标准差)、风险调整收益(Sharpe比率)及下行风险指标(最大回撤、VaR、CVaR)。

- 考虑实盘交易成本(0.1%调仓交易费用)。

2.4.2 超参数调优


  • τ表示Black-Litterman框架中对市场均衡预期和LLM观点权重的调节参数。

- 先基于验证集计算初步估计 \(\tau_{\mathrm{init}}\) ,通过LLM视角不确定性与市场波动率的均值比率定义。
  • 采用以该估计为中心的五点网格寻找最优τ(最大化验证期Sharpe比率)。


2.4.3 投资组合表现(RQ1)


  • 主要发现:

- BLM-Qwen与BLM-Llama表现最优,CAGR分别为28.11%和27.51%,显著优于EW(19.07%)和MVO(6.07%)。
- 风险调整收益(年化Sharpe)方面,BLM-Llama最高(1.2286),BLM-Qwen次之(1.0624),均远超EW(0.8937)及MVO(0.2793)。
- BLM-Llama同样具有较低波动率(0.1975),表明良好风险控制能力。
- 两者最大回撤均优于基准(-13.8%左右),展现较强资本保护。
- BLM-Gemma表现中庸,存在大幅承压倾向,负面偏差较大。
- BLM-GPT表现欠佳,接近MVO水平。
  • 结论:结构化LLM观点成功转化为超越传统投资组合的投资策略。


2.4.4 投资风格识别(RQ2)


  • 观点分布特征分析

- 通过图3和表4,展示每次重新平衡时各股票观点的分布。
- BLM-Llama具有最高波动性(Std=0.6903),观点分布极宽广,带有极端正负值,表现出“高置信度、强差异化”投资风格,形成明显择时择股偏好。
- BLM-Qwen观点最集中(Std=0.2872),均略为乐观,展示“稳定且审慎”风格。
- BLM-Gemma持续悲观(均值-0.3847),表现为“负面偏向、低置信度”风格。
- BLM-GPT介于两者之间,适度乐观且波动较大。
  • 意义:这些统计特征与投资表现紧密关联,显示“观点风格”是影响组合表现的根本动力。


2.4.5 业绩归因分析(RQ3)


  • 通过Fig.4,将各模型累计收益与观点中正面预测比例进行对比:

1. BLM-Qwen和BLM-Llama的乐观观点与市场上涨趋势一致,对业绩贡献显著。
2. BLM-Gemma持续悲观,错失行情反弹,表现不佳。
3. BLM-GPT观点摇摆,未能紧贴市场趋势,业绩平平。
  • 归因结论:投资组合表现与模型观点情绪一致性密切相关,表明模型“市场情绪校准能力”是关键成功因素。


---

3. 图表深度解读



3.1 图1:系统框架示意图(page 2)


  • 描述:图示讲述了从股票历史价格数据输入,通过LLM生成观点\(\mathbf{q}, \Omega\),融入Black-Litterman模型,输出资产配置权重\(\mathbf{w}^\),并投资执行,同时设置周期性重复。

- 解读
- 明确了LLM在模型中的角色是预测生成器,且观点带有不确定性(置信度矩阵)。
- 后端投资组合优化基于更新后的后验期望收益。
- 周期性迭代支持动态调整和时变市场适应。



3.2 图2:累计收益对比(page 4)


  • 描述:各策略从2024年9月至2025年6月的累计收益曲线对比。

- 关键趋势
- BLM-Llama和BLM-Qwen策略显著跑赢市场及等权、MVO基准。
- BLM-Llama在多数时间段领先,收益波动虽较大但上升趋势明确。
- 基准指数涨幅较缓,波动性高。
  • 文本联系

- 佐证了量化性能展示章节的结论,凸显LLM观点方法在实证中优势明显。



3.3 图3:LLM观点分布箱型图(page 5)


  • 描述:四个策略在各调仓周期的预测收益分布情况。

- 解读
- BLM-Llama波动最大,存在极端值,观点多样且极端。
- BLM-Gemma极度偏负,观点集中于较低收益区。
- BLM-Qwen观点稳定且集中。
- BLM-GPT中庸且略波动。
  • 意义

- 支撑文章中对各模型“风格”差异的统计解释。



3.4 图4:观点情绪与收益相关(page 7)


  • 描述:不同策略累计收益叠加底色(观点中正面预测比例),颜色由红(悲观)至绿(乐观)映射。

- 观察
- BLM-Qwen和BLM-Llama绿色主导,收益趋势上升且稳定。
- BLM-Gemma红色/黄色较多,收益平稳或下滑。
- BLM-GPT观点反复无常,收益无显著趋势。
  • 文本连接

- 说明一致的正面观点与市场上涨环境大幅关联,成为超额收益关键。



3.5 图7与图8:资产配置动态(pages 12-13)


  • 图7描述:基于LLM的组合每次调仓后的具体资产权重分布。

- 发现BLM-Llama分配的资金集中于部分高信心资产,体现高置信度策略。
- BLM-Qwen权重更均匀,符合其稳定乐观观点。
- BLM-Gemma整体资产权重较分散,且多为低比重。
  • 图8描述:传统基准组合权重动态。

- EW组合为完全均匀,权重无变动。
- MVO组合基于历史参数,权重波动中规中矩。
  • 对比意义

- LLM驱动的组合体现动态调仓能力及基于观点差异性的差异配置。
- 传统基准缺乏此类信息驱动的灵活性。





---

4. 估值分析


  • 本文的投资组合优化基于Black-Litterman模型,结合LLM生成的观点形成后验收益向量。

- 使用均值-方差最优化问题解决权重,目标为在给定风险厌恶系数 (\(\lambda=0.1\)) 下最大化组合预期收益。
  • Black-Litterman模型的核心贡献是通过置信度加权结合投资观点,避免传统均值-方差模型对参数的敏感性。

- 本文创新点在于观点及置信度由LLM的多次预测产生,置信度自动根据预测方差调整,强化理性输入。
  • 估值过程未直接涉及其他资产定价模型或折现率应用,主要是基于统计协方差和后验预期收益计算。


---

5. 风险因素评估


  • 潜在主要风险

- 预测错误风险:LLM预测的视图本质上具有不确定性,错误预测可能导致投资组合失衡。
- 过拟合风险:尽管时间分割进行了严格验证,LLM可能在特定市场条件下过拟合过去模式,难以适应新型多变市场。
- 市场环境不匹配风险:报告强调LLM选择应考虑市场行情匹配,不当模型选用可能导致重大损失。
- LLM本身的偏见和不稳定性:部分LLM表现出明显偏见(例如BLM-Gemma的悲观倾向),该偏见会转化为投资失败。
- 数据延迟与信息质量风险:LLM输入基于有限历史窗口且无外部文本信息,可能忽略关键公告及突发事件。
- 操作风险与交易成本:两周频率调仓带来交易成本,过度交易可能侵蚀收益。
  • 缓解策略

- 通过置信度权重自动调整减少极端错误观点影响。
- 验证和调参过程选取最优超参数τ。
- 结合多模型风格识别,理论上可实现动态模型切换以应对市场变局(未来研究方向)。
  • 风险发生概率未显式量化,但多项实验表明调优的τ起到一定防护作用。


---

6. 审慎视角与细微差别


  • 本文创新点在于系统化将非结构化文本预测转变为量化视图输入Black-Litterman模型,填补了过去研究空白。

- 报告强调LLM“投资风格”选择的重要性,这提示并非寻找预测最优模型,而是风格与市场匹配。
  • 但本文实验仅限于50支大型股且测试期为10个月,样本规模和时间跨度有限,可能限制结论的普适性。

- LLM视图的置信度量化基于预测方差,模型将视方差完全视为不确定性,但实际可能混有模型内部偏差,未来可引入更细致的置信度衡量体系。
  • 交易成本设定较低(0.1%),在超高频交易环境下或对冲基金运营中可能不足以覆盖实际费用。

- 本文未涉及如何结合新闻及文本外部信息,未来可进一步扩展提高预测准确度。
  • 文章强调LLM知识截止时间在验证前,排除未来信息泄露风险,但未知LLM内在训练数据覆盖是否间接包含相关信息仍属黑箱。

- 投资视图完全基于统计数据,未尝试融合宏观经济或基本面分析知识。

---

7. 结论性综合



本文提出了一套创新性的系统框架,将LLM生成的未来收益预测及其不确定性结构化为Black-Litterman模型的投资者观点及置信度输入,实现投资组合的科学构建。研究通过对S&P 500大型股票的实证回测验证了该方法的有效性,主要贡献和发现包括:
  • 该框架显著提升投资组合的绝对收益和风险调整后收益,尤其是BLM-Qwen和BLM-Llama两个模型,分别体现了“稳定乐观”和“高置信差异化”两种投资风格。

- LLM投资观点的统计特征明显不同,表现出不同的“投资风格”,这直接决定了投资组合绩效,强调模型选择是战略风格选择,非纯预测准确度比拼。
  • 观点的置信度由LLM预测的多次采样方差自动估计,使得模型能够动态调控观点权重,降低预测不确定性对风险的负面影响。

- 绩效归因分析显示模型的整体正负观点比例与市场环境的一致性,是驱动超额收益的关键因子。
  • 实际投资组合动态调仓权重表现豪华,支持框架的实时适应能力及细粒度管理特性。

- 该方法在排除未来数据泄漏风险的条件下具有良好实用价值和推广潜力,未来研究方向包括融合文本信息、动态模型组合策略及多周期时序扩展。

整体来看,本文不仅实现了Black-Litterman模型输入观点的系统化自动生成,解决了传统视角生成的主观性和不可扩展性,也展现了LLM在金融量化投资中作为信号源的巨大潜力,开创了语言模型与经典资产配置理论的有机融合新范式。

---

参考标注



所有引用的结论均详见对应页面:
  • 研究背景及方法介绍部分:[page::0] [page::1] [page::2] [page::3]

- 投资组合设计、超参数调优:[page::3] [page::4]
  • 实证回测表现详解、观点统计分析及业绩归因:[page::4] [page::5] [page::6] [page::7]

- 模型误差分析,视图统计及资产配置动态:[page::10] [page::11] [page::12] [page::13]

---

以上为本文的极其详尽且结构化的分析报告剖析,涵盖核心思想、方法细节、实验结果、图表解读及潜在风险,系统性揭示了该研究的创新点和实践价值。

报告