`

ON EVALUATING LOSS FUNCTIONS FOR STOCK RANKING: AN EMPIRICAL ANALYSIS WITH TRANSFORMER MODEL

创建于 更新于

摘要

本文系统评估了多种基于Transformer模型的损失函数在S&P 500股票日收益排名预测中的表现,比较了点对点、成对及列表式排名损失对模型盈利能力和风险控制的影响。结果显示,Margin、ListNet和BPR等排名损失显著优于传统MSE,提升了年化收益率和夏普比率,同时优化了最大回撤风险,为基于深度学习的量化选股模型的损失函数设计提供了实证指南[page::0][page::1][page::2][page::3][page::4]。

速读内容


研究背景与目标 [page::0][page::1]

  • 股票排名是量化选股和组合管理的核心任务。

- Transformer模型适用于捕捉金融时间序列的复杂时空依赖。
  • 本文关注不同损失函数(点对点、成对、列表式)对Transformer模型股票排名效果的影响。


模型架构与方法论 [page::2][page::3]

  • 采用PortfolioMASTER,包含时序和跨股票空间自注意力模块。

- 输入特征为每日收益与换手率,窗口长度20天,股票数为S&P 500挑选的110只。
  • 损失函数包括基础MSE、结合点对点和成对的多种排名损失及ListNet列表式损失。

- 投资组合构建为每日前5排名股票等权重多头,模拟实际投资绩效。

关键结果比较 (绩效指标表) [page::4]


| 损失函数 | 累积收益率CR(%) | 年化收益率AR(%) | 年化波动率AV(%) | 夏普比SR | 最大回撤MDD(%) | 斯皮尔曼IC | P@5 | 测试集MSE损失 |
|----------|----------------|-----------------|----------------|---------|----------------|----------|-----|-------------|
| MSE | 79.28 | 14.78 | 15.79 | 0.6637 | -19.58 | 0.0754 | 0.3576 | 0.00286 |
| Margin | 89.07 | 16.23 | 15.85 | 0.7529 | -18.33 | 0.0758 | 0.3593 | 0.00632 |
| ListNet | 87.41 | 16.00 | 15.79 | 0.7407 | -18.36 | 0.0761 | 0.3595 | 1.01212 |
| BPR | 85.68 | 15.74 | 15.89 | 0.7200 | -15.77 | 0.0733 | 0.3578 | 0.01145 |
  • Margin和ListNet在年化收益率和夏普比率上表现最佳,BPR则在最大回撤风险控制上优异。

- MSE基础损失虽表现稳定,但不及排名损失优越。
  • 预测排名质量指标(IC、P@5)相差不大,但实际投资绩效显著不同。


量化损失函数设计启示 [page::3][page::4]

  • 成对损失(Margin、BPR)通过强化排名边际区分提升模型判断力,对选股更有利。

- 列表式损失(ListNet)优化整体排名结构,捕获全局相关性有效。
  • 传统MSE未直接针对排名设计,难以充分利用排序关系。

- 结果表明,损失函数设计对策略表现至关重要,影响收益和风险控制。

未来研究方向 [page::4]

  • 考察更多列表式损失函数及组合损失的自动调节权重策略。

- 扩展至更大规模股票池及不同市场环境下验证模型泛化能力。

深度阅读

金融研究报告详尽解读与分析



---

1. 元数据与概览 (引言与报告概览)



报告标题On Evaluating Loss Functions for Stock Ranking: An Empirical Analysis with Transformer Model

作者:Jan Kwiatkowski、Jarosław A. Chudziak
机构:Warsaw University of Technology, Institute of Computer Science
发布日期:2025年10月17日
主题:本报告聚焦于金融领域中基于深度学习的股票排序任务,特别探讨不同训练损失函数对Transformer模型在股票排名效果及其衍生投资组合表现的影响,针对标普500股票数据进行了实证分析。

核心论点及目标
报告旨在填补“先进排序损失函数(pointwise、pairwise、listwise)在Transformer模型中用于股票回报预测及排序的效果评估缺口”。它提出,“正确的排序能力”比单纯预测未来收益值准确率更加重要,因为模型需辅助构建收益优异的投资组合。作者系统对比多种损失函数,并通过在标准深度学习架构(基于PortfolioMASTER Transformer模型)上实证,揭示不同损失函数在捕获跨股票横截面关系和时间序列模式方面的表现差异,最终为定量投资策略的优化提供实用指南。

---

2. 逐章深度解读



2.1 引言 (Section 1)



金融市场本质上动态多变,噪音大,且资产间关系复杂多样。以往包括ARIMA等统计模型虽有广泛应用,但在捕捉长期依赖和多维关联上存在局限,而Transformer模型因其自注意力机制,适合处理复杂时间序列与资产间相互关系,提升预测潜力。传统最小化预测误差的损失函数并不专注于排序任务,可能导致虽预测准确但实际投资排名错误,影响投资收益。

因此,作者提出应探讨采用专门的排序损失函数,借鉴信息检索等领域的pointwise、pairwise、listwise排序策略应用于金融股票预测,进而提升排名质量,优化投资组合效果。[page::0][page::1]

2.2 相关工作 (Section 2)



报告对以下领域文献回顾做了梳理:
  • 深度学习在金融预测中的应用:包括早期RNN、LSTM及CNN,用于价格走势预测;近年来Transformer在时间序列领域的快速发展,以及其在金融特殊任务中的应用和改进。
  • 学习排序(Learning-to-Rank,LTR)方法:三大策略被介绍及其在IR领域的成熟应用:

- Pointwise:将排名简化成单项评分回归或分类任务。
- Pairwise:关注两个项目间的相对顺序(如RankNet、Margin Ranking Loss)。
- Listwise:直接对整个列表排序进行优化,用交叉熵等手段强化整体排名(如ListNet、ListMLE)。
  • Loss函数关键性:介绍了信息检索及神经架构搜索(NAS)中,适当的排名损失函数促进了模型的实际表现提升,强调损失设计对模型效果的显著影响。


最后指出,金融领域尤其是结合Transformer的股票排序任务中,尚未有系统比较多种排名损失函数的研究,提出此为本报告贡献所在。[page::1]

2.3 方法论 (Section 3)



2.3.1 问题定义


  • 任务被形式化为:每日股票回报预测问题,重点是在收益预测后进行股票排序,从中选出Top-k($k=5$)构建等权重组合,日频重平衡。

- 输入为形状为 $\bar{T}\times N \times F$ 的张量,其中 $\bar{T}=20$(历史窗口天数),$N=110$(对应标普500中各行业选出的10颗股票),$F=2$(每日回报和成交额/价格比即换手率两个特征)。
  • 模型映射函数为 $f{\theta,Lj} : \mathbb{R}^{T \times N \times F} \to \mathbb{R}^N$,通过不同损失 $Lj$ 优化参数 $\theta$。

- 回报定义为 $r
i^{t+1} = (pi^{t+1} - pi^t)/pi^t$,即次日收益率。

此定义强调损失函数的选择是模型学习排序能力的关键变量。[page::2]

2.3.2 模型结构


  • 采用PortfolioMASTER Transformer架构,结合时间与空间自注意机制:

- 时间自注意:单只股票的历史序列独立处理,捕获时间动态趋势。
- 空间自注意:跨股票在同一时间步的相互作用,用于挖掘多资产间的共变关系。
  • 特征首先投影到维度 $D$,加入位置编码,经过多层时空编码器。

- 采用最终时间聚合机制整合信息,输出对应股票的回报预测。
  • 超参数如层数、维度、头数等针对每个损失函数单独调优。[page::2]


2.3.3 损失函数详解



分为三类:
  • 点对点 (Pointwise):Baseline为均方误差 (MSE)

\[
L
{\mathrm{MSE}} = \frac{1}{N} \sum{i=1}^N (\hat{y}i - yi)^2
\]
  • 混合点对点-成对 (Combined pointwise-pairwise)

\[
L
{\mathrm{Combined}} = (1-\lambda) L{\mathrm{MSE}} + \lambda L{\mathrm{Pairwise}}
\]
常见pairwise包括:
- Hinge Loss(含margin m)
- Margin Ranking Loss
- Bayesian Personalized Ranking (BPR)
- RankNet
- 权重变体WHR1、WHR2:对不同排名位置赋予不同权重,强调Top-k排序准确性。
  • 列表式 (Listwise):以ListNet为代表,通过softmax概率分布,计算预测与真实排名分布间交叉熵损失,调节温度参数 $\tau$ 控制分布尖锐程度:

\[
L{\mathrm{ListNet}} = - \sum{k=1}^N P{\mathbf{y}}(k; \tau) \log P{\hat{\mathbf{y}}} (k; \tau)
\]

表1对各损失函数做了形式化展示,解释各个损失的计算核心公式及参数,体现了多样性和复杂度。[page::2][page::3]

2.4 实验设计 (Section 4)


  • 数据集

- 以标普500为核心,挑选11个GICS行业各10只头部市值股票,共110只,时间跨度2015-2024年。
- 特征为每日收益率与换手率,标准化处理。
- 使用20日滚动窗口做输入。
  • 训练流程

- 时间序列切分:70%训练,15%验证,15%测试。
- 优化器:AdamW,实施权重衰减和学习率调度,早停判断依据验证损失。
- 每种损失的超参数通过网格搜索调整,并单独调优模型结构超参数。
  • 投资组合模拟

- 每日重新衡量,选择预测排名前5的股票作等权重多头组合,持仓1天。
  • 评价指标

- 投资组合层面:累计收益率(CR),年化收益率(AR),年化波动率(AV),夏普比率(SR),最大回撤(MDD)。
- 预测质量:日均横截面斯皮尔曼相关系数(IC Spearman),IC信息比(ICIR),Top-5准确率(P@5),以及测试集上的MSE损失。

该设计算法严谨,模拟了实际投资决策流程,嫁接量化预测与投资业绩的桥梁。[page::3]

2.5 实验结果与讨论 (Section 5)


  • 组合表现聚焦

- Margin loss取得最高年化收益16.23%、夏普比率0.7529,表现最优。
- ListNet紧随其后,年化收益16.00%,夏普比率0.7407,并拥有最低波动15.79%。
- BPR在最大回撤表现最佳,仅-15.77%,风险控制优异,同时保持良好的风险调整收益(SR=0.72)。
- MSE基线性能尚可,但被多个排名损失明显超越。
- 加权Hinge变体(WHR1, WHR2)及普通Hinge,在收益与风险表现上较基线有小幅提升,但未达到Margin、ListNet或BPR级别。
  • 预测指标与组合表现不完全一致

- 斯皮尔曼相关(IC Spearman)在绝大多数损失间接近于0.073至0.077,Top5准确率均约为0.358至0.359。
- RankNet虽获得最高IC Spearman(0.0767),其投资组合收益表现中等,暗示技术指标准确性不一定完全反映最终投资效果。
- ListNet的测试集MSE最高,反映其并非以精确预测值为目标,而是优化整体排序结构。
  • 损失设计影响分析

- 成对损失如Margin和BPR,因明确强化两项间差距,鼓励模型做出更“有信心”的排序决策,尤其有助于Top-k股票筛选。
- ListNet通过整体列表优化,捕捉更全局排序关系,提升组合总体效率。
- BPR的优势表现在稳定减少回撤,暗示其对风险调控更有利。

报告有效阐释了损失函数不仅仅作为训练指标,更通过影响模型对错误类型和排序区间的惩罚权重,深刻改变投资组合构建的实际表现。[page::3][page::4]

2.6 结论 (Section 6)


  • 选择适合的排序损失函数对Transformer模型在股票排序及基于排名的组合表现至关重要。

- 传统MSE虽然简单有效,然而专门设计的Margin、ListNet及BPR能显著提升投资回报质量和风险控制能力。
  • 投资表现与传统预测指标(IC、P@5)不一定完全吻合,凸显损失函数在决策和选股权重分配中的核心作用。

- 贡献了对多种排名损失函数进行整体评测的基准,为量化金融研究者与实务操作提供了重要参考。
  • 建议未来研究探讨更多样的列表损失函数,自适应调整复合损失权重,以及在更多市场/组合规则下验证模型一般化能力。


---

3. 图表深度解读



图表1:损失函数分类与核心公式综述


  • 该表系统罗列了:

- MSE (点对点)
- 多种结合点对点和成对的复合损失(Hinge,Margin,BPR,RankNet),详列其数学表达及调节参数(如margin、权重$\lambda$、scale因子$\alpha$)。
- ListNet列表式损失与其温度参数$\tau$的定义。
  • 体现了学习过程中误差定义的多元选择,从直接回归误差到成对排序差异,再到整体排序概率分布优化。

- 此表对理解后续训练过程和损失设计极为重要,展示损失多样性和可调节性。[page::2]

表2:各损失函数训练模型在标普500测试集Top-5组合的表现对比



| 损失函数 | CR(%) | AR(%) | AV(%) | SR | MDD(%) | IC Spearman | Std IC | ICIR Spearman | P@5 | Test Loss (MSE) |
|-----------|-------|-------|-------|-------|--------|--------------|--------|---------------|-------|-----------------|
| MSE | 79.28 | 14.78 | 15.79 | 0.6637| -19.58 | 0.0754 | 0.0994 | 8.8076 | 0.3576| 0.00286 |
| Hinge | 82.90 | 15.33 | 15.79 | 0.6984| -19.58 | 0.0762 | 0.0991 | 8.8432 | 0.3586| 0.00301 |
| Margin | 89.07 | 16.23 | 15.85 | 0.7529| -18.33 | 0.0758 | 0.0989 | 8.8520 | 0.3593| 0.00632 |
| BPR | 85.68 | 15.74 | 15.89 | 0.7200| -15.77 | 0.0733 | 0.1005 | 8.6915 | 0.3578| 0.01145 |
| RankNet | 80.78 | 15.01 | 15.82 | 0.6771| -18.97 | 0.0767 | 0.0991 | 8.8422 | 0.3586| 0.01909 |
| WHR1 | 82.40 | 15.25 | 15.78 | 0.6938| -19.54 | 0.0763 | 0.0991 | 8.8448 | 0.3593| 0.00352 |
| WHR2 | 81.84 | 15.17 | 15.83 | 0.6866| -19.74 | 0.0764 | 0.0991 | 8.8470 | 0.3582| 0.00300 |
| ListNet | 87.41 | 16.00 | 15.79 | 0.7407| -18.36 | 0.0761 | 0.0990 | 8.8482 | 0.3595| 1.01212 |

解读
  • 收益与风险:Margin和ListNet拥有最佳的年化收益率和夏普比,BPR则最大回撤最小(-15.77%),表明更佳的风险控制;普通MSE虽基线尚可,但收益和风险表现均不及排名损失。

- 预测指标:IC和P@5指标均较接近,显示模型整体预测排名能力较为一致,然而这些指标与最终投资回报的相关性不强,强调损失函数形态影响对实战收益转化能力。
  • 测试误差差异:MSE最低,说明MSE损失专注于预测精度,而ListNet最高,凸显该损失非传统拟合误差,而是优化排名分布。


此表为全报告核心量化实证证据,展示不同损失达成的多维权衡,明晰损失函数选择对应投资表现差异。[page::4]

---

4. 估值分析



本报告属于机器学习模型评估和实证研究范畴,不涉及传统意义的公司或资产估值,如DCF、市盈率等财务估值方法分析。因此无传统估值方法论述,报告关注模型训练目标函数(即损失函数)对投资表现的影响,可以视为对模型优化“目标价值”即排序能力和最终投资效果的探索。

---

5. 风险因素评估



报告未用专门章节展开风险分析,但隐含的风险主要包括:
  • 模型泛化能力风险:训练数据来源限制(110只样本,选取标准),市场环境依赖(过去9年数据),未来波动或结构变化可能导致模型失效。

- 过拟合风险:超参数调优和早停策略虽防止过拟合,但模型复杂度和数据适配度可能仍存在隐患。
  • 市场风险:任何基于历史数据的统计模型对罕见极端事件(黑天鹅)无完全预测能力。

- 损失函数适应性风险:排名损失函数设计参数和权重需细致调节,错误选择可能导致投资决策偏离真实价值。

报告建议未来扩展工作验证广泛市场条件和全标普500样本,验证模型稳健性并分析损失函数自适应调节机制以缓解风险。[page::4]

---

6. 批判性视角与细微差别


  • 损失函数选择与测试损失异常:ListNet的高测试MSE恰恰体现模型不追求传统预测准确度,而是整体排名质量,提醒投资者损失函数选择对结果定义的根本影响,简单比较MSE不可作为唯一评价指标。

- 预测指标与投资表现不一致:IC最高并不必然带来最高投资回报,暗示评价指标需要与投资实际策略更紧密结合,提示该领域未来可探索更符合实际投资需求的评价指标。
  • 数据选择偏差:仅选取标普500中每行业头部股票,可能掩盖小市值或非主流股票的不同表现,限制多样化投资分析的结论。

- 模型细节调整:各损失函数分别调优超参数,可能带来调参效应偏差,未来工作应统一评估标准。

总体,报告数据驱动严谨,理论联系实际清晰,但仍有进一步完善空间,特别是在广泛泛化与风险评估方面。[page::3][page::4]

---

7. 结论性综合



本报告聚焦于量化金融中的股票排名问题,创新性地结合了多种先进的排名损失函数与Transformer深度学习架构,针对标普500市值代表股票构建并衡量模型在投资组合构建中的实际表现。研究贡献包括:
  • 明确指出标准MSE损失函数在股票排名任务中的局限,强调采用点对点、成对和列表式排名损失能更有效地引导模型捕获排序关系,优化前Top-k股票的选择。

- 通过设计严谨的实验,采用多项组合绩效指标和预测质量指标,构建综合评价系统,系统性验证了各种损失函数对策略表现的影响。
  • 数据展现,Margin Loss与ListNet损失带来的组合实际年化收益和夏普率显著超越基线,BPR损失则在最大回撤及风险控制方面表现最佳,充分说明损失函数设计对投资策略风险收益特征的关键作用。

- 实验中观察到排名质量评价指标(如IC Spearman)在不同损失下变化不大,但投资表现差异显著,强调损失设计在将预测能力转化为利润能力的决策环节重要性。
  • 报告提供的翔实基准,为研究人员和金融工程师在后续深度学习模型训练中选择合适损失函数提供有价值的理论及实证依据。


图表分析显示,包含加权和边际要求的pairwise损失在强制模型对高排名股票做出更自信区分的角度更适合实盘组合构建;而listwise损失则帮助模型捕获整体排名结构,兼顾全局排序质量。测试误差指标的差异警示仅以传统回归误差衡量模型优劣可能误导实务选择。

总的来看,作者以创新视角深化了金融机器学习中的损失函数设计问题,突破单一预测准确性界限,着眼于投资策略的实际经济效用,为金融市场中基于生成式Transformer模型的量化选股策略提供了关键的算法训练指导。

---

参考溯源标记



以上分析中的引用依据均标注了页码,便于查验与索引:
[page::0], [page::1], [page::2], [page::3], [page::4]

---

报告