`

【专题报告】基于价量数据的排序学习选股模型

创建于 更新于

摘要

本报告系统介绍了基于价量数据构建的排序学习(Learning to Rank,LTR)选股模型,回顾了排序学习的理论与算法进化过程,重点讲解了RankNet、LambdaRank及LambdaMart算法。基于沪深300、中证500、中证1000共1800只股票构建的股票池,使用LGBMRanker模型训练,回测结果显示自2015年11月至2023年8月累计收益167.31%,超额收益160.16%,年化收益率13.28%,夏普比率0.48,最大回撤34.58%,且在多数年份显著跑赢基准指数。策略2023年表现稳健,最新持仓偏防御性,增配银行及大盘股,体现出优异的收益与风险控制能力。[page::0][page::12][page::13][page::14][page::19]

速读内容


排序学习定义与算法演变 [page::0][page::4][page::5][page::6][page::7][page::8]

  • 排序学习是监督机器学习方法,关注多个对象的相对排序关系,常用评估指标为NDCG。

- 介绍RankNet基于配对概率损失函数训练神经网络,LambdaRank通过调整梯度函数实现对整体排序指标的优化。
  • LambdaMart结合LambdaRank梯度与GBDT决策树,实现基于梯度的树模型拟合。

- 通过数学推导详细解析了梯度计算与模型更新机制。

选股模型设计与数据特征 [page::0][page::10][page::11][page::12]

  • 采用沪深300、中证500、中证1000的历史成分股共1800只构建股票池,时间范围2014年11月-2023年8月。

- 选取价量数据及一致预期数据作为输入特征,应用包括滚动求和、求差分、分位数等多种算子做特征工程。
  • 设计30等级标签表示未来一个月涨跌幅的相对表现。

- 训练采用滚动训练法,每期选出前50只构建等权投资组合。

回测业绩表现 [page::13][page::14][page::15]




| 指标 | 数值 |
|------------|-------------|
| 累计收益 | 167.31% |
| 累计超额收益率 | 160.16% |
| 年化收益率 | 13.28% |
| 超额年化收益 | 12.40% |
| 夏普比率 | 0.48 |
| 最大回撤 | 34.58% |
| 最大回撤持续时间 | 507天 |
  • 策略年化收益率和夏普比率均体现正收益和较好风险调整能力。

- 策略年胜率88.89%,月胜率65.96%,均显著优于沪深300及各中证指数。
  • 分年度收益数据显示绝大多数年份策略表现已跑赢基准。

- 2023年1月至8月的累计收益18.10%,较基准超额13.14%。

策略组合行业与市值分布 [page::15][page::16][page::17][page::18]

  • 近期持仓主要集中于银行、建筑、房地产等行业,银行板块配比提升明显。

- 市值偏向小盘股,200亿以下个股占比较大,同时1000亿以上大盘股占比也较显著。
  • 9月份策略表现优于市场大盘,体现策略在震荡市中的风险控制能力。



量化策略核心总结 [page::10][page::12][page::13][page::14]

  • 通过LGBMRanker模型结合价量类高频数据与一致预期数据,训练排序模型预测单个股票未来走势优劣。

- 标签构建为基于未来1个月涨跌幅的30等级分组,形成监督训练目标。
  • 模型训练采用滚动窗口技术持续调优超参数保持策略时效性。

- 回测中选取排名前50股票构建投资组合,取得持续稳健的正收益及较高的胜率。

深度阅读

金融工程专题报告详尽分析 —— 基于价量数据的排序学习选股模型



---

一、元数据与报告概览


  • 报告标题:【专题报告】基于价量数据的排序学习选股模型

- 发布机构:华创证券研究所,金融工程组
  • 作者/分析师:证券分析师 杨宸祎

- 发布时间:2023年9月(具体见相关研究报告时间线及使用数据终点)
  • 主题范围:机器学习中的排序学习(Learning to Rank, LTR)算法在股市中基于价量数据的选股模型构建及其应用,涵盖算法理论、模型设计、实证回测、风险提示。

- 核心论点:通过采用机器学习的排序学习方法,利用深度改良的排序算法(包括RankNet、LambdaRank和LambdaMart)并结合沪深300、中证500、中证1000的成分股历史价量数据,构建出基于价量数据的选股模型,经过回测取得超额显著收益,表现稳健。
  • 评级和目标价:报告本身属于专题策略及模型介绍,无单一股票评级及价格目标。报告强调策略的超额收益能力及风险提示,提示基于历史数据,未来存在不确定性。

- 主要信息传递:机器排序学习方法,尤其结合增强梯度树模型的排序学习在A股市场的有效应用,证明了使用价量及一致预期等多维特征实现股票排序并构建有效投资组合的可行性及重要性。

---

二、逐节深度解读



1. 排序学习的定义与背景介绍(第0页、第4-5页)



关键论点
  • 排序学习是一种以机器学习方法解决排序问题的监督学习技术。重点从相对顺序关系出发,区别于传统分类和回归预测,强调对象间的相对位次。

- 排序学习广泛应用于搜索引擎、推荐系统等领域,匹配用户需求与信息的排序。
  • 信息选择的核心是相对排名问题,因此排序学习方法所设计的损失函数、评价指标和训练方法均不同于传统机器学习任务,采用以NDCG(Normalized Discounted Cumulative Gain)为代表的排序效果度量指标。


推理依据
  • 搜索引擎不同结果推荐的差异体现排序模型的质量,基于排名的实践需求催生排序学习。

- 评估指标不再是单点预测的准确度,而是排序相关的综合指标,因此模型训练过程要结合排序指标进行梯度优化。

重要数据/概念
  • 排序数据结构为(query, documents set)形式,模型输出为文档分值,再根据值生成排名。

- 排序学习评价标准如NDCG体现前几名排序准确性的关注,反映用户实际感知。

---

2. 排序学习算法演变(第5-9页)



关键论点
  • RankNet基于pairwise方法,用概率损失评估文档对间相对排序概率,采用交叉熵损失函数进行优化。

- LambdaRank对RankNet进行了梯度定义(lambda函数)的改进,将损失梯度调整为与整体排名指标(如NDCG)相关的加权梯度,提升排序指标优化效果。
  • LambdaMart以LambdaRank的梯度为目标变量,结合GBDT(梯度提升决策树)模型,通过迭代构建决策树拟合梯度,逐步逼近最优排序模型。


推理依据
  • RankNet通过比较文档对得分差异计算相对概率,交叉熵损失衡量预测概率与理想概率的接近程度,从而训练排序模型。

- LambdaRank将排序指标变化(𝚫NDCG)的绝对值作为权重引入梯度更新,提高对关键排名变动的关注,对合理排序结构更敏感。
  • MART利用残差与梯度构造提升树模型,实现非线性复杂关系的拟合。LambdaMart用lambda梯度替代传统残差,优化符合排序目标的模型拟合。


关键数据点
  • RankNet的概率损失函数形式、交叉熵表达以及梯度计算方式。

- LambdaRank中梯度调整公式:
$$ \lambda{ij} = \frac{\partial C{ij}}{\partial si} |\Delta NDCG{ij}| $$
权衡了个体文档对的排序影响。
  • GBDT迭代拟合梯度,采用Newton-Raphson方法求叶节点输出近似,使模型高效收敛。


复杂概念说明
  • 交叉熵损失函数:衡量两个概率分布(真实分布与模型预测)之间距离的指标,用于优化模型预测概率。

- λ梯度:表示调整模型中一个数据点对应分值时,对整体损失的贡献力度,是排序优化的核心。
  • GBDT/MART:通过迭代训练决策树,每棵树拟合前一次残差或梯度,能够捕捉复杂非线性关系。

- Newton-Raphson方法:数值求解方法,用于求叶节点输出参数的最优解。

---

3. 基于LGBMRanker的排序学习选股模型设计(第9-12页)



关键论点
  • 本文采用微软开源的高效梯度提升树框架LightGBM中的LGBMRanker模型,针对排序学习场景进行了定制,特别是排序相关损失函数和评估指标。

- 股票池由沪深300、中证500、中证1000历史成分股共1800只股票组成,确保样本稳定性和市场代表性,时间覆盖2014年11月至2023年8月。
  • 特征选取重点是价格和成交量相关的资金流入流出数据(大小单资金流)、个股涨跌幅等价量数据及其多种滚动算子特征,同时加入一致预期数据如营业收入、净利润等预测性财务指标滚动差分特征。

- 标签设计采用未来一个月月度涨跌幅分位作为排名标签,将样本划分为30组,数字越大说明个股未来表现越好,体现排序学习的核心思想。

推理依据
  • 采用价量数据作为主要特征,是基于资金流向往往在短期体现资金意愿与趋势的预判能力,结合一致预期数据丰富宏观微观信息。

- 标签从未来表现角度定义,有助于模型学习股票之间的相对优劣。
  • 滚动训练法动态调整模型超参数,利用历史滚动窗口防止数据泄漏,增加模型的时效性。


关键数据点
  • 总股票池数:1800只。

- 时间长度:2014年11月至2023年8月底。
  • 特征种类多样,包括滚动和分组算子,时间窗口分别取5日、20日、60日等多档。

- 标签分组30档,基于未来月度涨跌幅排序。

---

4. 回测结果分析(第12-18页)



关键论点
  • 选股策略月度选取排名前50只股票组成组合,基准为等权股票池组合。

- 回测期间(2015年11月至2023年8月)累计绝对收益率达到167.31%,累计超额收益160.16%,年化收益率为13.28%,年化超额收益为12.40%,夏普比率0.48,最大回撤34.58天(507天),显示策略收益稳健并控制了风险。
  • 胜率表现极佳,年胜率为88.89%,月胜率为65.96%,在所有基准指数中均具有较大优势。特别是相比于中证500和中证1000的年胜率均为100%,显示模型对中小盘股表现特别优异。

- 2023年年初至8月底绝对收益18.10%,超额收益13.14%,全年表现突出。
  • 资产配置行行业分布趋于均衡,银行、建筑、房地产占比较高,确认模型在防御性行业有偏好;市值分布偏小盘股,但最新信号显示也适当配备大盘头部股。


推理依据
  • 模型根据历史价量和一致预期特征预测未来相对表现并排序,组合持续跟踪前50名,表现出盈利和风险的良好控制。

- 胜率统计表明模型预测的稳定性强,尤其是对中小盘股的精准排序能力。
  • 策略组合行业和市值偏好反映模型对某些行业资金流和信息更敏感,且灵活调整组合结构以应对不同市场环境。


---

三、图表深度解读


  • 图表1(特征表,页11):详列资金流向类和一致预期类特征,以及所用的滚动算子和时间窗口。可见资金流量的多层级大小单流入流出指标被全面考虑,同时纳入预测性财务指标的变化信息,体现模型用信号的广泛和丰富。
  • 图表2(训练方法示意图,页12):展示了滚动训练策略,过去12个月中前9个月用于训练,最后3个月用于验证,以当前月度进行预测,体现模型通过动态滚动窗口适应市场变化和防止过拟合。
  • 图表3(策略净值曲线,页13):红色曲线显著上升,远超等权基准和相对超额收益(阴影部分)持续增长,显示选股策略回测期间资金增值明显。
  • 图表4(策略相对指数净值对比,页13):策略表现(红色)在2019年后尤其强劲明显区别于沪深300、中证500及中证1000指数表现,2020-2023年期间尤其优异。
  • 图表5(策略表现指标表,页14):数值明晰表达累计收益、超额收益、年化收益率、夏普比率和回撤容量。夏普比率0.48显示单位风险带来的回报适中。
  • 图表6(胜率表现,页14):年胜率和月胜率均显示该策略在多数时间段内优于基准,尤其对中证500和1000的胜率高达100%。
  • 图表7、8(年度及月度收益率统计,页14-15):策略在多数年份跑赢主要指数,且2023年绝对收益达18.10%,且月度多为正收益。
  • 图表9(行业分布占比,页15-16):银行、建筑、房地产为主,银行占比逐月上升,说明策略近期有防御性倾向。
  • 图表10(市值分布占比,页16):显示策略偏爱200亿以下小盘股,但近期大盘股(1000亿以上)也占较大比重,且有波动调整。
  • 图表11(9月最新个股信号,页16-17):列出选股信号股票代码及所属行业,覆盖银行、建筑、石油石化、机械、电力等多个行业,反映策略的多样化和行业轮动能力。
  • 图表12(9月回测当月走势,页18):尽管9月份市场有所回调策略表现仍相对平稳并超出沪深300等指数,印证其防御型与稳定性。


---

四、估值分析



报告未直接涉及单一股票的估值体系或市值目标,但选股模型基于排序学习,关键在于对股票未来涨跌幅的排名预测和信号生成,不同于传统公司估值的DCF或PE指标分析。

模型的“估值”体现为排序模型生成的相对得分,并通过梯度提升树拟合一组复杂非线性关系,实现相对收益的最大化目标。核心估值参数为lambda梯度和NDCG等指标,指导模型拟合过程。

---

五、风险因素评估


  • 报告明确提示所有统计结果及模型基于历史数据,不代表未来表现,历史收益不保证未来。

- 市场波动、宏观环境变化、模型结构失效或特征失效均可能导致策略回撤和收益不达预期。
  • 特征数据质量、整体市场极端情况、流动性风险亦是策略表现的不确定因素。

- 报告未给出具体风险缓释措施,但动态滚动训练策略和多层次指标设计体现了一定风险管理思路。

---

六、批判性视角与细微差别


  • 虽然报告的回测表现优异且算法详尽,但目前依赖的是历史价量数据与一致预期,未来市场可能因政策或突发性事件打破历史规律,模型效果可能下滑。

- 模型聚焦于相对排名和短期涨幅预测,可能忽视基本面变化、行业生命周期等长期因素。
  • 最大回撤34.58%较大,投资者需注意风险承受能力。

- 部分算法细节和超参数选取方法报告中未完全披露,留有模型可解释性和参数优化空间。
  • 报告对特定行业和市值偏好造成潜在风格集中风险,未专门讨论行业风险暴露。


---

七、结论性综合



本报告从排序学习的理论基础入手,系统介绍了从RankNet、LambdaRank到LambdaMart的算法演变,详尽阐述了基于增强梯度决策树的排序学习在金融市场中股票选股的创新应用。通过构建含沪深300、中证500、中证1000共1800只股票的股票池,挖掘价量资金流及一致预期数据,构造多维滚动特征,并采用月度涨跌幅排名标签,实现基于LGBMRanker的排序学习模型。

回测结果显示,该模型自2015年11月至2023年8月累计绝对收益高达167.31%,年化收益13.28%,显著跑赢等权基准和各大主要指数,且胜率表现突出,尤其在2023年逆势获得18.10%的正收益,充分展示模型的强大预测能力和市场适应性。

图表数据深刻支持回测策略的稳健性与优越性,净值曲线持续上升、胜率统计体现持续超额收益,行业与市值分布揭示模型有效规避风险及阶段风格调整能力,策略近期更偏防御性布局于银行和大盘股,有效控制回撤风险。

综合来看,该排序学习选股模型通过先进的机器学习方法,突破了传统量化策略设计,展示了价量数据深度挖掘的潜力,为量化投资领域提供了有益的策略框架与实践范例,值得持续关注和进一步开发。但需谨记其基于历史数据的局限性,投资者应警惕市场风险及模型适应性挑战,结合多重策略和风险控制手段使用。

---

全文引用均标注如下:
[page::0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19]

---

附件备注


  • 报告兼具理论解读与实证分析,适合金融工程、量化投资及机器学习交叉领域专业人士及实践者。

- 图表和数据透明辅助理解,便于后续模型优化及策略扩展。
  • 研究团队专业背景稳固,为报告提供坚实的知识支持。


---

以上为对《基于价量数据的排序学习选股模型》专题报告的极其详尽全面分析。

报告