排序学习选股模型之沪深 300 精选
创建于 更新于
摘要
本报告基于排序学习(Learning to Rank, LTR)方法,结合资金流向及多维度特征,应用Optuna框架自动优化LightGBM排序模型超参数,构建沪深300成分股精选的量化选股策略。采用滚动训练法动态调整模型参数,回测区间覆盖2011年至2024年3月,策略累计收益达311.79%,年化超额收益率10.73%,夏普比率0.44,表现显著优于沪深300基准。策略行业配置分散,医药和电力公用事业偏好明显,具备较强稳定性和较高月度及年度胜率。[page::0][page::1][page::7][page::9][page::10][page::11][page::12][page::13]
速读内容
排序学习理论与Optuna框架介绍 [page::0][page::4]
- 排序学习(Learning to Rank,LTR)是通过机器学习方法对大量特征进行训练,学习排序模型以解决排序问题,广泛应用于推荐系统和选股模型中。
- Optuna是一款开源超参数自动优化框架,支持多种搜索算法和并行分布式计算,能显著提高机器学习模型的性能。
- 报告附带LightGBM模型超参数优化的Demo代码,介绍了目标函数定义、参数搜索空间构建及搜索流程。
模型设计核心方法 [page::7][page::8][page::9][page::10]
- 股票池选取沪深300历史成分股,依托规模大及流动性优良的A股头部样本。
- 特征来源主要基于资金流向数据(机构及不同户型买卖金额、交易量、委托单数)、一致预期及市场行情。
- 特征工程采用多种滚动算子(滚动求和、差分、分位数及波动率等)及分组排名等方法构建多维度特征集合。
- 标签设计引入label_gain参数调整标签重要性,避免线性假设带来的偏差,提升排序模型拟合能力。
- 训练方法采用滚动训练策略,使用过去12个月作为训练集,最近3个月作验证集,通过Optuna寻找动态最优超参数,保证模型时效性。


量化策略回测表现 [page::10][page::11][page::12]
- 从2011年至2024年3月8日,选取排序靠前15只成份股构建等权组合。
- 策略累计收益311.79%,累计超额收益296.60%,年化收益11.86%,年化超额收益10.73%,夏普比率0.44,最大回撤50.39%,月度胜率58.23%,年度胜率85.71%。
| 时间 | 策略(%) | 沪深300(%) | 超额收益(%) |
|--------------|---------|------------|-------------|
| 2011年 | -19.79 | -23.77 | 3.99 |
| 2012年 | 20.54 | 7.55 | 12.99 |
| 2013年 | 8.22 | -7.65 | 15.87 |
| 2014年 | 21.03 | 51.66 | -30.63 |
| 2015年 | 32.46 | 5.58 | 26.88 |
| 2016年 | -11.25 | -11.28 | 0.03 |
| 2017年 | 35.39 | 21.78 | 13.61 |
| 2018年 | -11.29 | -25.31 | 14.02 |
| 2019年 | 36.01 | 36.07 | -0.06 |
| 2020年 | 66.77 | 27.21 | 39.56 |
| 2021年 | 2.95 | -5.20 | 8.15 |
| 2022年 | -9.19 | -21.63 | 12.44 |
| 2023年 | -7.66 | -11.38 | 3.72 |
| 2024年初至3月8日 | 17.62 | 3.32 | 14.31 |
- 过去12个月月度表现绝对收益率为-2.2%,基准为-13.60%,超额收益11.41%。
- 行业持仓分布较为均衡,医药和电力及公用事业获持续偏好,呈现行业轮动态势。
最新持仓信号 [page::13]
- 2024年3月最新选股涉及机械、银行、电力公用事业、食品饮料、国防军工等多个行业的15只个股,显示行业配置多样化。
总结 [page::13]
- 利用排序学习构建的沪深300精选策略具备显著的超额收益和稳定的风险调整表现。
- 动态滚动训练结合自动超参数优化框架有效提升模型适应性和收益水平。
- 策略在实际市场表现中保持较高月度和年度胜率,具有良好实用价值。
- 后续研究将继续深入探索排序学习在量化投资中的更多可能应用。
深度阅读
1. 元数据与概览
报告标题: 排序学习选股模型之沪深300精选
作者: 杨宸祎
发布机构: 华创证券研究所金融工程组
日期: 2024年3月至4月间发布(具体日期未明,但参考引用日期推断为2024年3月后首发)
主题: 通过机器学习中的排序学习(Learning to Rank,LTR)模型构建,结合超参数优化框架Optuna,挖掘沪深300成分股中的资金流与行情等多维数据,打造选股策略模型,取得显著的超额收益。
核心论点: 利用排序学习算法,将个股特征转化为预测未来走势的相对优劣排序,以此在沪深300中构建选股模型。在此前两篇基于价量数据模型的基础上,增加更为丰富的特征及使用Optuna框架进行超参数自动优化,有效提升模型性能。历史回测结果显示该模型年化收益率达11.86%,超额收益10.73%,表现优异且稳健。作者旨在传递排序学习技术在量化选股领域的有效性及其可操作性,强调机器学习技术与自动调参工具对量化模型改进的关键作用。[page::0,1]
2. 逐节深度解读
2.1 报告导论与排序学习基础
报告首先定义并介绍排序学习的背景及其特殊性。排序学习是一类监督学习方法,强调对多个对象的相对排序而非单独预测。其应用广泛于搜索、推荐系统。与传统分类/回归不同,排序学习的训练数据以(query, documents)对形式输入,目标是最优化排序性能指标如NDCG,体现了排序学习处理复杂交互和相对关系的能力。这为选股提供思路:将股票作为“文档”,投资者目标排序即展现优质股票优先。此部分为后续模型设计奠定理论基础,非常细致地阐释了排序学习与传统方法的区别及优势。[page::4]
2.2 Optuna超参数框架介绍
详细介绍了Optuna的设计理念与工作原理。超参数优化是机器学习成效的关键,传统方法效率低、易陷入局部最优。Optuna通过“研究(Study)”和“试验(Trial)”概念,智能搜索超参数空间,支持多种搜索策略,自动剪枝,无需人工经验执导。提供丰富可视化和高效分布式计算能力。通过示例代码展示了如何用Optuna自动优化LightGBM的关键参数(包括正则化强度、叶子节点数、采样比例等),对比传统手工调参效率优势明显。这说明在量化模型训练中的超参数调优环节通过该工具可实现系统自动化和科学优化,显著提升模型性能。[page::4,5,6,7]
2.3 模型设计
2.3.1 股票池选择
报告选定了沪深300成分股作为研究对象。理由是其包含市场最大市值、流动性最好的300家公司,行业覆盖广泛,代表市场主流。选择沪深300有助于后续模型的稳定性和实用性。[page::7]
2.3.2 特征选择
以资金流向数据为核心,结合一致预期和市场行情数据,构建多维特征体系。资金流数据细分机构、大户、中户、小户买卖额、交易量及委托单数,充分反映市场微观结构。使用一系列特征工程算子(滚动和差分、波动率、分位数、分组排序等)来提取时序和分组特性,挖掘深层次信号。配合图表2说明特征工程流程,清晰表达数据如何转化为可训练特征集,体现数据驱动选股的科学性。[page::7,8]
2.3.3 标签选择
标签设计区分排序学习与传统分类的关键差异。标签不仅是类别,而是排序优先级的体现。引入labelgain参数,用以调整标签间的重要性增益,解决线性标签假设与实际非线性偏好之间的矛盾。标签权重灵活,反映不同等级对排序贡献的差异,进一步提高模型拟合市场偏好的能力。[page::8,9]
2.3.4 训练方法
采用滚动训练策略,结合过去12个月作为训练集,3个月作为验证集,动态更新超参数。通过Optuna优化目标函数,实现主观优化模型表现,此滚动过程能捕捉市场时变性、增强模型泛化与适应能力。图表3直观演示训练窗口滚动机制,清晰说明时间线划分与动态训练逻辑。[page::9,10]
2.4 回测结果
回测期覆盖2011年2月至2024年3月,选取排名前15股票构建等权组合。图表4显示策略净值大幅跑赢沪深300基准,累计收益311.79%,累计超额收益296.60%。图表5表明年化收益11.86%,年化超额收益10.73%,夏普比率0.44,最大回撤50.39%,月度胜率58.23%,年度胜率85.71%。这些数据体现策略风险调整后的稳定回报。分年度收益(图表6)显示除极个别年份外,多数年份策略领先且波动可控,2024年初至今超额收益显著(14.31%)。图表7月度收益进一步印证策略中短期表现优异,且行业持仓轮动(图表8)体现策略多因子挖掘特色,偏好医药、电力等行业,兼顾行业分散,有助风险控制。[page::10,11,12]
2.5 策略最新信号
图表9提供策略2024年3月最新持仓,涵盖机械、核电、银行、煤炭等多行业龙头,具有代表性和结构合理性,体现模型综合当前多维信息的输出,实盘可行。[page::13]
2.6 总结与风险提示
总结详尽回顾排序学习理论、Optuna技术及沪深300模型设计和回测成果,确认策略显著长期跑赢市场。强调方法论与技术结合的成功应用。风险提示明确提醒所有统计结果均基于历史数据,不代表未来趋势,体现研究严谨责任态度。[page::13]
3. 图表深度解读
图表1(第6页) LightGBM超参数优化Demo代码
代码示例展示如何利用Optuna搭建目标函数,在LightGBM的参数空间中智能采样lambdal1、lambdal2正则化强度、叶子节点数、采样比例、Bagging频率及叶子样本数等关键参数,进行100次试验自动寻优。该代码简洁清晰,直观体现超参数自动调优流程,且契合报告中动态调参思想。[page::6]
图表2(第8页) 特征工程方法
该流程图将资金流向数据、一致预期数据和行情数据通过算子处理形成特征集合。特征工程算子涵盖滚动求和、差分、分位数、波动率计算、分组排名等,体现模型多维度抓取信号的能力。该图辅助理解模型输入特征构建,强调资金流向为核心特征的重要性。[page::8]
图表3(第10页) 训练方法示意图
图示直观地演示训练数据集(T=-12至T=-3)、验证数据集(T=-3至T=-1)与预测目标的时间窗口关系,并通过滚动时间轴实现多个训练轮次(模型一、模型二…),保证超参数随时间动态优化,进一步提升模型应对时变市场的能力。[page::10]
图表4(第10页) 沪深300选股策略净值图
净值曲线较沪深300指数(蓝线)表现出更为坚挺且持续增长的趋势,绿阴影区域表示净值明显领先基准。曲线的持续走高和相对更少的横盘回撤,展示策略具有长期稳定的盈利能力和抗风险水平,支持模型有效选股替代基准指数的论断。[page::10]
图表5(第10页) 策略表现表
累计收益311.79%,超额收益296.60%,年化收益11.86%,超额10.73%,夏普0.44,最大回撤50.39%,月度胜率58.23%,年度胜率85.71%,数字显示出收益较高且风险调整后表现稳健,波动可控。特别是超额收益和夏普比率反映模型风险收益值,具备投资配置价值。[page::10]
图表6(第11页) 分年度收益率统计
分年度呈现策略与基准的收益对比,大多数年份策略明显优于沪深300,尤其2020年66.77%收益显著超出基准27.21%。少数年份如2014、2019年策略表现略逊,但整体稳定。图表体现出策略的可持续优势,抗周期性强,支持选股模型的长期有效性。[page::11]
图表7(第11页) 过去12月的月度收益率
该表展示最近一年每个月度策略与基准月度收益及超额收益的表现——虽然存在波动但整体呈现频繁获得正超额收益状态,例如2024年1-2月分别实现9.59%和0.86%的超额回报。体现策略不仅在长周期表现出色,也在短期股价波动中捕获有效买卖机会。[page::11]
图表8(第12页) 过去12个月的行业持仓分布
行业分布数据细致展示每个月持仓的行业占比。医药和电力及公用事业作为持仓偏好行业连续出现,占比较高,体现策略注重价值和防御性行业组合。同时,机械、有色、银行等周期性行业也在不同月轮动,表现模型具有灵活行业配置与分散风险的特点。[page::12]
图表9(第13页) 2024年3月最新个股信号
表格列示15只个股,行业覆盖机械、国防军工、银行、煤炭等。其中如三一重工、工商银行、长江电力为行业龙头,信号集中于能源与金融等代表性板块,反映策略趋向稳健,同时兼顾配置结构合理。是真实可交易持仓的展现。[page::13]
4. 估值分析
本报告未专门展开个股估值模型分析,而是关注通过排序学习模型给出的个股优选信号和排序,从而构建等权组合进行投资。排序学习通过优化相对排序指标得到预测排序,而模型反映的是选股排名优劣,不采用传统估值指标如PE、DCF等。策略表现基于净值和回测结果评估,无直接估值输入。超参数优化的目标是提升排序模型准确率和收益,而非具体单只股票估值。整体估值体现为模型选股能力和组合绩效。[page::0~13]
5. 风险因素评估
报告明确提示:
- 所有统计结果基于历史数据,未来表现不代表历史趋势延续。市场环境变化、结构调整等均可能导致模型失效或表现波动。
- 排序学习策略依赖A股市场行情与资金流数据质量,如数据异常或流动性变化均会影响模型预测准确性。
- 超参数优化和特征工程虽增强模型稳健性,但不可避免存在过拟合风险,滚动训练法虽缓解,但不能完全消除。
- 沪深300成分调整可能导致样本覆盖变动,影响模型稳定。
- 最大回撤约50%,风险敞口较大,投资需结合自身风险承受能力。
报告未提供具体风险发生概率及缓解策略,提示用户理解模型局限,结合市场实际审慎使用。[page::0,13]
6. 批判性视角与细微差别
- 报告基于历史回测,虽时间跨度长(13年多),但量化策略历史有效并不必然保证未来持续有效。2024年部分月份月度收益波动较大,显示短期风险仍存。
- 超参数自动优化通过Optuna显著提高效率,但依赖框架本身参数设定和搜索空间,若搜索空间设定不合理,可能错失更优组合。
- 标签重要性设计引入label
7. 结论性综合
本报告围绕排序学习(LTR)选股策略展开,详细介绍了排序学习理论基础、Optuna超参数框架、模型设计、训练方法及综合回测表现。通过构建基于多维资金流、行情和一致预期等特征集合的排序模型,结合滚动训练法动态调优,成功实现沪深300成分股筛选。回测数据表明该模型从2011年起累计实现超300%的收益,年化11.86%,超额达10.73%,稳健跑赢沪深300基准,胜率和夏普比率表现均优,体现了投资有效性与风险控制能力。
图表数据强化了这一结论:训练窗口与动态调参模型设计逻辑清晰(图3);净值曲线(图4)表明模型长期收益强劲且稳健;收益统计(图5、6)显示绝大多数年份策略盈利并显著跑赢大盘;月度表现和行业分布(图7、8)反映策略具备动态适应市场波动及多行业分散配置特征,兼顾稳健与灵活。
此外,最新持仓信号具备时效性和行业代表性,显示实操可能性。报告对机器学习方法的介绍深入浅出,特别是对排序学习与传统机器学习的差异阐述,为金融工程领域量化投资方法论贡献了具备创新性的视角。同时,采用业界先进工具Optuna,实现了超参数自动化配置,显著提升了排序模型性能和训练效率。
值得注意的是,回测依赖历史数据,且策略最大回撤较大,短期波动明显,风险不可忽视。投资者需结合风险承受力审慎采信。标签调整及超参数设计细节等方面仍有待深耕探索。整体来看,本报告成功实现了排序学习在沪深300选股中的应用,提供了量化选股策略的技术范本,体现出金融工程技术与机器学习融合的广阔前景与实用价值。
---
综合评级及推荐意见: 报告对沪深300量化选股策略持积极评价,显示出强劲的历史表现和可操作性,建议关注和适度配置该类策略产品,纳入投资组合考虑以实现风控兼顾的超额收益。未来报告将继续深挖排序学习在量化领域的应用,值得持续跟踪关注。[page::0~13]
附图索引
- 图表1 LightGBM超参数优化Demo代码
- 图表2 特征工程方法
- 图表3 训练方法
- 图表4 选股策略净值图

