`

量化投资 波动率预测效果评价方法

创建于 更新于

摘要

本报告围绕沪深300指数的波动率预测效果评价,重点讨论了波动率作为隐藏变量带来的特殊性及损失函数选择问题。采用已实现波动率作为真实波动率的代表,比较了历史标准差、GARCH及含突变点GARCH三类模型的预测效果。通过引入稳健损失函数QL和MSE,以及Diebold-Mariano检验,解决了传统F检验方法不适用的问题,结果显示:选择QL损失函数时20日历史标准差效果最佳,选择MSE时GARCH模型表现优异。[page::0][page::2][page::4][page::9][page::12][page::13]

速读内容


波动率预测的特殊挑战与“真实波动率”的定义 [page::2][page::3]

  • 波动率是隐藏变量,真实波动率不可直接观测,需用估计值(已实现波动率)代替。

- 采用5分钟采样周期的已实现波动率标准化计算,确定4至30分钟为合适采样周期。
  • 使用倍率因子对已实现波动率进行校正,保证预测模型公平评估。


沪深300指数波动率预测模型介绍及比较 [page::5][page::6]

  • 三类预测模型:不同窗口长度历史标准差模型,标准GARCH(1,1)模型,带突变点的GARCH模型。

- GARCH(1,1)模型采用滚动参数估计,预测步骤严格无未来信息。
  • 带突变点GARCH模型利用ICSS算法动态识别波动率突变点加入模型。


预测误差初步统计量及传统F检验的局限性 [page::7][page::8][page::9]



| 模型类别 | 误差平方和比较结果 | F检验P值特征 |
|----------|-------------------------|-------------------------------|
| 标准差模型(20日窗口) | 误差较低 | 多数组合显著性不足,F检验假设被违反 |
| GARCH模型 | 误差最低 | 精度显著优于多数标准差模型 |
  • 误差序列显著偏离正态分布(JB检验远大于阈值),存在强序列和同期相关性,F检验假设不成立。

- 误差自相关函数显示长期依赖,误差相关矩阵展现模型间误差高度相关。

损失函数选择与稳健性分析 [page::9][page::10][page::11]


  • 引入两类稳健损失函数:百分比偏差敏感的QL损失函数和线性偏差敏感的MSE损失函数。


  • QL损失下20日历史标准差模型表现最佳,MSE损失下GARCH模型表现优异。

- 损失函数选择影响模型优劣排序,反映研究者对误差偏差类型的不同关注。

采用Diebold-Mariano检验进行显著性检验 [page::11][page::12]

  • 传统统计检验不适用于波动率预测误差的特殊性质。

- DM检验修正误差序列相关性影响,基于损失差的协方差稳定性进行有效检验。
  • QL损失函数下,20日标准差模型显著优于大部分模型(除GARCH(1,1)外)。

- MSE损失函数下,GARCH(1,1)模型显著优于标准差模型。

结论总结 [page::13]

  • 波动率预测评价复杂,需使用已实现波动率代替真实波动率;

- QL与MSE损失函数保证稳健排序,适合评价使用无偏估计的预测模型;
  • Diebold-Mariano检验有效解决显著性检验难题;

- 具体表现上,偏好百分比偏差选择20日历史标准差模型,更关注线性偏差选择GARCH模型。

深度阅读

量化投资——波动率预测效果评价方法报告详尽分析



---

一、元数据与概览


  • 报告标题: 量化投资 | 波动率预测效果评价方法

- 作者及联系: 汪鑫,高级分析师,招商证券研究发展中心,联系方式:021-68407742, wangxin8@cmschina.com.cn
  • 机构与发布时间: 招商证券,2014年9月22日

- 研究主题: 深入探讨波动率预测的效果评价方法,聚焦沪深300指数,比较不同波动率预测模型的表现与统计显著性检验方法,体现量化投资领域中波动率预测的复杂性与评价技术细节。

核心论点及目标:

本报告突出两大波动率预测效果评价的“特殊性”、提出稳健的损失函数QL与MSE用于比较模型优劣,并说明传统统计检验方法不适合此类预测。引入Diebold-Mariano检验(D-M检验)解决显著性检验难题。最终实证比较了历史标准差模型(不同窗口长度)、GARCH(1,1)模型及其带波动率突变点的扩展模型在沪深300指数日波动率预测的效果,指出20日历史标准差模型和GARCH模型各有优势,具体优劣依赖于不同损失函数选用的偏重(百分比偏差或线性偏差)[page::0].

---

二、逐节深度解读



1. 波动率预测效果评价的特殊性(第2页起)


  • 关键论点: 波动率本质为隐藏变量,真实波动率无法直接观测,只能用估计量替代,导致评价指标受限;预测误差分布显著偏离正态且存在强序列相关性;不同预测方法误差间同期相关性强,传统假设检验(如F检验)不适用。

- 分析指出的难题:
- 实际真实波动率$\sigmat$或方差$\sigmat^2$选择作为评价目标的二义性;
- 替代指标的误差带来的评估误差;
- 误差的非正态分布及强序列相关背景下,损失函数的选择尤为关键。
  • 作者主张采用 声称“稳健”的损失函数(QL、MSE),保证使用估计替代品时排序不变,保证不同模型可比性,且引入D-M检验处理统计显著性[page::0][page::2].


2. 使用已实现波动率代表真实波动率(第3-4页)


  • 理论基础: 从连续时间金融模型出发,已实现波动率通过高频收益平方和估计积分方差,随着采样频率提高趋近真实波动率,理论上采样越密越接近。

- 实证分析: 以沪深300指数为研究对象,计算不同采样周期(分钟)下已实现波动率的标准化均值,图1显示:4-30分钟采样周期内的已实现波动率值稳定,体现采样频率适中窗口,表明在此区间内估计的已实现波动率较为精准,不受市场微观结构噪音过大影响。此报告后续分析基于5分钟采样[page::3][page::4].
  • 数据调整: 因多数预测模型以平方收益作为预测对象,借助调整系数$\hat{c}\approx1.479$,将5分钟已实现波动率调整为$\hat{\sigma}t=\sqrt{\hat{c} \times RV{m5,t}}$,作为真实波动率的代理,用于模型预测误差计算,但未用于实际预测建模,保证事前预测不使用未来数据[page::4].


3. 待比较的波动率预测模型(第5-6页)


  • 分为三大类别:

- 历史标准差模型(Std
a):使用过去n日收益标准差预测未来波动率,n取5、10、20、40、60、120、240等不同窗口。公式明确了计算方法,强调预测仅依赖历史数据。
- GARCH(1,1)模型:标准的条件异方差模型,参数随时间滚动估计,依赖最大似然估计,参数满足稳定条件 ($\omega>0, \alpha \geq 0, \beta \geq 0, \alpha + \beta < 1$),首次预测日期限定保证估计样本数不少于240日。
- 带波动率突变点的GARCH模型:在GARCH模型基础上整合由ICSS算法识别的波动率突变点作为虚拟变量,增强模型对结构突变的适应性。
  • 图2展示模型预测结果的时间序列对比(多层小图展示不同Std窗口及GARCH两种模型预测波动率轨迹)[page::5][page::6].


4. 传统基于苛刻假设的F检验与其局限性(第7-9页)


  • 误差平方和与F检验: 以误差平方和作为损失函数,计算不同模型预测误差平方和,通过F统计量进行显著性检验。图3显示GARCH模型整体偏差最小,历史标准差模型中20日窗口效果优于其他窗口。

- F检验结果(表1)支持GARCH优于其他模型以及20日窗口优于部分窗口模型的结论。
  • 局限性分析: F检验假设误差满足均值为零、正态分布、无序列相关性和无同期相关性。报道通过Jarque-Bera检验(表2)与误差自相关图(图4)、误差相关系数矩阵(表3)指出误差远非正态且存在强序列与同期相关性,显著违背F检验前提,使F检验结果不可信[page::7][page::8][page::9].


5. 基于稳健损失函数的评价与Diebold-Mariano检验(第9-13页)


  • 损失函数选择: 引入2010年计量经济学研究认可的两类“稳健”损失函数:

- QL损失(准似然)敏感于百分比偏差;
- MSE损失(Mean Squared Error)敏感于线性偏差。
  • 图5清晰对比QL与MSE的形态,显示MSE为对称二次曲线,QL在对数尺度上表现更适合百分比误差评估。

- 图6与图7分别展示各模型基于QL和MSE损失函数的值:
- 基于QL损失,20日标准差模型最优,甚至超越GARCH模型;
- 基于MSE损失,GARCH模型优于历史标准差模型。
  • 解释: 因两类函数反映不同误差关注重点,模型表现随损失函数选取而异。

- 显著性检验方法选用Diebold-Mariano检验(D-M检验):
- 适用于预测误差含序列依赖,且损失函数形式异常情况下的显著性测试。
- 检验统计量基于损失差序列均值及其频率零点谱密度(含自协方差加权和),无需假设无序列相关或同期相关。
- 表4(QL损失)和表5(MSE损失)为D-M检验p值矩阵,红色数字标识在5%显著水平下的优势模型。
  • 显著性检验结论:

- 按QL损失,20日标准差模型显著优于除GARCH(1,1)外其他模型;
- 按MSE损失,GARCH(1,1)模型显著好于标准差类模型。
  • 强调:D-M检验的适用性弥补了传统F检验不可用的缺陷,更科学地揭示了模型表现差异的统计学意义[page::9][page::10][page::11][page::12][page::13].


6. 总结(第13页)


  • 报告复盘了波动率预测效果评价的本质难点:

- 真实波动率未知,只能用估计量代替;
- 预测误差非正态、序列相关且同期相关;
- 传统假设检验不适用。
  • 引入了两个稳健且排序一致的损失函数QL、MSE,保证即使采用估计波动率替代品仍能公平比较预测模型。

- 采用D-M检验解决显著性差异统计检验问题。
  • 实证结论指出:

- 若关注百分比偏差(通过QL损失衡量),20日历史标准差模型预测效果最佳;
- 若关注线性偏差(通过MSE损失衡量),GARCH模型显著优于历史标准差模型;
- 这说明不同损失函数视角下,波动率预测模型的性能评判有明显差异[page::13].

---

三、图表深度解读



图1:不同采样周期下的沪深300指数平均已实现波动率(已标准化)


  • 展示内容: 横轴为采样周期(分钟),纵轴为标准化后不同采样频率计算的平均已实现波动率。横坐标非等差,选择以一天240分钟能整除的采样粒度。

- 趋势与意义:
- 波动率在4分钟至30分钟采样周期区间内保持稳定接近水平,验证了这一范围内采样频率可较好估计积分波动率;
- 采样周期小于4分钟,已实现波动率显著降低,可能因市场微观结构噪声影响;
- 大于30分钟则出现下降趋势,说明低采样频率不能有效捕捉波动变化。
  • 结论: 选用5分钟采样周期作为已实现波动率计算基准合理,切实平衡采样精细度与市场微观结构影响[page::4].


图1: 不同采样周期下的沪深 300 指数平均已实现波动率(已标准化)

---

图2:沪深300指数日波动率预测——纯预测的GARCH(1,1)模型及不同Std窗口比较


  • 内容: 多张时间序列图排布,分别是以5、10、20、40、60、120、240天窗口计算的历史标准差预测,以及GARCH(1,1)、带跳跃GARCH模型的波动率预测。

- 观察:
- 较短窗口(如5、10天)预测波动率曲线较为剧烈波动,快速响应市场波动变化;
- 较长窗口(如120、240天)预测曲线平滑,反应迟缓;
- GARCH及带跳跃模型表现出一定的动态适应能力,能够捕捉波动结构变化与突变,带跳跃版本波动率估计略有偏高,反映对突发波动的加强敏感性。
  • 文本支持: 证明历史标准差窗口选择会大幅影响预测灵敏度与稳定性,GARCH模型更动态且结构化,更符合市场波动内生机制[page::6].


图2: 沪深 300 指数日波动率预测—纯预测的GARCH(1,1)模型

---

图3:不同波动率预测方法的误差平方和


  • 内容: 条形图对比标准差模型(多个窗口)、GARCH及带突变点GARCH模型的预测误差平方和。

- 趋势: GARCH模型及带突变点的GARCH模型的误差平方和最低,表现最佳;标准差模型中,20天窗口的误差相对较低,其他窗口波动较大。
  • 作者结论: 用传统误差平方和指标,GARCH显著更优,但对这一结论质疑其统计检验前提的适用性[page::7].


图3: 不同波动率预测方法的误差平方和

---

图4:预测误差的自相关系数


  • 内容: 展示各预测模型对应误差序列的自相关系数图。

- 主要发现: 高度持续的自相关,尤其是滞后期1-20,均远超置信区间,表明预测误差存在强烈序列相关。
  • 关联讨论: 证实F检验中无序列相关的假设被严重违背,传统检验结果不可依据[page::8].


图4: 预测误差的自相关系数

---

表2与表3:预测误差的Jarque-Bera检验和误差相关系数矩阵


  • JB检验(表2)显示所有模型误差的JB统计量远远超过阈值5.96,极显著拒绝正态分布假设。

- 误差相关系数矩阵(表3)显示不同模型误差彼此高度相关(多数相关系数>0.7),意味着同期相关性显著。
  • 影响: 进一步否定传统F检验的有效性,强调需要考虑误差时序结构和同期依赖的统计方法[page::8][page::9].


---

图5:常见的两个稳健损失函数QL与MSE


  • 左图: 以标准变量偏差展示,MSE曲线为对称U型,QL曲线形状偏斜。

- 右图: 以对数偏差尺度展示,QL曲线更为对称,表明QL损失对于百分比误差对称且敏感,MSE对线性误差对称。
  • 重要性: 说明不同损失函数从误差度量角度的差异,本报告使用两者互补评价波动率预测效果[page::10].


图5: 常见的两个稳健损失函数

---

图6与图7:不同预测方法的QL与MSE损失函数值对比


  • 图6(QL损失值):标准差模型20日窗口最优,低于其他模型甚至GARCH,凸显当注重百分比误差时,20日标准差模型的优势。

- 图7(MSE损失值):GARCH模型及带跳跃版本损失明显低于所有标准差窗口,印证基于线性误差视角下GARCH的优异。
  • 结论: 损失函数的选择直接引导对模型优劣的不同结论。

- 图像与文本对应精确反映不同误差计量结果,支撑后续的显著性统计检验[page::10][page::11].

图6: 不同预测预测方法的 QL 损失函数值

图7: 不同预测方法的 MSE 损失函数值

---

表4与表5:Diebold-Mariano检验P值(QL与MSE损失函数)


  • 表4(QL损失):

- 20日标准差模型对绝大多数其他模型(除GARCH)表现出显著优越(p值小于0.05标记红色)。
- GARCH模型与20日标准差模型对比不显著。
  • 表5(MSE损失):

- GARCH模型显著优于大部分标准差模型(多项p值显著),尤其相较10日、20日标准差窗口。
- 说明MSE下GARCH有明显优势。
  • 解读: D-M检验敏感且适用样本序列相关结构,为模型优劣提供科学的显著性评估依据[page::12][page::13].


---

四、估值分析



本报告无公司估值部分,聚焦于波动率预测模型的性能比较及统计显著性测试方法,无估值内容。

---

五、风险因素评估



报告体现在波动率预测本身的两大风险因素隐含在模型设计与统计检验中:
  • 波动率隐藏性风险:真实波动率不可观测,只能用代理量测量,替代误差直接影响模型评价结果的公信力。

- 统计假设风险:误差非正态、存在序列与同期相关,传统假设检验方法不适用,需采用更符合实际误差结构的检验方式(如D-M检验),否则模型优劣判断可能失真。

报告分析细致,对风险做了科学识别,未提供规避策略,但通过稳健损失函数及D-M检验综合缓解上述风险。

---

六、批判性视角与细微差别


  • 优点:

- 突出波动率预测效果评价的核心难点和现实复杂性;
- 科学使用代理指标“已实现波动率”作为真实波动率替代;
- 详细验证传统统计检验假设条件不成立,明确指出其局限;
- 引进稳健损失函数及D-M检验有理有据,使评价更具科学性与实用价值。
  • 潜在不足或改进空间:

- 报告中对于取样频率确定为5分钟虽有实证说明,但未明确考虑市场特殊事件期间的波动率估计稳定性;
- 报告中仅选用沪深300指数为研究对象,波动率预测模型及评价方法可能受限于单市场特征,后续工作可考虑多市场多资产检验方法普适性;
- 对波动率突变点模型的预测优势未得到显著体现,尚需探讨该模型的实用推广价值及其参数选取的稳健性。
  • 内部细节警示:

- QL损失函数在极端百分比误差时形态复杂,可能导致极端值敏感,需谨慎解释极端表现。
- 误差序列表现出强序列相关,提醒用户在采用预测模型和调优时需考虑误差的时间结构特征。

整体而言,报告方案周密,结论谨慎,数据和方法论紧密结合,展示了对复杂金融变量预测评价系统的深刻理解。

---

七、结论性综合



本报告围绕波动率预测的评价难题,系统阐释了波动率的隐藏性、误差序列的复杂分布特征及其对预测效果统计检验的挑战。基于沪深300指数数据,选用“已实现波动率”作为真实波动率代理,实证验证了5分钟采样周期的适用性。采用历史标准差模型(多窗口)、传统GARCH(1,1)模型及带波动率突变点的GARCH模型进行实证比较。

传统以误差平方和为基础的F检验因误差非正态且存在序列及同期相关而失效。报告引入两个“稳健”损失函数QL和MSE评估预测误差,QL偏重百分比误差,MSE偏重线性误差,为评价不同视角下的模型效果提供工具。基于Diebold-Mariano检验,对模型间损失差进行显著性检验,确保考虑误差序列结构。

结果显示,20日历史标准差模型在QL损失(百分比误差)视角下显著优越;而GARCH(1,1)模型在MSE损失(线性误差)视角下显著优于标准差模型。带突变点的GARCH模型优势不明显或不显著。

报告结论强调,选择损失函数时的偏好直接影响对模型预测效果的判断,同时必须采用适应于隐藏变量预测误差的统计检验方法(如D-M检验),避免误用传统检验导致误判。整体上,报告为波动率预测准确性评价提供了一套科学且实用的分析框架,并通过全面图表与统计检验数据强化论据,有助于量化投资领域中相关模型的选取与改进。

---

备注: 以上分析引用所有涉及页码分别加页码标识,详见正文中每处对应内容,确保结论可溯源、内容详尽全面。[page::0,1,2,3,4,5,6,7,8,9,10,11,12,13]

报告