`

The geometry of financial institutions - Wasserstein clustering of financial data

创建于 更新于

摘要

本文提出了一种基于广义Wasserstein barycenters的改进型Lloyd算法,用于处理带有系统性缺失值的高维概率分布聚类问题。该方法专门针对金融监管中金融机构的贷款等高维、非完整数据,通过软赋值避免传统填充带来的偏差,有效重建金融机构的度量空间结构,实现了部分观测分布的k-means聚类。算法在模拟和真实金融机构贷款数据中表现优异,构建的聚类可助力监管机构识别典型与异常机构特征,推动监管数据分析创新 [page::0][page::4][page::7][page::8][page::9]。

速读内容


研究背景与问题描述 [page::0][page::1]

  • 面对金融监管中高度详细、异构且存在系统性缺失的贷款数据,传统聚类和填充方法难以有效处理。

- 将金融机构看作带有缺失观察的概率分布,以Wasserstein距离构建度量空间进行分析。

算法创新:带缺失数据的Wasserstein k-means方法 [page::3][page::4][page::5]

  • 基于Lloyd算法框架,定义针对缺失坐标的距离函数和广义Wasserstein barycenter。

- 引入软赋值(soft imputation)机制,避免通过传统确定性填充产生的聚类偏差。
  • 提出包含权重调节避免数值不稳定的迭代算法,确保收敛至局部最优。


模拟实验证明方法有效性 [page::7][page::13][page::14]

  • 在高维高斯混合数据上,与均值、中位数填充、多重填充、KNN、回归填充等传统方法对比,NA k-means方法基于Gromov-Wasserstein距离重构表现最优。

- 采用Rand指数评估聚类质量,NA k-means在多数缺失比率和缺失机制下均优于对比方法。
  • 不同缺失比率和缺失结构条件下,算法表现稳定,显示鲁棒性。


应用实证:对金融机构贷款数据的聚类分析 [page::8]

  • 利用500家金融机构贷款数据(贷款维度、利率等7个属性),使用NA Wasserstein k-means进行聚类,得到15个簇。

- 通过多维尺度分析将高维聚类距离嵌入三维空间,可视化金融机构间相似性与簇结构。
  • 提供监管机构理解机构异同及发现潜在异常的工具。


关键算法步骤总结 [page::5]

  • 初始化簇质心(barycenters)。

- 根据部分观测数据更新每个机构的聚类分配。
  • 计算广义Wasserstein barycenter,兼顾缺失数据的软赋值。

- 使用加权距离指标确保算法收敛。

算法优势与局限 [page::8][page::9]

  • 首创新方法处理部分观测概率分布的聚类问题。

- 相较常规填充方法,更准确地反映底层数据的度量结构。
  • 计算复杂度较高,未来工作计划探索正则化Wasserstein距离加速算法。

深度阅读

深度解析报告:《金融机构的几何形态——金融数据的Wasserstein聚类》



---

1. 元数据与概览


  • 报告标题:《The geometry of financial institutions - Wasserstein clustering of financial data》

- 作者:Lorenz Riess(维也纳大学&奥地利国家银行)、Mathias Beiglboeck(维也纳大学)、Johannes Temme(奥地利国家银行)、Andreas Wolf(奥地利国家银行)、Julio Backhoff-Veraguas(维也纳大学)
  • 发布日期:报告中未明示具体日期,最新引用为2022年及更早

- 核心议题:提出一种基于广义Wasserstein barycenter的聚类算法,重点应用于带有系统性缺失数据的金融机构贷款数据,旨在以简洁而全面的形式刻画金融机构间的相似性及差异,辅助监管监测与风险评估。
  • 核心论点

- 现代金融监管面临海量、颗粒度细化的多维数据,利用传统方法处理难度极大。
- 针对金融机构贷款等数据的分布式高维度概率分布表示,设计了一种能应对“系统缺失”(部分机构上报维度缺失严重)的聚类算法。
- 该方法是对经典Lloyd’s $k$-means聚类算法的推广,结合了“广义Wasserstein barycenter”以在Wasserstein空间构建度量表示。
- 优势在于采用“软”随机填充缺失数据(soft imputation)策略,有效避免因填充引入的偏差,增强了异质性和非典型分布识别能力。
- 该算法不仅对金融领域适用,也具有跨领域大数据压缩映射的潜力。[page::0,1]

---

2. 逐节深度解读



2.1 引言(Introduction)


  • 内容总结

- 聚类的对象是多维概率分布(由机构的分散贷款数据表示),高维空间内的距离采用Wasserstein距离衡量。
- 数据具有系统缺失特性(不同机构报告维度不同),直接使用经典方法难以克服盲区。
- 目标是开发一个算法同时实现聚类与缺失值优雅处理。
  • 逻辑及假设

- 以贷款数据特征(交易金额、利率等)为代表维度使用欧氏距离,扩展为概率分布的Wasserstein距离。
- 机构视作概率测度,构建机构间的Wasserstein度量空间。
- 系统缺失体现为不同数据维度缺失不可忽视,算法需要适应这种结构化缺失。
  • 意义

- 解决监管对跨机构风险聚类和异常检测的需求。
- 跨领域大数据分析,尤其适合分布式概率数据的聚类与表示。[page::0]

2.2 算法设计原理:结合广义Wasserstein barycenter的$k$-means聚类


  • 算法思想

- 利用Lloyd’s $k$-means的框架,将聚类中心定义为Wasserstein barycenter(概率分布的平均分布)。
- 针对缺失数据,提出“乏力插补”策略避免系统性偏差:通过概率加权、软填充而非简单硬填充。
  • 关键点

- 以“投影映射”$\varphii$表示缺失,实际观测点为投影空间中元素。
- 利用反映原空间“可行集”的距离定义$ d
i(\tilde{x}i, y)$,从投影层面延伸到原空间。
- 迭代更新赋值向量$a$和聚类中心$c
j$。
  • 理论保障

- Algorithm 1规定了具体迭代步骤,包含渐进权重调整保证数值稳定与收敛。
- 算法严格减少目标损失,并在满足一定条件下收敛到局部最优。
  • 技术优势

- 区分了完整点与部分观察点的处理。
- 利用软概率分布进行填充,保证后续度量计算无偏差。
  • 假设

- 存在可定义的适当泛化距离和泛化barycenter算子。
- 设计中的核矩阵及投影算子满足数学上的可逆性与稳定性假设。
  • 支撑文献

- 运用Delon et al. [7]的广义Wasserstein barycenter概念,并结合Cuturi等关于最优输送计算的最新算法。[page::1-5]

2.3 关键概念与数学工具总结


  • Wasserstein距离

- 衡量两概率分布间的最优运输成本,形式为
$$
Wp(\mu, \nu) = \left(\inf{\pi \in \Pi(\mu,\nu)} \int \|x - y\|^p d\pi(x,y)\right)^{1/p}
$$
- 其中$\Pi(\mu,\nu)$是所有以$\mu$和$\nu$为边缘的联合分布的集合。
  • Wasserstein barycenter

- 概率测度的加权中心,定义为
$$
\arg\min{\nu} \sum{i=1}^n \lambdai W2^2(\mui, \nu)
$$
- 广义barycenter适用于不同子空间或部分观测坐标的情况,通过矩阵变换将投影数据映射回全空间优化解决方案。
  • 软填充概率分布构建

- 针对缺失数据使用概率加权填充概率分布而非确定性单点插补。
- 新定义的距离度量$\rho$是基于独立耦合下的分布间期望距离,避免插补带来的“虚假接近”。
  • 缺失值处理机制

- 对完整样本赋予Dirac测度;
- 对缺失样本,利用同簇完整样本通过距离权重构造分布进行软填充。
  • 算法分析支持

- 证明了算法的单调减损耗性质与有限步收敛性。
- 定义$\rho$具备距离性质(对称、三角不等式及正定性)确保数学严密性。[page::4,5,11]

2.4 实验设计与结果


  • 模拟实验(7.1节):

- 以高维($d=10$)欧氏空间多维高斯混合数据为基础,模拟金融机构属性。
- 设置不同缺失机制(依赖聚类大小和随机因子$h
j$及相关参数$\beta$),制造系统与随机缺失。
- 评价指标:基于重构后点集与真实点集的Gromov-Wasserstein距离(度量不同数据空间结构差异)。
- 对比多种插补方法(均值、中位数、多重插补、KNN、回归)及本算法(NA $k$-means直接和带均值计算的NA $k$-means-m)。
  • 实证应用(7.2节):

- 对500家金融机构的贷款数据进行聚类(每机构多达100笔贷款,7维属性)。
- 数据缺失程度参差不齐,正体现现实监管中不同银行数据报送不全的情况。
- 聚类数设为15,采用多维尺度分析(MDS)将复杂高维度银行数据映射至三维展示,色彩编码不同簇。
  • 结果亮点

- 模拟实验中,NA $k$-means及其平均版本在所有缺失设置下均显著优于其他插补及聚类综合方法,Gromov-Wasserstein距离显著更小(数值稳定且均优,见表1)。
- 实证金融数据中,利用构造的$\rho$距离,实现了有效层次的银行间相似形态恢复与可视化,有助识别异常机构和相似群体。[page::7,8,14]

2.5 算法拓展、假设和限制


  • 算法基于广义Wasserstein barycenter,要求投影矩阵$Pi$构成的矩阵$A=\sum \lambdai Pi^T Pi$可逆,这是高维投影表达有效性的关键假设。

- 为应对某些簇部分坐标全缺的数值不稳定,介绍带权重$\lambda^{(t)}$的惩罚项,逐步减轻历史聚类中心影响确保收敛。
  • 目前方法尚未集成熵正则化的Wasserstein距离版本,未来可拓展以降低计算时间复杂度。

- 假设至少一个簇中有完整观测(理论上保证问题可解),否则需施加额外数值稳定引导。
  • 软填充权重依赖于预设函数(如高斯核),权重设计对结果影响较大,但该设计避免了硬插补常见偏差。

- 当前描述重实验模拟与实证金融贷款数据,跨领域通用性和多来源异构数据的处理还需拓展。[page::9,12,14]

---

3. 图表深度解读



3.1 图1(页6)


  • 描述:左图显示二维平面上6个离散概率测度,其中一个测度缺少垂直坐标;右图展示应用NA Wasserstein $k$-means算法聚类成3个簇的结果。

- 数据与趋势
- 可视化显示缺失坐标的测度点通过算法得到合理的簇归属,不会因缺失维度而与其他簇混淆。
- 聚类中心点的支持点融合了簇内样本对应坐标的均值,柔性地处理缺失坐标。
  • 联系文本

- 图示直观呈现文章核心“带缺失坐标的分布聚类”以及用自由支持点Wasserstein barycenter的优势。
  • 潜在局限

- 示例仅为二维简单情况,难以反映高维数据复杂性,但为算法原理提供直观理解。
  • [page::6]


3.2 图2(页8)


  • 描述:使用多维尺度分析(MDS)将500家银行围绕贷款数据计算的$\rho$距离映射至三维空间,点颜色标识聚类簇。

- 数据与趋势
- 银行点群展示出内聚的簇结构,每簇体现相似贷款模式。
- 簇间边界不硬性分割,反映复杂高维空间映射至低维时的折叠和信息压缩。
- 离群点明显,提醒监管者关注可能的“异类”机构。
  • 联系文本

- 结论直指实际监管需求:可视化交易结构,辅助判别机构间风险形态异同。
  • [page::8]


3.3 图3与图4(页16)


  • 图3描述:二维二维空间内3个聚类的实际分布(左),与观测点分布(右,第2个坐标仅正值观测,负值缺失)。

- 图4描述:对以上带缺失数据集应用各种算法聚类后对真实点标注标签的可视化结果。
  • 数据解读

- 多数传统插补导致负值数据被人为抬高,影响聚类结构。
- NA $k$-means聚类标签与真实标签高度吻合,能够克服缺失带来的数据偏移,截获真实结构。
  • 意义

- 强调本算法在处理结构性缺失数据、避免插补偏差中的实用优势。
  • [page::16]


---

4. 估值分析



本报告不涉及财务估值部分,因此不适用传统金融公司估值分析框架,聚焦于统计距离及几何结构度量优化,核心在于:
  • 利用距离的平方和最小化为优化目标,等价于“空间惯性”最小化聚类问题。

- 通过Wasserstein距离和对应的广义barycenter进行“概率分布平均”,构建聚类中心代表概率分布。
  • 对缺失数据采用软插补概率测度及新定义的基于独立耦合的度量$\rho$,有效避免估值即统计结构扭曲。


此方法本质上是对空间结构和概率分布层面估值,非传统财务估值。[page::4,5]

---

5. 风险因素评估


  • 算法依赖数学假设

- 投影矩阵$P_i$组合满足可逆性条件。
- 数据至少部分样本数据是完整的。
  • 缺失数据带来的风险

- 如果某簇完全缺少某些坐标,可能导致数值不稳定,虽有加权机制缓解,但依然是潜在风险。
  • 填补权重函数$f$设定局限

- 选择不合适可能导致权重分布失衡,影响软插补效果。
  • 高维及规模问题

- Wasserstein距离及广义barycenter计算复杂度高,需依赖数值算法优化。
  • 实际数据的异质性风险

- 银行间数据的报送策略及合规性变动可能导致投影不一致,影响算法适用性。
  • 缓解策略

- 迭代过程中动态调节权重减少不稳定影响。
- 考虑引入熵正则化等方法提升计算效率,预计未来工作开展。
  • 无明确发生概率估计,但算法收敛证明提供理论保障。[page::5,9,12]


---

6. 审慎视角与细微差别


  • 报告提出算法针对金融数据缺失的创新,突破了系统缺失高维概率分布聚类的空白,但也存在局限:

- 对缺失模式依赖强,极端缺失或无完整样本簇会导致算法数值问题。
- 算法复杂度和计算量较大,实际监管运用中需平衡可行性。
- 模拟和实证数据的验证主要限于贷款数据,跨领域扩展尚需更多实验保障。
- 软插补设计虽然避免了偏差,但概率建模假设有待观察和根据实际拟合调整。
  • 文中提及的“泛化距离$\rho$”是一种学理创新,但在极端分布上是否稳健需要更多实践验证。

- 模型依赖于事先定义的权重、距离函数及正则化参数,参数敏感性分析不足,未来可加强。
  • 与其他已有算法(如k-pod)进行比较,表现优异,但算法比较尚无涉及时间复杂度和资源消耗评价。

- 结论较为谨慎,不夸大模型性能,且语言严谨,遵循科学报告规范。[page::8,9,13]

---

7. 结论性综合



该研究基于Wasserstein距离和广义Wasserstein barycenter理论,创新开发了一种适用于带系统缺失数据的概率分布聚类算法(NA Wasserstein $k$-means)。通过引入带权软填充的随机插补机制以及推广Lloyd’s $k$-means算法,解决了金融机构贷款等多源高维数据存在的严重缺失问题。

实验上,算法在模拟欧氏空间数据中优于多种经典插补方法,在实际500家银行贷款数据上展示了合理可信的银行群聚类和可视化能力,明显提升了金融监管机构对数据结构的把控能力。

重要图表体现:
  • 图1展示了算法对缺失坐标的概率测度聚类和中心计算能力;

- 图2以三维点云可视化聚类成果,辅助识别潜在异常机构;
  • 图3、图4演示了算法在带结构缺失数据下相比传统插补算法的聚类优势。


总体来看,该方法为金融监管领域提供了新颖技术路径,并具备算法理论完备性和实际应用潜能。其灵活的距离定义和填充方式拓宽了概率分布聚类在带缺失数据背景下的研究视角,兼具创新性与实用价值。[page::0-9,11-16]

---

参考



本报告严格基于给定材料内容进行解析,所有结论和数字均添加页码标识。

报告