Aligning Language Models with Investor and Market Behavior for Financial Recommendations
创建于 更新于
摘要
本报告提出FLARKO框架,通过结合大语言模型(LLM)、行为知识图(KG)和Kahneman-Tversky优化(KTO),实现了金融资产推荐的盈利性与用户行为偏好对齐。支持集中式和联邦学习架构,显示出在FAR-Trans数据集上的显著优越性,且资源高效,适合隐私敏感的金融环境[page::0][page::1][page::6][page::8]。
速读内容
统一LLM与KG框架实现个性化金融资产推荐 [page::1][page::3]
- FLARKO架构集成了用户交易行为知识图(PKG)与市场价格知识图(MKG),为LLM提供结构化、可解释的上下文,实现用户偏好与市场信号的综合推理。
- 支持CenFLARKO(集中式)和FedFLARKO(联邦式)两种部署,满足不同隐私和数据共享需求。
行为偏好对齐的KTO微调方法 [page::4]
- 利用KTO进行轻量级微调,以二元标签(是否同时盈利且用户购买)驱动LLM学习行为对齐推荐。
- 数据点标注简单,适合联邦学习中多样化用户群体的训练。
联邦学习设计与通信效率 [page::5]
- 模拟20个金融机构作为联邦客户,涵盖多样化用户偏好分布。
- 利用LoRA参数高效调优和4位量化,显著降低通信开销。
- 表1显示不同Qwen3模型的LoRA适配器大小,最大8B模型通信资源仍可控。
| Model | Trainable Parameters | Adapter Size (4-bit) |
|--------------|----------------------|---------------------|
| Qwen3-0.6B | 10,092,544 | 4.8125 MB |
| Qwen3-1.7B | 17,432,576 | 8.3125 MB |
| Qwen3-4B | 33,030,144 | 15.75 MB |
| Qwen3-8B | 43,646,976 | 20.8125 MB |
CenFLARKO与FedFLARKO模型性能评估 [page::6][page::7]
- 表2显示各模型在Pref@3(行为偏好)、Prof@3(盈利能力)、Comb@3(行为与盈利兼备)指标的表现。
- 中型模型(Qwen3-1.7B与4B)表现最佳,8B模型未显著优于中型,表明模型规模与任务适配需权衡。
- 行为知识图(PKG)对提升用户偏好对齐更关键,市场知识图(MKG)改善盈利表现。
- 非IID联邦数据训练中Qwen3-4B表现优异,表3和表4显示其能适应联邦异质环境,实现更稳定推荐。
相较传统基线优势明显 [page::1][page::6]

- FLARKO模型在Pref@3和Comb@3综合得分显著超过LightGBM、随机森林、LightGCN等主流基线。
- 尽管部分基线模型在Prof@3上表现优异,说明盈利能力强,但用户行为对齐较弱,无法保证推荐被实际采纳。
- FLARKO平衡盈利与行为,对实现实际落地应用至关重要。
个人知识图与市场知识图示例结构 [page::3]


- PKG编码用户单笔交易的时间、金额、资产等信息,映射真实行为偏好。
- MKG聚合资产价格的十周总结,结合资产分类、行业等元数据辅助市场背景理解。
实际应用场景覆盖广泛 [page::2]
- 集中式环境:私人银行、投资顾问可用CenFLARKO提升投资组合管理。
- 联邦环境:跨机构或区域金融机构通过FedFLARKO合作推荐,无需共享敏感客户数据,兼顾合规与隐私。
深度阅读
金融推荐系统研究报告详尽解读与分析
---
1. 元数据与概览
报告标题
Aligning Language Models with Investor and Market Behavior for Financial Recommendations
作者及机构
Fernando Spadea, Oshani Seneviratne;均来自美国纽约特洛伊的伦斯勒理工学院(Rensselaer Polytechnic Institute)
发布时间及会议
2025年,发表于第六届ACM国际金融领域人工智能会议(ICAIF ’25,2025年11月15-18日,新加坡)
研究主题
结合大型语言模型(Large Language Models, LLMs)、知识图谱(Knowledge Graphs, KGs)与行为优化(Kahneman-Tversky Optimization,KTO),设计行为金融学对齐的资产推荐系统,旨在改善用户偏好一致性和推荐的可解释性。侧重于金融推荐系统的用户行为偏好对齐、监管合规性和联邦学习等技术架构。
核心论点及贡献
- 现有金融推荐系统缺少对投资者行为和监管合规的深入考量,导致推荐不可执行或难以被用户采纳。
- 提出FLARKO框架:融合LLM、KG和KTO,通过对用户历史交易数据和市场趋势编码成KG,作为LLM解析上下文,生成既盈利又行为对齐的资产推荐。
- 设计了集中式(CenFLARKO)和联邦式(FedFLARKO)架构,分别适应不同的隐私与数据共享限制。
- 首次将KTO应用于行为金融推荐LLM微调,并首次在联邦学习环境中采用行为金融结构化KG辅助LLM推理。
- 在FAR-Trans数据集上对比并超越现有主流基线模型,在行为对齐与盈利性两个关键指标上表现卓越,同时保证推荐的可解释性和资源效率。
整体传达的主要信息是:将个性化行为数据和市场信息结构化为KG,辅以行为经济学驱动的优化方法,能够显著提升金融资产推荐系统的用户行为一致性及盈利能力,且框架在不同部署场景均具可行性和实用价值。[page::0,1]
---
2. 逐章节深度解读
2.1 引言与背景(1 Introduction)
- 关键论点
- 传统金融推荐多关注纯数值优化,忽视用户多元偏好(伦理、合规、限制等),造成实际采纳率低。
- 现有模型结构僵化,难捕捉投资者行为随时间演变的动态。
- 金融监管限制数据集中处理,联邦学习可解决隐私和合规问题。
- LLM潜力受限于缺乏行为基础与透明度,且不便处理敏感数据。
- 论据与假设
- 通过交易历史和市场行情构造知识图谱(KG)为LLM提供富语义结构的上下文,提升解释性和推荐合理性。
- 采用KTO优化,仅需简单二元标签,适合分布式环境并降低标注成本。
- 核心创新点
- 结合LLM、KG和行为模型优化,统一提升推荐盈利与对齐度。
- 支持集中及联邦两种训练架构,适应不同法规与数据环境。
[page::0]
2.2 贡献点(1.1 Contributions)
- 提出整合框架: FLARKO利用LLM和KG将个性化的用户行为和市场动态合理融入资产推荐中,实现可控且多维度的上下文推理。
- 行为对齐验证: 首次证明基于行为数据的对齐指标(Pref@3和Comb@3)可通过LLM训练有效优化。
- 模型规模与性能关系: 经验表明中型LLM(1.7B~4B)即可达到最佳性能,避免过度依赖超大模型,提升实际部署可行性。
- 联邦学习可行性: FedFLARKO在非IID数据场景下依然表现稳健,提升模型跨机构协同能力。
[page::1]
2.3 应用场景(1.2 Use Cases)
- 集中式应用:单一金融机构使用CenFLARKO,提供个性化财富管理建议,顾问可对结果进行人工干预。
- 联邦式应用:多机构跨地域合作,FedFLARKO实现协同升级推荐模型而保护客户隐私,兼顾GDPR、CCPA等法规合规。
[page::2]
2.4 相关工作(2 Related Work)
- 金融推荐传统局限: 规则系统、协同过滤等模式难以适应金融市场动态及复杂用户行为。
- LLM在金融的应用: 当前大多用于文本分析、情绪挖掘等,但面临时效性、准确性和合规风险。
- KG在金融中的作用: 现有KG多侧重宏观经济分析,缺少个性化用户行为建模。
- 行为金融指标价值: FAR-Trans数据集开创交易行为与资产市场数据融合评价指标,强调行为对齐的重要性,本报告正是沿此思路创新推动。
[page::2]
2.5 FLARKO数据架构及KG构建(3 FLARKO Data Architecture)
- KG设计
- 使用PKG(Personal Knowledge Graph)捕获用户交易历史,体现投资偏好。
- 使用MKG(Market Knowledge Graph)表达市场行情及资产元数据。
- KG以三元组(subject-predicate-object)格式构造,序列化为JSON-LD便于LLM输入和语义扩展。
- 通过时间窗口限制造成输入规模适中,采用滚动统计聚合和冗余数据剪裁实现KG紧凑表达。
- PKG示例
- 交易实体节点包括交易类型(买卖)、金额、时间戳、资产ISIN及参与者等,清晰展现交易细节。
- MKG示例
- 以十周价格摘要(最高价、最低价、均价、收盘价)结合资产分类、行业、板块等元数据组合,形成市场动态语义结构。
- LLM输入设计
- 结合PKG和MKG作为上下文,经系统提示明确角色和输出格式,提升推荐的准确性和可解读性。
[page::3]
2.6 行为对齐优化(4 Behavioral Alignment)
- Kahneman-Tversky Optimization(KTO)
- 以简单的二元标签监督推荐优劣,适合分布式环境减少标注压力。
- 数据点包括提示、候选完成和二元标签,生成行为与财务均对齐的推荐示例。
- 判别标准要求资产在推荐后180天内既被购买且获得正收益,兼顾可执行性和盈利性。
[page::4]
2.7 联邦学习架构(5 Federated Learning Setup)
- 客户建模
- 模拟20家不同金融机构,以客户类型、风险偏好、投资规模造成人群非IID分布。
- 实现IID与非IID客户分布两种实验场景验证模型泛化能力。
- 通信优化
- LoRA低秩适配及4位量化技术,显著降低参数传输规模。
- 每轮随机选3个客户端更新本地模型,服务器进行聚合,确保通信和计算平衡。
[page::4,5]
2.8 实验设计与指标(6 Evaluation)
- 数据集
- 采用FAR-Trans,包含用户交易数据、资产价格及用户画像。
- 时间切割严格,训练与测试集采用不同时间段构建。
- 基线对比
- 包含价格基线(随机森林、线性回归、LightGBM)
- 行为基线(Popularity, LightGCN, ARM, MF, UB kNN)
- 随机采样
- 指标
- Pref@3(偏好对齐命中率)
- Prof@3(盈利命中率)
- Comb@3(两者交集命中率,重点指标)
- 联邦客户端模拟
- 根据客户属性构建不同投资者行为分布,均衡生成2.38万余标注样本,偏好数据均衡正负样本比例。
- 训练配置
- 采用Qwen3家族LLM(0.6B, 1.7B, 4B, 8B参数)
- Yarn扩展上下文窗口至131072.tokens
- LoRA rank为16,alpha 64,进行低秩微调,兼顾效率
- 联邦训练200轮,每轮3客户端约0.1 epoch,与集中训练总epoch数保持一致
[page::5]
---
3. 图表深度解读
3.1 图1 —— CenFLARKO与FedFLARKO对比基线模型性能表现

- 描述
左图为偏好对齐(Pref@3)与盈利性(Prof@3)的二维散点图。
右图为Comb@3复合指标的柱状统计。
- 数据与趋势
- LightGBM在Prof@3(盈利能力)指标最高,但Pref@3(行为对齐)最低。
- FLARKO模型(CenFLARKO及FedFLARKO)在Pref@3表现优异,尤其是CenFLARKO模型。
- 复合指标Comb@3显示FLARKO全面胜出,这表明系统能够推荐既被用户接受又具有正收益的资产。
- 行为基线(ARM、MF等)虽在Pref@3有一定优势,但难以与FLARKO在Comb@3的表现相比。
- 联系文本
图1验证了报告论断:盈利最大化的模型并不一定是优质推荐,用户行为偏好的对齐极为关键,结合两者的模型才是实用金融推荐的未来方向。
- 方法论点评
本图清晰地呈现行为对齐与盈利的权衡,凸显本研究融合KG及LLM的有效性和创新性。
[page::1]
3.2 图2 —— PKG中用户交易示例

- 描述
以交易实体为核心,关联交易类型、金额、时间戳、ISIN资产编号及参与者信息的KG结构。
- 数据解读
展现典型交易记录的语义结构,明确交易各种属性节点的关系,为LLM的上下文推理提供丰富、结构化的事实基础。
- 联系文本
体现PKG对用户个体行为的细粒度捕捉,是个性化推荐的核心输入数据。
[page::3]
3.3 图3 —— MKG中资产行情摘要示例

- 描述
展示以十周价格汇总为节点的资产市场表现摘要,包括最高价、最低价、平均价、收盘价及对应的资产类别、行业板块信息。
- 数据解读
通过时间窗口聚合降低数据复杂度,同时捕获足够市场动态信息支撑LLM推理。资产拓扑结构使模型能关联市场大环境和个股表现。
- 联系文本
MKG承载市场层面信息,与PKG用户行为数据共同构成决策参考,有助于实现盈利和行为对齐的平衡。
[page::3]
3.4 表1 —— LoRA适配器大小与通信成本
| 模型 | 可训练参数数 | 4-bit适配器大小 |
|------------|---------------------|------------------|
| Qwen3-0.6B | 10,092,544 | 4.81 MB |
| Qwen3-1.7B | 17,432,576 | 8.31 MB |
| Qwen3-4B | 33,030,144 | 15.75 MB |
| Qwen3-8B | 43,646,976 | 20.81 MB |
- 描述
展示各规模模型微调时的参数规模及对应通信负荷,突出LoRA+量化的通信效率优势。
- 解读
最大模型每轮通信不到500MB,适合联邦学习场景传输控制,实用性强。
[page::5]
3.5 表2 —— CenFLARKO不同模型规模与上下文输入配置结果
| 模型 | 输入数据 | Pref@3 | Prof@3 | Comb@3 |
|-----------|----------------------------|------------------|------------------|-----------------|
| Qwen3-0.6B | PKG | 0.4439 ± 0.0355 | 0.4694 ± 0.0356 | 0.2551 ± 0.0311 |
| Qwen3-1.7B | MKG | 0.5341 ± 0.0532 ↑ | 0.5169 ± 0.0530 | 0.3448 ± 0.0510 |
| Qwen3-4B | Combined | 0.2740 ± 0.0522 | 0.6400 ± 0.0554 ↑ | 0.1644 ± 0.0434 |
| Qwen3-8B | PKG | 0.4528 ± 0.0684 | 0.5849 ± 0.0677 | 0.3585 ± 0.0659 |
- 解读
- 中小模型(1.7B)在偏好对齐和复合指标表现最佳,而4B模型盈利性(Prof@3)最高。超大模型8B未表现最好,说明规模并非决定性因素。
- PKG数据普遍对Pref@3有较好支持,说明行为数据对行为对齐的贡献显著。
- 合并输入对部分小模型效果反而下降,可能因上下文限制导致信息冗余。
[page::6]
3.6 表3 与表4 —— FedFLARKO非IID与IID分布下结果对比
- 非IID环境(表3)
Qwen3-4B模型Comb@3最高,明显优于其他模型,表明其对数据异质性适应性强。
- IID环境(表4)
规模较小模型在IID下表现稍有提升,但大模型4B反而在非IID环境更优,凸显其在真实异构环境中的优势。
- 结论
FLARKO在联邦多机构真实情形下的应用具备鲁棒性和实际可行性,且大模型在处理复杂、异质数据时效果更稳定。
[page::6,7]
---
4. 估值分析
本报告聚焦于金融资产推荐技术与行为对齐,并未专门展开传统金融意义上的估值模型(如贴现现金流、P/E倍数等)的分析。评估指标以行为偏好符合度和资产盈利能力为核心,强调推荐系统有效性的多维度衡量。模型通过优化行为对齐指标,如Pref@3和Comb@3间接推动资产推荐的价值最大化。联合使用KG和LLM架构,是对资产定价信息与投资行为的综合建模。
---
5. 风险因素评估
报告中虽未明确独立章节详细列风险,但从内容可归纳关键潜在风险包括:
- 数据隐私及法规合规风险
金融数据敏感,联邦架构为缓解方案,可能受限于不同地域法规的差异。
- LLM推理不稳定及幻觉风险
纯LLM可能生成错误推荐,用KG结构辅助推理及行为对齐降低误导风险。
- 非IID客户数据分布的挑战
联邦学习中数据异质性可能影响模型泛化,报告通过实验证实大模型在非IID环境下表现更好以减缓此风险。
- 资源消耗与运维成本
尽管采用LoRA等高效调优策略,模型规模及通信负荷仍需合理控制以保障部署复杂度和响应速度。
报告以联邦学习和行为优化的方式针对上述风险提出了设计思路与缓解路径,但仍存在现实落地的技术和合规考验。
[page::0,4,5,6]
---
6. 批判性视角与细微差别
- 模型规模与性能非线性关系
该研究发现最大模型8B并未显著优于中型模型,表明在特定业务领域,模型精细设计和输入特征选择比盲目扩规模更重要。
- PKG与MKG结合时表现下降
小模型难以充分利用大上下文,提示LLM对输入结构和容量敏感,未来需更智能的上下文融合方法。
- 联邦学习性能相较集中式略有下降
表明分布式训练环境带来的数据和通信噪声依然存在挑战,但在异质数据场景下某些大模型反而受益,值得进一步深入解析异质性与模型容量的关系。
- 行为对齐标签标准的局限
目前标签依靠资产购买和盈利双重判定,未覆盖更复杂的用户满意度、风险承受能力等多元化指数,仍有优化空间。
- 缺少对长期动态投资策略的深入探讨
仅基于180天窗口判断,未来应结合长期绩效与行为变化轨迹,更好支持生命周期投资管理。
整体来看,报告方法创新且实验全面,但仍需注意多源数据整合时的上下文容量瓶颈及行为标签的简化可能限制推荐系统全面适用性。
---
7. 结论性综合
报告的关键发现总结:
- FLARKO提出了基于LLM和结构化KG结合的金融资产推荐新范式,显著超越传统基于价格或口碑的推荐系统。
- 利用个性化用户交易历史PKG与市场行情MKG双重KG构建输入,提高了推荐的语义表达力和逻辑推理能力。
- 行为经济学驱动的KTO算法实现了对LLM推荐行为的有效对齐,优化的推荐更符合用户实际偏好且保持盈利性。
- 中型LLM(1.7B至4B)在实现性能与可扩展性间达到良好平衡,且联邦学习架构在非IID真实场景下表现稳定优异。
- 实验表明,行为对齐指标Pref@3和复合指标Comb@3是评估金融推荐系统实用性的关键,超越仅重盈利性能的传统指标体系。
- 表格和图例数据均支持上述结论,表明系统推荐更易被用户采用且更具投资价值,是金融推荐领域的重要进展。
作者总体立场与判断
报告明确推荐将行为金融数据和市场动态通过KG形式引入,从而实现LLM行为对齐金融推荐,这种设计在实际监管和隐私约束的金融环境下具备广泛应用前景。CenFLARKO和FedFLARKO两个版本均表现出高性能和灵活适用性,是下一代金融智能推荐系统的有力候选方案。
[page::7]
---
总体评价
本报告结合前沿LLM、KG以及行为优化方法,将复杂投资者行为和市场动态数据结构化融入模型,实现兼具盈利性和用户行为对齐的资产推荐,内容完整、技术细节丰富且实验验证充分。报告对金融推荐系统的核心痛点提出了创新思路,设计细致且实证数据翔实,具备较强的理论和应用价值。未来可持续聚焦多模态数据融合、长期行为变化建模和在线实时用户反馈,进一步推动智能金融推荐向适应性和动态发展迈进。
---
如果需要对报告中任一章节、图表或技术细节进行更深层的剖析,亦可继续展开。

