`

LLM Agents Do Not Replicate Human Market Traders: Evidence from Experimental Finance

创建于 更新于

摘要

本报告首次系统比较了大型语言模型(LLM)驱动代理与人类交易者在实验资产交易市场中的行为。结果显示,LLM代理表现出更接近基本面的理性定价,较少发生价格泡沫,而人类市场普遍产生显著泡沫及崩溃,且波动更大。多种实验条件下的异质模型混合市场也未出现人类典型的泡沫现象。策略文本分析显示,LLM代理更依赖基本面,行为更一致,预测更准确且偏差更小。这表明直接用现成LLM模拟人类市场行为存在风险,不足以捕捉人类行为驱动的复杂市场现象[page::0][page::1][page::2][page::4][page::6][page::7][page::8][page::9].

速读内容


LLM 市场交易表现更趋理性,远少于人类的泡沫生成 [page::2][page::3]


  • Claude-3.5-Sonnet 和 GPT-4o LLM 代理均在价格中误差(MSE)上表现优秀,价格紧贴基本面,表现为理性市场(R类)。

- Grok-2 和 GPT-3.5 产生较大泡沫,行情表现接近人类(H类),GPT-3.5泡沫单边上扬无明显调整。
  • Gemini-1.5 Pro 产生反向泡沫,价格远离基本面且波动无序,表现异于理性与人类(E类)。

- LLM代理价格变动幅度及策略多样性显著低于人类市场。[page::2][page::3]

异质 LLM 竞赛市场不产生大幅泡沫,模型间优势差异很小 [page::4]


  • 多模型混合竞赛市场总体价格接近基本面,有时出现温和泡沫,但规模远小于人类泡沫。

- 各模型组合收益值(平均组合价值)差异有限,无单一模型持续领先。
  • 说明 LLM 竞逐与异质性不足以产生强烈的非理性市场动态。[page::4]


LLM 交易策略文本挖掘揭示基本面导向与人类“低买高卖”显著差异 [page::6][page::26][page::27]

  • LDA主题分析区分两类策略:人类倾向“买低卖高”投机主题,LLM更侧重“基本面调整”主题。

- 关键词计数和情感分析显示LLM更频繁使用“内在价值”、“买回”等理性词汇,人类更偏好“低”、“高”等波动描述。
  • 语言学检验显示带泡沫的模型(如Grok-2, GPT-3.5)投机词占比高,非泡沫模型强调基本面,呈现明确的风格差异。[page::6][page::25][page::26][page::27]


股息突变实验检验 LLM 对基本面变化的调整能力 [page::6]



  • 双倍或减半分红对基本面价格影响显著,绝大多数LLM快速调整策略,价格趋近变动后的基本面。

- GPT-3.5调整缓慢,保持之前价格区间,偶尔产生小幅泡沫。
  • 表明除个别模型外,大部分LLM具备敏感基本面响应能力。[page::6]


LLM 预测行为表现更准确,偏差小且更符合理性预期 [page::7][page::8][page::29][page::30]


  • 人类普遍出现系统性低估趋势,平均一步预测误差高达1.67;LLM平均误差接近0,预测更精准。

- 多项理性检验显示GPT-3.5偏差最大且相关性最高,Claude-3.5-Sonnet和GPT-4o表现最佳,Gemini-1.5-Pro及其他居中。
  • 无模型能完全复制人类复杂的预测行为模式,模型间区别明显且预测稳定性优于人类。[page::7][page::8][page::29][page::30]


其他重要发现与实验设计说明 [page::15][page::19][page::20]

  • 实验详尽还原人类交易设计,包括限时订单、预测奖励及资金限制。

- “练习反思”和“实验反思”机制帮助LLM代理进行链式思考(CoT),促进策略形成。
  • 风险偏好任务插入对LLM交易行为无显著影响,经验会话同样未改变整体表现。

- 伦理声明与复现说明保证了研究的透明性和可扩展性。[page::15][page::19][page::20]

深度阅读

金融研究报告深度分析:


##《LLM AGENTS DO NOT REPLICATE HUMAN MARKET TRADERS: EVIDENCE FROM EXPERIMENTAL FINANCE》

作者与机构


Thomas Henning, Siddhartha M. Ojha, Ross Spoon, Jiatong Han, Colin F. Camerer
(Caltech、Virginia Tech、Zhejiang University联合研究)

---

一、元数据与报告概览



1.1 报告标题及机构


论文题目为《LLM代理未能复制人类市场交易者:来自实验金融学的证据》,由Caltech等高校研究人员联合完成。研究聚焦于“LLM(大型语言模型)代理”在经典实验资产交易市场中的行为表现,并将其与人类交易者进行对比。

1.2 报告核心论点


报告核心观点为:与人类交易者相比,LLM代理市场展现了显著不同的交易行为。具体表现为:
  • LLM交易者更趋近“教科书式理性”,即价格接近资产的基本面价值;

- 其泡沫形成倾向极弱或几乎不存在;
  • 人类交易者则明显偏离基本面,频繁形成价格泡沫及回落。


实验涵盖单一模型“单模市场”和多模型竞争“Battle Royale”市场,结果一致表明LLM表现出更低的波动性、较少的偏差且更依赖基本面,与人类的启发式交易方式根本不同。报告提醒,使用现成LLM作为人类市场动态模拟存在严重风险,因为关键的市场行为特征(如泡沫崩盘)未被复制。[page::0,1]

---

二、逐节深度解读



2.1 摘要与引言(第0-1页)


引言提及金融市场作为动态协调系统,传统假设理性行为受行为金融学批评,人类表现常见认知偏差(羊群效应、过度自信等),诱发资产泡沫。LLM作为新兴代理系统,其在金融市场中的行为特点不明,论文旨在填补“LLM与人类行为对比”空白,采用Smith等经典实验资产市场设计,资产价格由参与者提交的订单内生决定,无外部锚定价格。此设计确保市场环境可控,便于深入挖掘行为差异。[page::0,1]

2.2 背景与相关工作(第1页)


详细梳理了当前LLM在策略性情境(囚徒困境、公共物品游戏等)及金融领域的应用现状。不同于多数聚焦实证预测的文献,此研究切入实验金融学,首次在端生市场结构下系统比较LLM与人类交易行为。该研究嵌入实验经济学传统,有效传承了Smith等关于泡沫生成机制的实验遗产。[page::1]

2.3 实验设计(第1-2页)

  • 采用30期连续交易,初始持有4股股票与100 (后续有140) 现金。股票随机分红为0.4或1,现金期末利率5%。

- 资产最终赎回价固定14,确保基本面价值恒定,清晰区分泡沫状态。
  • 价格以买卖订单撮合确定,完全端生,没有市场做市商介入。

- 人类参与者来自大学内部和线上平台,任务说明与LLM代理一致。
  • LLM代理获得与人类一致的信息,基于提示文本完成人工智能模拟交易。

- 采用Chain-of-Thought推理,允许模型记录“Insights”和“Thoughts”实现跨轮记忆与学习。
  • 易混淆的结果划分为三类:理性(R)、人类式泡沫产生(H)、和无序异常(E)。[page::1,2]


2.4 单一模型市场表现(第2-3页)


关键发现

  • Claude-3.5 Sonnet和GPT-4o模型价格紧贴基本面(MSE均<1),与人类价格路径相关性极低(接近0),表现理性(R类)。

- Grok-2和GPT-3.5代理产生价格泡沫,与人类市场相关性较高(PCC分别0.558和0.490),分别表现为泡沫-崩盘和单边上涨(无崩盘)。
  • Mistral-Large在泡沫幅度较小且崩盘更加剧烈,仍归为人类式(H)。

- Gemini-1.5 Pro表现极其异常:价格跌破基本面后修正,泡沫倒转(负相关),归为异常(E)。[page::2,3]

表1解读


| 模型 | MSE(与基本面)| PCC(与人类平均价格)| 行为假设 | 组合价值方差 |
|--------------------|----------------|---------------------|-----------|--------------|
| Claude-3.5 Sonnet | 0.536 | 0.001 | 理性(R) | 26.15 |
| GPT-4o | 0.789 | 0.050 | 理性(R) | 22.76 |
| Grok-2 | 17.325 | 0.558 | 人类(H) | 39.43 |
| Mistral-Large | 5.694 | -0.112 | 人类(H) | 49.96 |
| GPT-3.5 | 26.367 | 0.490 | 人类(H) | 30.44 |
| Gemini-1.5 Pro | 3.103 | -0.401 | 异常(E) | 45.58 |
  • MSE低表示价格贴近基本面,PCC高说明价格轨迹与人类市场类似。

- 组合价值方差反映个体策略多样性,低者策略趋同。[page::3]

图1描绘


图1展示了所有六模型单独市场的价格轨迹与人类平均价格的对比。
  • 人类价格形成典型泡沫—价格显著高于14,随后回落。

- 背景虚线为基本面价格14。
  • Claude-3.5 Sonnet和GPT-4o价格稳定、贴近基本面。

- Grok-2、GPT-3.5等表现泡沫特征。
  • Gemini-1.5 Pro价格低估后回升,异乎寻常。

整体视觉显示LLM难以复制人类市场中大规模泡沫出现的现象。[page::3]


2.5 多模型混合“Battle Royale”市场(第3-4页)


进行含六种模型共24代理的混合市场实验(每种模型4代理),目标评估:
  • 哪类LLM模型在竞争环境中获利最佳?

- 多策略交汇是否促成泡沫等市场层面现象?
  • 混合市场整体表现。


结果分析

  • 三次混合市场中,两次价格均收敛于基本面附近,只有一次出现低幅泡沫波动,形态类似人类市场但峰值更低。

- 价格上涨末期伴随交易量激增,类似人类的末期抢跑现象。
  • 整体动态更贴近理性假设(R)。

- 各模型组合价值接近,无单一模型持续领先,说明竞争导致策略趋同且收益分布较均匀。
  • 本部分以图2和表2呈现。


图2解读


市场平均人类价格明显高于基本面且波动剧烈,LLM混合集体价格紧凑且接近基本面14,泡沫出现有限且较小。



表2摘要


| 模型 | 平均组合价值 ± 标准差 |
|----------------|----------------------|
| Mistral-Large | 689.56 ± 4.11 |
| Gemini-1.5 Pro | 688.49 ± 4.48 |
| Claude-3.5 Sonnet| 680.36 ± 5.08 |
| GPT-3.5 | 674.42 ± 3.48 |
| GPT-4o | 671.36 ± 17.30 |
| Grok-2 | 668.51 ± 27.01 |
均值紧密表明模型之间竞争力相近。[page::4]

2.6 交易策略文本分析(第4-5页)

  • LLM每轮需描述其“计划”和“洞察”,反映其交易策略;人类仅实验后总结。

- 词频统计显示两者前六高频词几乎重叠(如“买”、“卖”、“价格”、“股票”),但人类词汇中“低”、“高”等强调价差机会,LLM注重“继续”、“回购”等持有和价值调整文案,指示人类偏好“低买高卖”,LLM更强调长线价值投资。
  • 文本挖掘发现LLM内部无明显协同言辞,大部分策略相互独立;人类偏向协作式市场心理。

- 分类器表现出LLM策略文本与人类明显区分,除GPT-4o和Gemini-1.5 Pro部分文本可误判为人类文风。
  • LDA主题模型显示89.3%人类策略属买低卖高主题,LLM仅36.6%,多数属于强调内在价值的第二主题。该异质性显著(p<0.001)。[page::4,5]


2.7 语言特征与泡沫生成机制(第5页)

  • “投机”关键词(如“趋势”、“拉升”、“泡沫”)比例高的模型(Grok-2、GPT-3.5)易产生泡沫,前者甚至出现泡沫-崩盘周期;

- GPT-4o、Claude-3.5 Sonnet和Gemini-1.5 Pro注重“基本面”关键词,抑制泡沫上涨;
  • Mistral-Large介于二者间,产生小规模、中等激烈的泡沫峰值。

此语言模式分析为模型市场动态差异提供了合理的行为机制解释。[page::5]

2.8 市场变动处理能力测试:股息冲击(第6页)

  • 股息及终值中途翻倍或减半(第15期开始),模型预先未知这一“新闻”,模拟资产价值突变。

- 除GPT-3.5滞后于价格调整外,其他模型均能逐步收敛并反映更新后的基本面价值(28或7美元);Gemini-1.5 Pro偶尔产生轻微泡沫。
  • 向上冲击调整速度略慢,部分因交易价格变动幅度限制设置。

- 结果进一步证明LLM倾向理性、贴近基本面,GPT-3.5独具迟钝与泡沫化倾向。
  • 附图3和4详细展示各模型价格路径。[page::6]




2.9 额外稳健性检验(第7页)

  • 消除风险测量任务或赋予LLM “交易经验”对市场表现影响甚微,LLM仍展现理性定价。

- 说明结论对少量实验设置变化保持稳健,不同调整下基本面趋同与泡沫低发生率保持不变。[page::7]

2.10 LLM个人价格预测理性(第7-8页)

  • LLM预测未来价格误差($E_{i,t}^h$)平均值接近零,分布更紧凑且偏差更小;而人类预测表现为系统性低估(平均误差1.67)。

- GPT-3.5偏差最大,且预测误差自相关显著,Claude-3.5和GPT-4o表现最为理性,其他模型表现居中。
  • 预测误差与预测值的无关性检验中,GPT-3.5与GPT-4o违背理性假设,Gemini-1.5Pro表现最佳。

- 综上,LLM预测准确性整体优于人类,但未复现人类特有预测误差模式,模型间理性差异显著。
  • 表4详列理性指标测试结果。

- 图5与多张相关分布图展示预测误差随时间与期限的变化趋势。[page::7,8]


2.11 潜在限制与影响(第8页)


风险与限制

  • LLM无真实激励或情感,其策略依赖于预训练权重与提示结构,无自主在线学习能力。

- 实验为单资产短期模型,真实市场多资产交互、长期策略尚不明确。
  • 仅测试部分开箱即用基础模型,无微调,后续模型版本及提示方式可能影响效果。


价值与影响

  • 鉴于部分对冲基金已采用LLM的交易指令,监管与实务须监控新兴AI订单流行为。

- 传统行为金融理论依赖实验验证,本实验为理解LLM市场行为提供范式。
  • 警示盲目用LLM替代人类行为实验危险,需严谨验证。


2.12 研究结论与总结(第8-9页)

  • 明确指出LLM代理在实验资产市场中表现出远高于人类的“理性”行为,价格围绕基本面波动,显著减弱泡沫生成及崩盘。

- 个体策略趋同性比人类强,缺少多样化。
  • 结果对变化环境(股息冲击等)下依然成立。

- LLM预测性能超越人类,但各模型间存在明显异质。
  • 本文强烈建议谨慎使用“现成”LLM作为人类行为代理。

- 展望未来,是否可通过特定提示或激励使LLM产生更人类似泡沫是重点研究方向。
  • 目前结论为LLM与人类交易者行为存在本质差异的初步证据。

- [page::8,9]

---

三、图表深度解读



3.1 表1(第3页)

  • 通过均方误差(MSE)衡量价格偏离基本面的程度,PCC衡量LLM市场价格轨迹与人类平均轨迹的相关度。

- Claude-3.5 Sonnet和GPT-4o表现出极高理性,MSE极低(0.5~0.8),PCC接近0,无明显人类市场波动轨迹;而Grok-2和GPT-3.5等泡沫模型MSE高,相关度显著,模拟出人类常见的泡沫行为。
  • Gemini-1.5 Pro价格逆泡沫,负相关,表现极度异类,策略多样性较高。

- 组合价值方差指标评估个体行为统一性,理性模型方差最低,泡沫型中等,异常模型方差较高。

3.2 图1(第3页)

  • 显示多模型单模市场价格走势对比基础线和人类市场平均轨迹。

- 人类市场典型价格大幅高于14(基本面),并经历泡沫爆破;LLM市场多维持于14附近,泡沫轻微或不存在。
  • GPT-3.5呈单侧快速攀升走势,缺乏泡沫崩盘,少数模型体现一定冲高回落。

- 通过此图直观感受LLM难以自然产生人类典型市场泡沫形成机制。

3.3 图2及表2(第4页)

  • 混合模型市场中,LLM价格整体靠近基本面,与人类市场价格峰值差距巨大。

- 表2显示各模型均等表现,无单一模型持续占优,收益分布趋中更公平。
  • 多模型竞争背景下LMM策略趋同,难复现泡沫极端波动。


3.4 图3与图4(第6页)

  • 反映股息翻倍与减半两个噪声冲击时,价格如何调整并接近更新的基本面。

- 除GPT-3.5外,所有模型价格线随基本面改变而调节,体现对市场“新闻”的理性响应。
  • GPT-3.5调整迟缓偏固守旧基准,偶发泡沫发生。

- 多图重叠显示过程非瞬时,但均表现合理趋近趋势(定价趋“合理”)。

3.5 图5及图26-33(第7-8,29-37页,多个预测误差图)

  • 图示LLM与人类价格预测误差均值与误差分布,以及统计测试(偏差、误差自相关、误差与预测值相关)。

- 证明LLM多表现为无偏、低误差、自相关性弱,明显优于高偏差且有系统误差的人类。
  • GPT-3.5表现最差,误差偏离最大,预测存在强烈偏差与非理性模式。

- 不同模型理性特征不同,且所有模型均未完全复制真实人类预测误差行为,表现异质。
  • 支持LLM是更“算术理性”代理的结论。


3.6 文本分析表与图(第26-27页)

  • 词频统计与主题LDA模型揭示人类与LLM交易策略的思维截然不同。

- 人类交易语言集中在“买低卖高”,LLM则专注“基本面调整”,体现两种不同决策路径。
  • 多模型语言特征分类准确率高达83%,支持模型策略存在系统化区别。

- 文本中“投机”词汇率与泡沫强度显著相关,量化了语言与价格波动的关联机制。

---

四、估值方法与分析



本研究通过均方误差(MSE)测量市场价格与既定基本面价格的偏离,反映理性程度。
交易策略多样性通过组合价值方差量化。
此外,Pearson相关系数(PCC)被用来衡量LLM市场价格动态与人类市场的相似度。
本质上,研究未采用DCF等传统估值模型,而着眼于实验中真实市场价位的内生比较,是实验金融范式中对行为偏差的量化检测。

---

五、风险因素评估



报告识别的风险主要包括:
  1. 模型内在局限性:LLM缺乏真实激励机制和情感,不进行基于反馈的在线学习,策略由静态参数与提示形成,可能限制适应性。

2. 实验环境简化:单资产短期实验限制了现实市场复杂交互的还原能力,实际多资产组合、做空机制与长期投资行为尚未涵盖。
  1. 模型代表性有限:只考察了6个商业API模型,无微调处理,未来优化可能改变表现。

4. 替代性风险:盲目用LLM替换真实人类市场参与者在研究设计和监管政策模拟中风险大。

报告并未提出具体风险缓解策略,强调为开创性研究,需复杂多样实验和算法迭代拓展。[page::8,9]

---

六、批判性视角与细微差别


  • 尽管研究充分揭示LLM交易表现与人类的差异,但实验设计局限于静态资产与较短周期,未来可能存在改进空间。

- GPT-3.5的特殊表现(高度波动、泡沫化但无崩盘)提示在不同模型间其行为异质性对市场动态影响巨大,强调了单一模型结论推广的限制。
  • 部分LLM在预测误差自相关测试中表现差异大,可能反映模型内部短时记忆或推理机制差异,值得更深入分析。

- 语言策略分析基于关键词与主题分布,存在一定解释局限,但为洞察行为机制提供有力辅助。
  • 经验情境测试(多轮交易记忆)未显著提升LLM泡沫行为,提示靠先验模型能力难以简单模拟人类复杂行为学习过程。


总之,报告表现出较强的实验严谨性及透明性,同时对结论推广持谨慎态度,有效避免过度解读风险。

---

七、结论性综合



整体来看,本报告呈现了首个系统定量对比LLM代理与人类市场交易行为的实验金融研究,主要发现包括:
  • LLM市场价格更贴近基本面,泡沫及价格偏离显著低于人类市场。

- LLM交易策略统一度高,缺少人类交易的启发式多样化和非理性泡沫动态。
  • 混合模型竞赛环境下策略趋同且无显著优势模型,表明LLM市场缺乏拓荒性泡沫与涨跌循环。

- LLM代理的价格预测误差较小且分布集中,无系统低估或高估的偏差,远优于人类。
  • 策略文本语言差异明显,LLM更依赖基本面信息,较少使用投机性短线语言。

- 面对市场信息冲击(股息变动)多数LLM能够理性调整价格,少部分如GPT-3.5表现滞后和泡沫倾向。
  • 实验证明LLM难以模拟真实人类市场的核心行为特征,尤其是泡沫及其崩盘,提示“不加调试的LLM无法简单替代人类市场主体”。


图表深度解析(表1-2,图1-5,28-33及文本分析图)均有效支撑上述结论,提供全面数据与可视化依据。

本研究不仅对实验金融领域引入LLM智能代理提供了基准和方法论,也对金融监管、市场建模及未来多智能体系统的行为理解提出了重要警示和思考路径。[page::0-9,25-37]

---

综上,这是一份结构严密、数据丰富、分析细致的开创性研究报告,明确揭示了LLM作为市场交易代理的行为理性优势及其无法复制人类行为泡沫动态的关键限制。对于研究人员和实务监管者均具有重要的参考价值与启发意义。

报告