Demand Estimation with Text and Image Data
创建于 更新于
摘要
本文提出一种利用产品文本和图像非结构化数据,通过预训练深度学习模型提取嵌入向量,并结合主成分分析和混合Logit模型,准确估计产品需求和替代模式。实验和实证数据均显示该方法优于传统基于属性的需求模型,显著提升二选项预测的准确度,在反事实定价和合并模拟中表现突出[page::0][page::2][page::14][page::35][page::28]。
速读内容
研究背景与方法框架 [page::0][page::1][page::6]
- 需求估计中产品属性难以完全观测,且部分消费者偏好视觉设计等难量化属性。
- 利用预训练深度学习模型(如VGG19、ResNet50、Universal Sentence Encoder等),对产品图像和文本(标题、描述、评论)进行嵌入提取。
- 应用主成分分析(PCA)降维,提取关键特征作为混合Logit模型的随机系数输入。
- 开发模型选择算法基于AIC,在组合的文本、图像与价格等变量中选取最优模型。
实验设计与验证核心结果 [page::11][page::14][page::16][page::19]

- 设计包含三类图书(神秘、奇幻、自助)的选择实验,采集第一和第二选择数据,用以真实反映替代模式。
- 多种模型比较显示基于用户评论的USE嵌入混合Logit模型以更低AIC和RMSE显著优于传统属性混合Logit和普通Logit模型。
- 主成分解释了类别区分及同作者、系列图书之间的相似性,提升了替代品识别。
- 典型替代品预测样例展示了基于评论文本模型更准确识别消费者第二选择,反映强内类别依赖性。
合并模拟定价影响分析 [page::22][page::23][page::24]

- 利用估计的替代模式模拟图书行业合并后的价格变化。
- 传统Logit模型错误识别替代对,导致合并价格影响被低估或高估,可能误导反垄断机构决策。
- 基于评论文本的模型能更准确捕捉内类别替代,提高反垄断政策的准确性。
大规模电商数据应用 [page::25][page::26][page::28][page::30]

- 采用亚马逊40个品类大数据,包括服装、电子产品、食品等,结合产品价格、文本与图片开展需求估计。
- 本文方法在所有品类均显著改善拟合效果,平均AIC改善23.3点,替代产品的预测比例显著高于传统Logit。
- 不同类别下文本与图像数据的重要性具有较大异质性,强调需综合采集多种数据并基于模型选择进行判断。
量化因子构建与策略说明
- 通过深度学习模型生成产品图像和文本低维嵌入,进一步用PCA主成分提取关键因子。
- 因子作为替代模式的估计变量引入混合Logit模型,实现产品间替代弹性的估算。
- 采用逐步模型选择算法利用AIC评价因子组合,避免过拟合并提升反事实预测能力。
- 实验中无明显改进收益于同时加入结构化属性,表明文本与图像因子已编码核心选择相关信息。[page::6][page::8][page::31]
深度阅读
金融研究报告详尽分析报告
报告标题: Demand Estimation with Text and Image Data
作者及机构: Giovanni Compiani(芝加哥大学)、Ilya Morozov(西北大学)、Stephan Seiler(帝国理工学院&CEPR)
发布日期与主题: 2024年,主题围绕如何利用文本与图像数据改进差异化产品的需求估计,特别关注替代性(substitution patterns)的估计。
---
1. 元数据与概览
本研究提出了一种创新的需求估计方法,利用预训练深度学习模型对产品的文本描述和图像进行嵌入提取,将其转化为向量,再通过主成分分析(PCA)降维后,被引入到混合logit模型中,从而捕捉产品间的替代关系。研究核心论点是,即使缺乏标准结构化产品属性数据,或消费者价值难以量化的产品特征(视觉设计等),该方法仍能有效识别产品的替代模式。实验证明,该方法较传统属性模型表现优越,特别是在第二选择(second choices)的反事实预测中表现更佳。作者进一步将该方法应用于亚马逊40个产品类别,验证其广泛适用性并发现文本和图像数据可分别或协同提供重要替代信号。作者提供了可公开获取的Python软件包DeepLogit,为其他研究者应用此方法提供便利。[page::0,1,3,35]
---
2. 逐节深度解读
2.1 引言(Introduction)
本节强调传统基于产品属性的需求估计模型面临的难题:产品属性数据难以全面获取,且消费者经常基于难以量化的设计与功能维度作出选择。该文创新点在于利用无结构数据—产品的图像、标题、描述及客户评论—提取嵌入(embeddings),形成消费者偏好的度量。通过PCA降维后,将这些成分引入混合logit中,使用随机系数模拟消费者异质性。此举不仅减少了研究者主观选择属性的需要,也捕捉了视觉和功能层面的复杂差异。[page::1]
2.2 方法论(Proposed Approach)
方法核心为三步:
1)用四个深度卷积网络(VGG19、ResNet50、InceptionV3、Xception)针对图像提取多维嵌入,文本则采用两种先进的预训练模型:Universal Sentence Encoder (USE) 和 BERT Sentence Transformer (ST)。
2)采用PCA降维,优先保留对类别内产品区分度最大的嵌入成分,避免高维度下计算难题及多重共线性。
3)将主成分作为随机系数变量嵌入混合logit模型中,结合自变量价格和产品固定效应进行估计。模型筛选通过AIC实现,具体算法详见Algorithm 1,逐步增加随机系数变量个数直至AIC不再改善。此方法能识别对消费者选择最重要的嵌入维度,避免单纯依赖解释方差最大排序的第一主成分。[page::6-9]
解读价值点:
- 图像嵌入模型基于ImageNet等大规模分类数据库训练,具备辨识细微图像差别的强项。
- 文本嵌入通过深度学习捕捉语义相似度,能克服文档词汇表达多样性对相似度度量的挑战。
- PCA降维不仅控制了变量维度,更剔除类别识别无关的跨类别大变异,只聚焦同类别内可解释消费者偏好的维度。
- 利用AIC(赤池信息量准则)进行模型选择,权衡模型拟合优度与复杂度,确保挑选的主成分组合在预测上最优。[page::7-9]
2.3 实验验证(Validation with Experimental Data)
实验设计
设计了包含10本不同类型图书的选择实验,随机化价格及排列顺序,每位受试者完成两轮选择:第一轮从10本书中选1本,第二轮在剩余9本中选1本。该设计令研究者得以观察第二选择,进而直接验证模型捕捉替代性能力。选择图书类别不仅涵盖结构化属性(如类型、年份、页数),还包含丰富文本(情节描述、评论)与封面图片信息。招募了9,265名参与者,确保数据质量和有效样本量。[page::11-12]
模型比较与估计
对比三种模型:
- Plain Logit:无随机系数,也无属性或主成分,仅价格及产品固定效应。
- Mixed Logit with Attributes:基于传统结构化属性(页数、出版年份、类别)加入随机系数模型。
- Mixed Logit with Principal Components:仅使用从文本或图像中提取并用PCA降维的主成分,加入价格的随机系数。
表1反映不同模型在第一选择的拟合指标(AIC),基于文评(Reviews USE)的模型表现最佳,AIC比Plain Logit降低24.8,比属性模型好8.8,说明文本嵌入主成分在解释选择行为上胜过传统属性。[page::13-14]
反事实预测能力
模型通过仅用第一选择估计参数,预测第二选择的分散概率(即若首选产品不可选,消费者会转向哪个产品)。采用均方根误差(RMSE)衡量模型预测与实际第二选择的差异。
图2显示,基于文本评测嵌入的Mixed Logit模型将RMSE降低23%,显著优于仅用属性的混合logit(降低11.7%)及Plain Logit。图像嵌入模型同样表现优于基本模型,但不及文本富信息性强。文本信息对补充替代关系解释最为关键。
具体案例如图3和表2显示,不同类型图书间具有明显基于文本和图像的特征区分。主成分空间示意(图4)指出文本评论主成分有效识别类别间细分差异,如非虚构与虚构、同作者书籍等。基于模型预测的第二选概率与实验真实数据对比,基于文本的模型可准确捕捉最接近替代品,与Plain Logit相比误差显著减少。惟部分案例(如图书Ashes & Star)所有模型均表现不佳,提示数据本身替代信号弱,估计难度大。[page::15-21]
模型验证与选择合理性
在所有模型中,基于AIC的模型选择与反事实预测RMSE高度相关(相关系数0.78),同时五折交叉验证及BIC准则亦支持此选择,显示AIC作为选择标准有效。[page::21-22]
合并模拟案例分析
模拟了包含特定图书的双书籍合并下,价格的均衡变化,显示替代模式误判会显著影响反事实价格预测。例如Plain Logit模型误将异类书作为替代品,可能导致监管部门错误批准或阻止合并。基于文本嵌入的模型发现的同类替代关系更准确,仿真结果对价格调整及政策决策具有直接影响(图5,表A2)。[page::22-24]
---
2.4 电子商务大规模应用(Application to Online Retail Data)
将方法拓展至亚马逊40个类别产品,采集2019-2020年Comscore数据(含购买记录、价格)、亚马逊页面文本与图片信息。选择最畅销的15款产品并过滤购买量少于2000的类别。对部分电子产品类别收集了详细结构化属性以作对比。
模型适用性能
所有类别相比Plain Logit均有明显AIC降幅,平均降23.3甚至最高降111.5(附录表A3,图A5),说明模型普适并有效捕获替代信号。在有属性数据的电子品类中,结合无结构数据的模型拟合效果远胜纯属性模型(表A4),展示了文本与图像嵌入在电子产品替代模式识别上的增益。[page::25-27]
替代性指标—转移比率分析
画出40个类别中产品转移至最接近替代品的平均概率比较(图7),Plain Logit给出较低和均匀的转移率(约22%),而本文方法平均约47%,部分类别甚至达到60%-80%,表现出转移率更富有区分性,更符合实际经济逻辑。
例证—平板电脑类别中,Plain Logit因过度依赖固定效应,预估多数转移至最畅销产品,缺乏合理差异。使用本文选出的文本嵌入模型后,替代关系更符合产品特性和类别(iPad系列相互间替代,儿童平板相互替代),增强模型实用性。[page::28]
不同无结构数据类型的适用性差异
通过计算各类别模型规格的Akaike权重衡量不同数据类型(图像、标题、描述、评论)对模型拟合贡献的相对重要性。发现不同品类对数据类型的依赖存在显著差异,且多难以凭经验预判:例如服装类别中图像权重不总是最高,视频游戏中图像偶尔比文本信息更重要。该结果提示实践中应尽量囊括多类无结构数据,依赖模型选择择优。[page::29-31]
---
2.5 方法优势及应用建议(Practitioner’s Guide)
总结指出利用文本和图像的无结构数据提取替代性信息,避免了属性准备成本和主观选择偏差,且捕捉了视觉与语义层面难以量化的特征。建议收集多样数据,使用文中详述的模型选择算法进行验证筛选。
若已有结构化属性数据,可测试并结合PCA降维后同时引入,依据模型适配性调整方案。
理论上适用场景包括价格变动反应、并购价格模拟、税收政策评估、多产品定价策略分析。但嵌入静态假设限制了对动态商品设计及文本图像内容因策略调价而变的场景匹配。未来研究可继续拓展模型类别和嵌入技术、优化模型不确定性推断,结合价格内生性工具变量等议题。[page::31-34]
---
3. 图表深度解读
图表1(第14页)
内容描述: 展示了各需求模型(Plain Logit、混合logit基于属性、不同基于图像与文本嵌入的混合logit)在第一选择数据下的AIC比较。
解读:
- Plain Logit模型最高AIC,拟合最差。
- 混合Logit模型通过引入随机系数和丰富信息降低AIC,表明拟合更优。
- 基于用户评论的文本嵌入模型降幅最大(AIC-24.8),显示文本数据中蕴含丰富替代信息,使模型适应性显著增强。
- 模型选用的随机系数变量具有差异,隐含不同维度的消费者异质性捕捉。
该表从模型拟合优度层面支持了文本嵌入对传统属性的替代或增强作用。[page::14]
图表2(第16页)
内容描述: 展示各模型在第二选择数据(未用于估计)上的反事实预测均方根误差(RMSE)。其中分为四种数据源模型组(图像、标题、描述、评论)不同算法变体。
解读:
- Plain Logit误差最高。
- 基于属性的混合Logit降幅约11.7%。
- 文本嵌入中评论(USE)模型降幅达23%,超越所有。
- 图像嵌入模型表现次之,标题和描述模型次之,基于简单词袋计数的模型表现最弱。
这些模式说明复杂自然语言模型准确捕捉语义相似度,优势明显。
说明文本尤其是用户评论(包含个性化感受)的信息对捕捉消费者替代关系至关重要。[page::16,48]
图表3(第17页)
内容描述: 10本书封面图片示例,用于说明图像特征多样,并为图像嵌入提供基础。
解读: 书籍封面设计体现类别及风格信息,如暗色系虚构类,加上象征物等提示。通过图像模型,这些视觉特征对应消费者潜在偏好。
[page::17]
图表4(第19页)
内容描述: 使用Review USE的两个主成分分布绘图,将10本书在二维空间中的位置标示,并标明类别。
解读:
- PC1区分非虚构与虚构书籍(左-自助,右-小说类)。
- PC2进一步区分科幻与悬疑小说。
- 同作者作品和同系列书籍在空间中相近。
体现文本嵌入能够超越粗略属性,捕捉更细粒度结构化信息。
[page::19]
图表5(第23页)
内容描述: 模拟合并Dopamine Detox书籍时,三种模型预测的价格提升百分比。政策阈值为价格增加5%。
解读:
- Plain Logit模型低估了真实内生同类(自助)书合并的价格提升,但对跨品类误判过高价格效应。
- Text Review模型预测内生合并价格提升远高(5.6%~8.9%),符合经济直觉。
- 误判可能导致监管政策错误裁决,误批或误阻合并。
充分体现替代模式准确捕获对政策影响至关重要。
[page::23-24]
图表6(第26页)
示例亚马逊产品页截图,标注文本(标题、描述、评论)和图片区块,体现无结构数据的获取来源和原始形态。
[page::26]
图表7(第28页)
内容描述: 40个类别平均产品对最近替代品的转换率/diversion概率(用本文方法与Plain Logit对比)。
解读:
- Plain Logit平均仅22%,本文方法显著激增至47%,表明基于无结构信息模型能准确识别近似替代品。
- 部分类别conversion率达60%-80%,反映真实市场中强替代关系。
- 结果验证了无结构数据模型更能反映差异化产品市场真实差异。
[page::28]
图表8(第30页)
内容描述: 40个类别不同无结构数据(图像、标题、描述、评论)的Akaike权重分布,体现数据类型在各类别的相对重要性。
解读:
- 服装品类中图像重要度有高低差,且并非所有都高于文本。
- 视频游戏类中Xbox游戏图像相对文本信息极重要。
- 此图强调实践中不能预判哪种无结构数据最具信息含量,需全部收集并以数据驱动方式选择。
[page::30-31]
---
4. 估值分析
报告虽未直接提及传统的现金流折现等估值技巧,核心估值分析体现在基于估计的需求模型反事实价格模拟(合并价格变动)中,基于Bertrand-Nash竞争与单一合并后利润最大化的标准博弈均衡条件进行。此处估值方法实质是基于需求弹性和替代关系预测后的价格调整模拟,关键输入为估计的产品替代矩阵、价格弹性及固定的其他竞争对手价格和边际成本零。敏感性分析主要体现在多模型(Plain Logit、属性模型、文本嵌入模型)价格预测对比,显示替代性估计结果对价格评估的强敏感性。[page::22-24]
---
5. 风险因素评估
报告中潜在风险隐含于方法适用的边界条件:
- 嵌入被假设为时间不变,但在实际中,如果文本或图像(尤其用户评论)包含与价格相关的信息,反事实价格变动可能改变嵌入,导致模型预测偏差。
- 合并后产品设计或定位调整(改变嵌入特征)未被捕捉。
- 价格内生性问题,虽然实验中通过价格随机化消除,现实应用需要结合工具变量等方法解决。
- 模型选择对结果影响重大,虽然AIC等标准具有一定鲁棒性,但仍需谨慎。
- 输入数据质量和完整性(特别是用户评论数量与代表性)可能限制信号质量。
报告提出未来研究应解决以上风险,如模型选择不确定性推断、动态嵌入建模、价格内生性修正等。[page::31-34]
---
6. 审慎批判视角
- 报告倾向认为无结构信息(尤其文本)可大幅提升替代性捕捉,且对政策模拟有关键作用,但其主要验证在图书类别,其他类别虽有应用展示,但针对真实购买选择的验证相对缺乏“反事实第二选择”的直接观察佐证。
- 文本嵌入不可解释性(不具备明确语义)可能限制结果直观理解及实践决策透明度。
- 模型选择严格依赖AIC指标,虽然表现不俗,但模型组合仍基于预先设定的主成分数(P=6)与随机系数结构,潜在限制了模范的灵活性。
- 未深入探讨嵌入模型本身的优化,如模型微调及其他最新预训练技术集成。
- 对于价格、促销和产品设计的动态交互影响,文中方法有适用边界,无法直接建模。
综合而言,文献贡献重大,但仍需未来研究完善动态与结构性问题的处理。[page::31-34]
---
7. 结论性综合
本文提出并验证了一种结合深度学习预训练嵌入与标准混合logit的方法,利用广泛可得的无结构文本与图像信息,成功提取产品间复杂且难以用传统属性捕获的替代模式。实验数据通过采集首选与第二选择提供了罕见的替代验证基准,结果显示基于用户评论的文本嵌入模型大幅优于仅用结构化属性的混合logit模型,无论拟合还是反事实预测均表现优越。对并购价格模拟的应用进一步证明了模型替代性估计准确性对经济政策评估的关键性。扩大至亚马逊40个品类的真实购买数据时,本文方法依旧显著提升了模型拟合性能并获得更合理的替代比率分布,表明具备很强的通用性。多品类模型选择指示各类无结构数据的作用因类别而异,提示实践建议广泛收集多样数据,并经过数据驱动选择。该方法为需求估计工具箱提供了有力的新成员,特别适合产品属性未完全观测且消费者偏好多样复杂的情境。
本报告详尽分析了方法学基础、实证设计、估计与验证过程及政策仿真,解读了所有关键图表并结合应用场景说明。文章的贡献在于打破对结构化属性依赖的传统限制,借助现代机器学习技术开辟了一条基于无结构数据的需求估计创新路径。
整体来看,该方法在数据广度和替代性识别上实现了质的飞跃,对需求建模和相关经济政策研究均有深远意义。[page::0-35]
---
附:重要表格/图示Markdown格式示例
图12 示例:实验选择任务展示
图16 示例:模型比较反事实RMSE
图19 示例:主成分空间分布
图23 示例:合并价格提升模拟
图28 示例:预测转移率对比
图30 示例:不同无结构数据Akaike权重
---
(全文引用均严格标注于页码,确保溯源清晰。)

