我们研究了大型语言模型(LLM)通过确定关键领域、方向和含义来增强实验中的科学实践的潜力。首先,我们讨论了这些模型如何改进实验设计,包括改进启发措辞、编码实验和生成文档。其次,我们讨论了使用LLM的实验实施,重点是通过创造一致的体验、提高对指令的理解以及实时监控参与者的参与度来增强因果推理。第三,我们强调LLM如何帮助分析实验数据,包括预处理、数据清理和其他分析任务,同时帮助审查者和复制者调查研究。这些任务中的每一项都提高了报告准确发现的概率。
人口普查树是美国历史人口普查中有史以来最大的记录链接数据库,1850年至1940年间居住在美国的人口有超过7亿个链接。这些高质量的链接使社会科学和其他学科的研究人员能够构建一个具有高度代表性的纵向数据集。在本文中,我们描述了我们创建人口普查树的过程,从一个免费在线家谱平台的用户提供的3.17亿个链接开始。然后,我们使用这些链接作为机器学习算法的训练数据来进行新的匹配,并结合最近的其他努力来链接美国历史人口普查。最后,我们介绍了一个过滤链接和判断分歧的程序。我们完整的人口普查树实现了相邻人口普查之间的匹配率,男性在69%至86%之间,女性在58%至79%之间。人口普查树以前所未有的速度包括女性和美国黑人,前者包含3.14亿个链接,后者包含4100多万个链接。
我们提供了一个通用框架,用于将从汇总统计到对选定消费者的全面调查的许多类型的微观数据纳入Berry、Levinsohn和Pakes(1995)式的差异化产品需求系统估计中。我们将Conlon和Gortmaker(2020)中BLP估计的最佳实践扩展到微观数据的情况,并在我们的开源软件包PyBLP中实现。蒙特卡罗实验和经验示例表明,结合微观数据可以显著提高BLP估计器的有限样本性能,特别是当使用目标明确的汇总统计或我们推导并展示如何计算的“最优微矩”时。
务实的癌症筛查试验模拟了现实世界中患者和医生是治疗的最终仲裁者的情景。这类试验的意向筛选(ITS)分析保持了基于随机化的苹果对苹果的比较,但差异依从性(被分配进行筛选的受试者未能真正进行筛选)使ITS的效果难以在试验和地点之间进行比较。我们展示了工具变量(IV)方法如何在五项随机试验中对17个位点的估计值进行比较,以应对非依从性挑战,这些试验测量了筛查对癌症发病率的影响。虽然试验中的依从率和ITS估计值差异很大,但根据方案筛选效果的IV估计值非常一致。简单IV工具的应用,包括图形分析和正式统计测试,显示了差异依从性如何解释ITS影响的变化。筛选符合者也显示出与完整试验研究样本大致相似的人口统计学特征。这些发现证明了IV估计癌症筛查效果的临床相关性。
国际贸易和许多其他领域的定量建模背后的主要动机是阐明政策变化的经济后果。为了帮助评估并潜在地加强这种定量预测的可信度,我们引入了一种基于IV的拟合优度度量,该度量为在任意一般均衡环境中测试因果预测以及估计这些预测中的平均误判提供了基础。为了说明如何在实践中使用基于IV的拟合优度度量,我们重新审视了Fajgelbaum、Goldberg、Kennedy和Khandelwal(2020)预测的特朗普贸易战的福利后果。
从Harris(1984)开始,将不断增加的回报和不完全竞争纳入应用的一般均衡(AGE)模型,导致了贸易自由化等变化带来的更大的福利效应。但是,这些IO发展的不完全竞争方面往往未能纳入有意义的战略行为,在很大程度上排除了公司层面的生产力和规模效应。我在这里表明,尽管系统增加了同时性,但将基于理论的内生加价纳入AGE模型并不困难。首先推导了自由进入和退出的CES环境中Nash-Cournot和Nash-Bertrand竞争的最优标记方程。然后,我使用非线性互补性编写了一个简单的数值模型。考虑了三种替代方案:大集团垄断竞争(LGMC)、小集团库诺(SGC)和小集团伯特兰(SGB)。经济增长是用来比较这些指标的实验。虽然增长对福利的总体影响在质量上是相似的,但在任何一个小集团假设下,最初的小型经济体相对于LGMC的收益都要大得多,但随着经济体的增长,相对于LGMC,收益会减少。其次,我展示了品种(进入)、企业规模(生产力)和加成(扭曲)对福利变化的贡献在三种选择中是如何显著不同的。
“电压效应”被定义为当项目扩大时,项目疗效发生变化的趋势,在大多数情况下,这会导致项目治疗效果的绝对大小在项目扩大时减小。了解规模问题并采取措施减少电压降很重要,因为如果不加以解决,规模问题可能会削弱公众对科学的信心,并可能导致公共资源的错误分配。越来越多的文献说明了缩放问题的普遍性,解释了其原因,并提出了对策。本文通过提供一个简单的缩放问题模型来补充文献,该模型符合关键利益相关者的合理预期。我们的模型强调,不对称信息是电压效应的关键因素。
ESG(环境、社会和治理)绩效如何影响股票回报?回答这个问题很困难,因为现有的ESG绩效指标——ESG评级——是有噪声的,因此,标准回归估计存在衰减偏差。为了解决这种偏差,我们提出了两种噪声校正程序,在这两种程序中,我们将ESG评级与其他ESG评级机构的评级相结合,就像经典的变量误差问题一样。校正后的估计表明,ESG表现对股票回报的影响比之前估计的要大:在校正衰减偏差后,系数平均增加2.6倍,这意味着平均信噪比为61.7%。衰减偏差在衡量股票回报的各个层面上都是稳定的。在模拟中,我们的噪声校正过程优于从业者遵循的标准方法,如平均值或主成分分析。
我们开发了一个最优政策分配规则,该规则集成了经济学中常用的两种独特方法——通过可观察目标和通过自我选择目标。我们的方法可以与实验或准实验数据一起使用,以确定谁应该接受治疗,谁应该不接受治疗,并自我选择以实现决策者的目标。将这种方法应用于住宅能源回扣计划的随机对照试验,我们发现,最佳利用可观察数据和自我选择的目标定位优于传统目标定位。我们强调,局部平均治疗效果(LATE)框架(Imbens和Angrist,1994)可用于研究我们方法中的机制。通过根据我们实验产生的随机变化估计几个关键的LATE,我们展示了我们的方法如何让决策者识别谁的自我选择对社会福利有价值和有害。