利用家谱数据链接历史记录的突破:人口普查树项目

Breakthroughs in Historical Record Linking Using Genealogy Data: The Census Tree Project

【作者】 Kasey Buckles ; Adrian Haws ; Joseph Price ; Haley E.B. Wilbert

查看原文
分享到:
人口普查树是美国历史人口普查中有史以来最大的记录链接数据库,1850年至1940年间居住在美国的人口有超过7亿个链接。这些高质量的链接使社会科学和其他学科的研究人员能够构建一个具有高度代表性的纵向数据集。在本文中,我们描述了我们创建人口普查树的过程,从一个免费在线家谱平台的用户提供的3.17亿个链接开始。然后,我们使用这些链接作为机器学习算法的训练数据来进行新的匹配,并结合最近的其他努力来链接美国历史人口普查。最后,我们介绍了一个过滤链接和判断分歧的程序。我们完整的人口普查树实现了相邻人口普查之间的匹配率,男性在69%至86%之间,女性在58%至79%之间。人口普查树以前所未有的速度包括女性和美国黑人,前者包含3.14亿个链接,后者包含4100多万个链接。

相关资源

智库报告
2023-09
Gary Charness ,Brian Jabarian ,John A. List
智库报告
2023-09
Marshall Burke ,Mustafa Zahid ,Noah Diffenbaugh ,Solomon M. Hsiang
智库报告
2023-09
Richard Baldwin ,Toshihiro Okubo