人口普查树是美国历史人口普查中有史以来最大的记录链接数据库,1850年至1940年间居住在美国的人口有超过7亿个链接。这些高质量的链接使社会科学和其他学科的研究人员能够构建一个具有高度代表性的纵向数据集。在本文中,我们描述了我们创建人口普查树的过程,从一个免费在线家谱平台的用户提供的3.17亿个链接开始。然后,我们使用这些链接作为机器学习算法的训练数据来进行新的匹配,并结合最近的其他努力来链接美国历史人口普查。最后,我们介绍了一个过滤链接和判断分歧的程序。我们完整的人口普查树实现了相邻人口普查之间的匹配率,男性在69%至86%之间,女性在58%至79%之间。人口普查树以前所未有的速度包括女性和美国黑人,前者包含3.14亿个链接,后者包含4100多万个链接。
自然环境是生活各个方面的核心,但数据可用性和测量限制阻碍了量化其影响的努力。为了缓解其中的一些挑战,我们引入了微观数据基础设施的新原型:人口普查环境影响框架(EIF)。EIF为过去二十年中几乎每一位美国居民提供了关于人口统计、经济特征和地址水平历史的详细个人层面信息,这些信息与每个人的环境条件的空间和时间分辨估计有关。这种相互关联的微观数据基础设施提供了一个独特的平台,可以促进我们对环境便利设施和危害的分布,何时、如何以及为什么暴露会随着时间的推移而演变,以及环境不平等和不断变化的环境条件的后果的理解。我们描述了EIF的构建,探讨了覆盖率和数据质量问题,记录了作为EIF应用的个人暴露于两种相关但不同的空气污染物的模式和趋势,并讨论了未来研究的意义和机会。
我们将1940年人口普查中最新发布的个人数据与死亡记录和家谱中的其他信息相结合,创建了迄今为止最大的个人数据,以研究受教育年限与死亡年龄之间的关系。在活到35岁的条件下,1906-1915年出生的男性和女性多受一年教育,其寿命约为0.4年。这种关联接近线性,但表现出强烈的认证效应,尤其是对男性而言,对于出生较早的人群来说,这种关联要小得多。这种关联因出生州而异,但在教育水平或寿命较高的州,这种关联并不小。对于男性来说,在收入更高、学校质量更高、公共卫生投资更大的地方,这种联系更紧密。女性在这种联系中也表现出很大的异质性,但我们对童年环境的测量并不能解释这一点。
在2007年至2012年的经济普查期间,特许经营附属机构的数量下降了9.8%。造成这一下降的一个原因是人口普查局能够专门用于对经济普查特许经营部分的调查结果进行手动评估的资源减少。2007年的广泛手动评估导致许多机构,其调查表显示他们与特许经营无关,被重新编码为特许经营关联。2012年无法进行此类评估。在本文中,我们研究了使用从网络上获取的外部数据与机器学习方法相结合的潜力,以自动评估对2017年EC特许经营部分的响应。我们的方法使我们能够快速准确地识别和重新编码被错误归类为非特许经营附属机构的机构,2017年欧共体特许经营附属机构的未加权数量增加了22%-42%。