机器学习在分类拉丁美洲水同位素数值方面的潜力及其对法医溯源应用的启示
《Forensic Science International》:The potential of machine learning in classifying latin American water isotope values and its implication for forensic provenancing
【字体:
大
中
小
】
时间:2025年11月21日
来源:Forensic Science International 2.5
编辑推荐:
同位素分析结合AI算法用于美墨边境失踪人员地理溯源研究,开发IsoPredict工具验证六种算法性能。结果显示神经网络最高准确率83%,优于随机森林77%、支持向量机76%,而朴素贝叶斯仅49%。研究证实AI在复杂同位素数据分类中的潜力,但需更多拉丁美洲水同位素数据库支持模型优化。
在当今全球范围内,美国与墨西哥边境已成为最危险的移民通道之一。每年有数百名无证移民在此过程中丧生,给国际社会带来了极大的关注。由于地理环境的特殊性,这些遇难者的遗体往往迅速分解并散落,使得传统的身份识别方法面临巨大挑战。在这样的背景下,同位素分析作为一种新兴的科学手段,展现出重要的潜力。通过分析个体组织中的同位素组成,可以获取关于其出生地和迁徙路径的重要信息,从而辅助身份确认工作。然而,目前拉丁美洲地区的同位素数据集和分类工具尚不完善,这在一定程度上限制了同位素分析在边境情境下的应用效果。
本研究引入了一种名为“IsoPredict”的原型应用,该应用基于插值数据,用于评估和比较六种人工智能算法在拉丁美洲同位素分类中的性能表现。这些算法包括人工神经网络、随机森林、支持向量机、决策树、K近邻算法以及高斯朴素贝叶斯模型。研究结果显示,人工神经网络在测试数据上的准确率达到83%,显著优于其他模型。随机森林和支持向量机模型也表现出较强的性能,分别为77%和76%。相比之下,决策树和K近邻模型的准确率分别为69%和66%,而高斯朴素贝叶斯模型的准确率最低,仅为49%。这一结果可能与该模型的具体实现方式有关,未能充分代表更广泛的贝叶斯方法。
这些发现表明,人工智能在增强同位素分类方面具有巨大潜力,特别是在法医学领域。然而,它们也突显了在拉丁美洲地区建立更加全面和具有法医学意义的同位素数据集的重要性。随着这些数据集的进一步完善,可以利用更先进的AI算法来提高分类模型的精确度和适用性。
在过去的三十年中,美国政府采取了“通过威慑阻止无证移民”的策略,试图减少非法越境。然而,这种策略反而导致了移民被迫选择更加危险和艰难的路线进行迁移。由于这些路线的环境恶劣,大多数遇难的无证移民(UBCs)死于与高温相关的疾病。自2008年以来,已有超过8000例移民死亡被确认,其中大多数来自墨西哥和中美洲。这一数字很可能低估了实际的死亡人数,因为许多遇难者未能被发现。
在边境环境下,准确记录和识别UBC遇难者的遗体是一项复杂的任务。由于遗体通常在沙漠环境中被发现,这些区域的极端气候和动物活动加速了遗体的分解,使其难以通过视觉手段进行识别。在一些情况下,遗体可能从无标记的坟墓中被挖掘出来,缺乏明确的死亡地点信息,或者经过多年的储存后再次被分析。因此,人道主义组织开发了专门的遗体回收和识别项目,但由于缺乏生前记录、家族DNA参考样本和失踪人员报告,这些项目往往需要结合多种法医学分析方法,以提供身份确认的依据。
由于没有法律机制可以获取来自拉丁美洲的家族DNA参考样本,从未识别的遗体中提取的DNA很少能在CODIS数据库中找到匹配。因此,需要通过非政府组织的努力获取家族DNA参考样本,并将其提交给私人实验室进行比对。通过分析遗体组织中的同位素组成,可以推断出遇难者的出生地和迁徙路径,这一方法在法医学领域已经被证明具有较高的实用价值,并且在人道主义背景下也展现出良好的应用前景。
同位素分析通过周围环境的同位素组成被人体吸收,从而提供关于该环境在组织形成时的信息。氧同位素(δ1?O)和氢同位素(δ2H)的比例尤其重要,因为它们反映了个体在生命过程中所摄入的水源。不同的环境和混合条件会导致这些同位素比例在空间上的分布差异,这些差异可以与个体组织中的同位素特征相关联,从而推断出其可能的来源地。虽然同位素分析不能直接提供身份确认,但它可以作为其他调查策略的补充手段,帮助缩小调查范围至特定的地理区域。
在解释同位素特征时,存在一些关键挑战,包括环境同位素比例的细微分布和需要大量数据来准确区分其空间模式。通常,通过插值方法构建同位素景观(i.e. isoscapes)来提供比较的参考,但为了准确构建这些分布,需要在研究较少的地区,如拉丁美洲,获取更广泛的样本数据。使用多种同位素系统可以提供更精确的居住地估计,因为它增加了分类所依据的特征数量。先进的AI方法,如人工神经网络,可以有效区分大规模和多维数据集中的细微模式,这些数据集通常由同位素分析产生。通过将这些方法应用于同位素值的分类,可以提供更可靠和空间限定的解释,从而帮助识别和归还从美国-墨西哥边境回收的未识别遗体。
近年来,随着分析技术的进步和学科的多学科化发展,法医人类学家开始将同位素分析方法应用于实际案例。分析水的氧和氢同位素比例是一种成本较低且相对容易获取样本的方法,使其成为法医学应用中的可行参考材料。δ1?O和δ2H的空间变化受到同位素在物理和化学反应中的行为(即同位素分馏)的影响,同时也受到水源混合条件的影响,如城市供水管理。总体而言,δ1?O和δ2H值在温暖、低海拔的气候中更为正,在寒冷、高海拔的气候中更为负。然而,靠近海岸或其他大型水域、地区的水循环参与程度以及水资源管理措施也会影响这些模式的形成。这些同位素值可以在组织形成期间通过饮用水的同位素特征被体现出来。
牙釉质和骨骼由于缺乏矿物更新,在牙釉质中形成了“长期记录者”的特性,而骨骼则在大约20年内缓慢更新,能够保留与童年和青春期相关的同位素信息,以及长期居住地的特征。而基于角蛋白的组织,如头发和指甲,则是“近期记录者”,因为它们持续生长,其同位素特征可以与已知的组织生长速率相结合,从而反映最近摄入的水源。这些组织同位素与周围环境的强烈相关性支持了水同位素建模在法医学中的应用价值。然而,直接比较已知和未知组织的同位素特征仍然具有挑战性,因此,美国正在努力建立组织同位素参考数据库。
由于同位素数据的空间模式是连续的,并且在多个同位素系统中存在细微的区域变化,能够捕捉多维数据集中非线性模式的方法对于提高出生地预测或分类至关重要。人工智能技术,特别是基于先进机器学习(ML)和深度学习(DL)算法的方法,在处理和分析大量复杂数据方面展现出巨大的潜力。随机森林模型在法医人类学研究的多个方面都得到了应用,近年来深度学习方法的使用也逐渐增加。然而,仅仅增加算法的复杂性并不一定带来更好的结果,因此,对算法功能的理解至关重要。
其中,最简单的机器学习算法之一是K近邻模型(K-Nearest Neighbors),该模型通过与一组其他值(即“邻居”)的接近程度对新值进行分类。该模型的原理是假设某个值属于某一类,当其多数邻居属于该类时。类似地,支持向量机(SVM)使用数据点之间的距离来指导分类。在该模型中,数据被投影到多维空间中,然后通过绘制一个分离超平面来区分不同的类别。超平面的位置由代表不同类别的数据点之间的距离决定,这些数据点被称为“支持向量”。然后,通过参考这些支持向量绘制另一个超平面,即最大间隔超平面,以实现分类。支持向量机在处理小规模、高维数据集时表现良好,但在高噪声数据中,由于类别之间存在较大重叠,其分类效果较差。
与上述模型不同,朴素贝叶斯算法基于贝叶斯定理,采用概率分类的方式。该算法假设输入特征在给定类别的情况下是条件独立的,从而计算后验概率。高斯朴素贝叶斯模型进一步假设每个特征在每个类别中服从正态分布,并通过最大似然估计来确定每个类别的均值和方差。分类过程中,选择最大化后验概率的类别作为最终分类结果。这些模型的优点在于不需要大量的训练数据,并且计算效率较高;然而,如果条件独立性假设被打破,或者输入特征的分布偏离正态分布,其分类效果将受到限制。
树状分类器在辅助分类方面具有悠久的历史,并且具备良好的可解释性。决策树模型为所有树状分类器提供了基础架构,通过定义规则对数据进行分类。这些规则以节点的形式表示,树状模型利用“根”节点,该节点基于最能区分数据的变量进行分割,随后通过“内部”节点进行二次分割,最终由“叶”节点提供分类或决策。随机森林模型是决策树模型的集成应用,通过平均多个决策树的结果来提高分类的准确性。该模型利用“袋外”(bagging)过程,将数据集子采样为多个较小的数据集,然后分别训练多个决策树分类器。由于其相对较低的计算要求和较高的可解释性,随机森林模型在近年来得到了广泛应用。然而,树状分类器容易受到输入数据过拟合的影响,因为数据集的小变化可能会导致分类结果的大幅波动。随机森林模型在一定程度上解决了这些问题,但以牺牲可解释性和计算资源为代价。
人工神经网络作为一种深度学习方法,是当前研究中最为复杂的分类算法之一。该模型基于神经元之间的互联功能,通过激活数百到数百万个神经元细胞来做出决策。每个神经元包含一个传递函数和一个激活函数,传递函数是对所有输入数据求和并乘以权重,再加上一个偏置值。权重和偏置值通过反向传播过程在训练过程中确定,以最大化模型的性能。传递后的输入数据被传递到激活函数中,这些函数通常是非线性的数学函数,如ReLU、tanh和sigmoid函数,但也可以使用线性函数。这些函数定义了模型的行为,转换输入数据并设置激活阈值。当数据被激活后,它们要么被分类到特定的类别中,要么在多层结构中被传递到下一层神经元中。
在现代应用中,通常不会依赖单个神经元,而是使用神经元之间的互联网络(如图2所示)。基本的多层结构包括一个输入层、若干隐藏层和一个输出层。隐藏层在数据传递过程中起到关键作用,它们包含传递和激活函数,这些函数决定了数据如何通过网络进行处理。隐藏层的数量和每层中的神经元数量取决于问题的规模。权重和偏置值在各层之间有所不同,并通过错误分类进行调整,以提高模型的性能。这一过程导致了非线性和自组织的模型,使模型能够响应输入数据并识别复杂数据集中的细微模式。尽管人工神经网络在某些问题上具有较高的通用性和性能,但它们需要大量的数据,计算成本较高,并且由于其“黑箱”特性,难以进行解释。
本研究中,通过“IsoPredict”程序对插值数据进行了分析,该程序基于Python开发。构建多维数据集需要整合δ1?O和δ2H的同位素数据,这些数据涵盖了从墨西哥到哥伦比亚的广泛区域。数据来源于发表和未发表的研究,其中水样本被限制为自来水和瓶装水,因为这些是最有可能在生命过程中被摄入并被吸收的水源。总共提供了171个水同位素值用于分析,为后续研究提供了坚实的数据基础。
在所有区域模型中,所有模型的性能均高于随机猜测(超过17%)。在训练和测试过程中,模型的性能指标没有出现显著变化(见图5)。其中,多层感知器(Multilayer Perceptron)在准确率(训练为77.22% ± 3.04%;测试为83.33%)和F1分数(训练为0.84;测试为0.83)方面表现最佳。支持向量机(SVM)在准确率方面排名第二,分别为71.67% ± 4.12%和76%。尽管随机森林和SVM模型表现良好,但在某些情况下,它们的性能被人工神经网络超越。
这些研究结果表明,机器学习算法在分析现实世界同位素数据时具有巨大的潜力。人工神经网络在所有情况下都表现出最高的准确率、精确率和召回率,显示出其在法医学应用中的强大能力。然而,尽管随机森林模型在某些情况下表现良好,但其性能在某些情况下被支持向量机超越。支持向量机虽然能够进行更高精度的分类,但在某些情况下,其表现不如人工神经网络。
本研究展示了先进机器学习算法在分类水同位素值方面的潜在应用价值,特别是在相对较小的地理区域内。或许令人意外的是,最复杂的分类方法表现出最佳的性能,这突显了人工神经网络在法医学溯源中的应用前景。然而,这一程序仍提供了数据处理的空间,未来还需要更多的研究,以更好地利用同位素和机器学习方法,提高美国-墨西哥边境移民识别的效率和准确性。
在本研究中,所有作者都声明没有已知的与研究相关的竞争性财务利益或个人关系。研究得到了来自加州州立大学奇科分校的资助,特别是通过其Adelante项目(现为Graduate Pathways Society)。我们还要感谢那些在边境穿越过程中失去亲人和朋友的人,以及那些在旅途中不幸遇难的个体。他们的经历和遭遇,使这一研究具有更深层次的人道主义意义。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号