一种精确模拟复杂系统的工具

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

一种精确模拟复杂系统的工具

【字体：大中小】 时间：2023年05月08日 来源：AAAS

编辑推荐：

　　一项新技术消除了一种流行的模拟方法中的偏差来源，这可能使科学家能够创建更准确的新算法，并提高应用程序和网络的性能。

索取肿瘤靶点蛋白研究最新资料

为了促进科学的传播，生物通采集了这篇文章，如需英文原文，请点击！订阅BioHot索取原文

CausalSim — 图片:一项新技术消除了一种流行的模拟方法中的偏见来源，这可能使科学家能够创建更准确的新算法，并提高应用程序和网络的性能。
图片来源:Jose-Luis Olivares/MIT

研究人员在设计新算法时经常使用模拟，因为在现实世界中测试想法既昂贵又有风险。但由于在模拟中不可能捕捉到复杂系统的每一个细节，他们通常会收集少量的真实数据，在模拟他们想要研究的组件时重播这些数据。

下载阿尔茨海默病（AD）的明星治疗靶点最新进展，获取相关药物开发的最新进展。领取

这种方法被称为轨迹驱动模拟(真实数据的小块被称为轨迹)，有时会导致有偏差的结果。这意味着研究人员可能会在不知不觉中选择一个不是他们评估的最佳算法，并且在实际数据上的表现会比模拟预测的更差。

麻省理工学院的研究人员已经开发出一种新方法，可以消除轨迹驱动模拟中的这种偏差来源。通过实现无偏跟踪驱动模拟，这项新技术可以帮助研究人员为各种应用设计更好的算法，包括提高互联网上的视频质量和提高数据处理系统的性能。

研究人员的机器学习算法利用因果关系原理来了解数据轨迹是如何受到系统行为的影响的。通过这种方式，他们可以在模拟过程中重播正确的、无偏的跟踪版本。

与先前开发的跟踪驱动模拟器相比，研究人员的模拟方法正确地预测了哪种新设计的算法最适合视频流——即导致更少的再缓冲和更高的视觉质量的算法。现有的不考虑偏差的模拟器会给研究人员指出一个性能较差的算法。

“数据并不是唯一重要的东西。数据如何生成和收集背后的故事也很重要。如果你想回答一个反事实的问题，你需要知道潜在的数据生成故事，这样你就只干预那些你真正想模拟的事情，”电子工程和计算机科学(EECS)研究生、一篇关于这项新技术的论文的共同主要作者Arash Nasr-Esfahany说。

与他一起撰写论文的还有共同主要作者和EECS的研究生Abdullah Alomar和Pouya Hamadanian;近期研究生Anish Agarwal, 21届博士;资深作者Mohammad Alizadeh，电子工程和计算机科学副教授;Devavrat Shah, EECS的Andrew和Erna Viterbi教授，数据、系统和社会研究所以及信息和决策系统实验室的成员。这项研究最近在USENIX网络系统设计与实现研讨会上发表。

似是而非的模拟

麻省理工学院的研究人员在视频流应用的背景下研究了跟踪驱动的模拟。

在视频流中，自适应比特率算法根据用户带宽的实时数据不断决定传输到设备的视频质量或比特率。为了测试不同的自适应比特率算法如何影响网络性能，研究人员可以在视频流中收集用户的真实数据，用于跟踪驱动的模拟。

他们使用这些轨迹来模拟如果平台在相同的底层条件下使用不同的自适应比特率算法，网络性能会发生什么变化。

研究人员传统上认为痕量数据是外生的，这意味着它们不受模拟过程中变化的因素的影响。他们会假设，在收集网络性能数据期间，比特率自适应算法的选择不会影响这些数据。

但Alizadeh解释说，这通常是一个错误的假设，会导致对新算法行为的偏见，从而使模拟无效。

“我们认识到，其他人也认识到，这种模拟方法可能会导致错误。但我认为人们不一定知道这些错误有多严重。”

为了找到解决方案，Alizadeh和他的合作者将这个问题定义为因果推理问题。为了收集无偏跟踪，必须了解影响观测数据的不同原因。有些原因是系统固有的，而另一些则受到所采取的行动的影响。

广告 Standard BioTools（原Fluidigm）首创的质谱流式（CyTOF）技术，利用金属元素取代荧光基团作为标记物，从根本原理上解决多参数检测过程中势必难以突破荧光重叠的瓶颈,欢迎索取详细技术资料

在视频流示例中，网络性能受到比特率自适应算法选择的影响，但它也受到网络容量等内在因素的影响。

“我们的任务是解开这两种影响，试图理解我们所看到的行为的哪些方面是系统固有的，以及我们所观察到的有多少是基于所采取的行动。”如果我们能把这两种效应分开，那么我们就能进行无偏模拟，”他说。

从数据中学习