-
生物通官微
陪你抓住生命科技
跳动的脉搏
一种精确模拟复杂系统的工具
【字体: 大 中 小 】 时间:2023年05月08日 来源:AAAS
编辑推荐:
一项新技术消除了一种流行的模拟方法中的偏差来源,这可能使科学家能够创建更准确的新算法,并提高应用程序和网络的性能。
研究人员在设计新算法时经常使用模拟,因为在现实世界中测试想法既昂贵又有风险。但由于在模拟中不可能捕捉到复杂系统的每一个细节,他们通常会收集少量的真实数据,在模拟他们想要研究的组件时重播这些数据。
这种方法被称为轨迹驱动模拟(真实数据的小块被称为轨迹),有时会导致有偏差的结果。这意味着研究人员可能会在不知不觉中选择一个不是他们评估的最佳算法,并且在实际数据上的表现会比模拟预测的更差。
麻省理工学院的研究人员已经开发出一种新方法,可以消除轨迹驱动模拟中的这种偏差来源。通过实现无偏跟踪驱动模拟,这项新技术可以帮助研究人员为各种应用设计更好的算法,包括提高互联网上的视频质量和提高数据处理系统的性能。
研究人员的机器学习算法利用因果关系原理来了解数据轨迹是如何受到系统行为的影响的。通过这种方式,他们可以在模拟过程中重播正确的、无偏的跟踪版本。
与先前开发的跟踪驱动模拟器相比,研究人员的模拟方法正确地预测了哪种新设计的算法最适合视频流——即导致更少的再缓冲和更高的视觉质量的算法。现有的不考虑偏差的模拟器会给研究人员指出一个性能较差的算法。
“数据并不是唯一重要的东西。数据如何生成和收集背后的故事也很重要。如果你想回答一个反事实的问题,你需要知道潜在的数据生成故事,这样你就只干预那些你真正想模拟的事情,”电子工程和计算机科学(EECS)研究生、一篇关于这项新技术的论文的共同主要作者Arash Nasr-Esfahany说。
与他一起撰写论文的还有共同主要作者和EECS的研究生Abdullah Alomar和Pouya Hamadanian;近期研究生Anish Agarwal, 21届博士;资深作者Mohammad Alizadeh,电子工程和计算机科学副教授;Devavrat Shah, EECS的Andrew和Erna Viterbi教授,数据、系统和社会研究所以及信息和决策系统实验室的成员。这项研究最近在USENIX网络系统设计与实现研讨会上发表。
似是而非的模拟
麻省理工学院的研究人员在视频流应用的背景下研究了跟踪驱动的模拟。
在视频流中,自适应比特率算法根据用户带宽的实时数据不断决定传输到设备的视频质量或比特率。为了测试不同的自适应比特率算法如何影响网络性能,研究人员可以在视频流中收集用户的真实数据,用于跟踪驱动的模拟。
他们使用这些轨迹来模拟如果平台在相同的底层条件下使用不同的自适应比特率算法,网络性能会发生什么变化。
研究人员传统上认为痕量数据是外生的,这意味着它们不受模拟过程中变化的因素的影响。他们会假设,在收集网络性能数据期间,比特率自适应算法的选择不会影响这些数据。
但Alizadeh解释说,这通常是一个错误的假设,会导致对新算法行为的偏见,从而使模拟无效。
“我们认识到,其他人也认识到,这种模拟方法可能会导致错误。但我认为人们不一定知道这些错误有多严重。”
为了找到解决方案,Alizadeh和他的合作者将这个问题定义为因果推理问题。为了收集无偏跟踪,必须了解影响观测数据的不同原因。有些原因是系统固有的,而另一些则受到所采取的行动的影响。
在视频流示例中,网络性能受到比特率自适应算法选择的影响,但它也受到网络容量等内在因素的影响。
“我们的任务是解开这两种影响,试图理解我们所看到的行为的哪些方面是系统固有的,以及我们所观察到的有多少是基于所采取的行动。”如果我们能把这两种效应分开,那么我们就能进行无偏模拟,”他说。
从数据中学习
但研究人员往往无法直接观察到其内在特性。这就是名为CausalSim的新工具的用武之地。该算法仅使用跟踪数据就可以了解系统的底层特征。
CausalSim获取通过随机对照试验收集的跟踪数据,并估计产生这些数据的潜在功能。该模型告诉研究人员,在用户经历的完全相同的潜在条件下,新算法将如何改变结果。
使用典型的跟踪驱动模拟器,偏差可能导致研究人员选择性能较差的算法,即使模拟表明它应该更好。CausalSim帮助研究人员选择经过测试的最佳算法。
麻省理工学院的研究人员在实践中观察到了这一点。当他们使用CausalSim设计一种改进的比特率自适应算法时,他们选择了一种新的变体,该变体的失速率比公认的竞争算法低近1.4倍,同时实现了相同的视频质量。失速率是用户重新缓冲视频所花费的时间。
相比之下,专家设计的轨迹驱动模拟器预测的结果正好相反。它表明,这种新变种应该导致失速率提高近1.3倍。研究人员在现实世界的视频流上测试了该算法,并证实了CausalSim的正确性。
“我们在新变体中获得的收益非常接近CausalSim的预测,而专家模拟器则相差甚远。这真的很令人兴奋,因为这个专家设计的模拟器已经在过去的十年中用于研究。如果CausalSim可以做得更好,谁知道我们能用它做什么呢?哈马达尼安说。
在为期10个月的实验中,CausalSim不断提高模拟精度,导致算法的错误率大约是使用基线方法设计的算法的一半。
在未来,研究人员希望将CausalSim应用于无法获得随机对照试验数据或特别难以恢复系统因果动态的情况。他们还想探索如何设计和监控系统,使其更适合因果分析。
CausalSim: A Causal Framework for Unbiased Trace-Driven Simulation