基于深度Q学习与迁移学习的毫米波软件定义无线电亚微秒级波达方向检测

《IEEE Open Journal of the Communications Society》:DQN With Transfer Learning for Sub-Microsecond AoA Detection in a Millimeter-Wave SDR Testbed

【字体: 时间:2025年12月02日 来源:IEEE Open Journal of the Communications Society 6.1

编辑推荐:

  本文针对毫米波通信中波束对准与波达方向(AoA)检测的挑战,提出了一种集成深度Q学习(DQN)与迁移学习的创新框架。研究团队利用软件定义无线电(SDR)测试平台,开发了多线程软件架构,实现了纳秒级精度的实时波束控制。该方案仅需接收信号强度(RSS)测量值,无需相位检测或多天线单元,即可在三维空间内实现误差小于2°的AoA检测。通过迁移学习策略,智能体在不同环境场景(视距/非视距)下展现出更快的收敛速度和更低的检测误差,为动态环境下的毫米波智能波束管理提供了实用且高效的解决方案。

  
在移动通信流量激增和物联网(IoT)设备广泛部署的背景下,工作于22 GHz以上的毫米波(mmWave)频段因其能够提供高速无线连接而备受关注。然而,毫米波信号波长较短,易受严重的路径损耗影响。为了克服这一挑战,波束成形(Beamforming)技术被用来提高天线的方向性,通过对波束进行精确对准来补偿路径损耗。其中,波达方向(Angle-of-Arrival, AoA)检测是实现有效波束对准的关键。传统的AoA估计方法,如多重信号分类(MUSIC)算法,依赖于天线阵列单元间的相位差,但在毫米波频段,信号极易受到相位噪声的干扰,且在非视距(Non-Line-of-Sight, NLoS)等多径传播环境中性能会显著下降。虽然卡尔曼滤波等方法也被用于参数跟踪,但其计算复杂度高,在动态环境中适应性不足。近年来,深度学习(DL)方法为AoA检测提供了新思路,但监督学习需要大量标注数据进行离线训练,难以应对实时变化的移动场景。因此,研究界开始探索能够在线学习、实时适应环境的强化学习(RL)方法。
在此背景下,研究人员开展了一项结合深度强化学习与真实毫米波硬件平台的研究。他们旨在解决传统方法在实时性、环境适应性以及硬件成本方面的局限,探索一种仅利用接收信号强度(RSS)、无需复杂相位信息且能快速收敛的智能AoA检测方案。该研究基于一个经济高效的毫米波软件定义无线电(SDR)测试平台,创新性地集成了深度Q网络(DQN)与迁移学习(Transfer Learning)技术,以实现亚微秒级的快速波束对准和鲁棒的AoA检测。研究成果已发表在《IEEE Open Journal of the Communications Society》上。
为开展研究,作者主要应用了以下几项关键技术方法:首先,搭建了一套基于USRP N210和Sivers EVK02004毫米波射频前端(操作频段24.25-29.5 GHz,16单元贴片天线阵列)的SDR测试平台,并开发了集成GNU Radio、ZeroMQ和Python的多线程软件架构,其核心API函数setAngle()可实现纳秒级精度的波束控制。其次,设计并实现了基于DQN的强化学习智能体,其以63个离散波束索引作为动作空间,以RSS的改善作为奖励信号,使用三层前馈神经网络(64神经元/层,ReLU激活)进行在线训练。第三,提出了一个迁移学习框架,通过在不同环境场景(包括视距LoS和不同阻塞条件的非视距NLoS)下预训练DQN模型,然后平均其网络权重(公式3:θ^(1,..,N)=N1i=1Nθ(i))来初始化新环境的智能体,以加速收敛并提升性能。实验在受控的室内环境中进行,设置了多种传输场景(如不同距离的LoS、单次反射NLoS、立方体阻塞、门阻塞)以评估算法性能。
实验结果
测试平台性能与调优
研究人员首先对测试平台的软件响应时间进行了精细调优。通过调整setAngle()函数中的sleepTimer参数(从200 ms到1 ns),并对比使用朴素算法进行AoA检测的效果,发现即使在1 ns的极短延时下,算法仍能正确检测到RSS的局部最大值,从而准确判定AoA,证明了平台具备纳秒级波束控制能力。Sivers EVK硬件通过SPI接口通信,完成一次波束转向寄存器写入约需3.2 μs,但其内部射频集成电路(RFIC)激活指定波束的速度极快,仅需30-40 ns。
DQN超参数微调与性能
通过对DQN超参数(如探索率ε、学习率α、折扣因子γ等)进行微调,确定了最优配置(见表3)。使用三层神经网络相较于单层网络,在热图中显示出更集中的波束索引命中次数和更高的平均RSS,表明其能更有效地收敛到发射天线波束的方向。训练过程中,随着ε逐渐减小,Az(方位角)和El(俯仰角)的AoA误差均显著降低。在训练约4500次迭代后,AoA误差降至1%以下。对于波束索引31(对应AoA (0°, 0°))和波束索引10(对应AoA (-30°, 0°))的检测场景,最终平均误差分别达到(0.58%, 0.64%)和(1.96%, 0.39%)。
迁移学习效果分析
迁移学习的核心优势在于利用先验知识加速智能体在新环境中的学习过程。研究评估了五种不同场景(A-E,包括LoS和不同NLoS条件)下,使用不同组合的预训练模型(通过平均权重获得)初始化DQN后的性能。
  • 先验训练的效果:在没有先验知识(即从零开始训练)的情况下,智能体在训练初期(1 ns时)表现出很高的RSS误差(80.42%-85.01%)和AoA误差(28.65%-31.03%)。而采用了迁移学习(尤其是针对性组合的模型,如T2-T4)的智能体,在相同时间内能够迅速将RSS误差降至1%以下,AoA误差降至0%,显著优于引导随机搜索和暴力搜索算法,实现了近乎瞬时的AoA检测。
  • 混合LoS与NLoS场景的影响:研究发现,直接混合来自高RSS场景(如近距离LoS的场景A)和低RSS场景(如NLoS或阻塞场景B-E)的模型进行权重平均,会导致智能体产生偏差。智能体在初期会倾向于采取在高RSS环境中学到的策略,从而在低RSS环境中表现不佳,导致初始误差增大。例如,在场景B(NLoS)下,使用混合了场景A(LoS)的模型T1或TAll进行初始化,在1 ns时的RSS误差高达87.61%和84.41%,AoA误差分别为20.97%和31.23%。这表明迁移学习在奖励尺度(RSS幅度)相似、训练目标一致的环境间效果更佳。
  • 迁移学习权重调优:为了缓解上述偏差,研究者进一步提出了加权模型平均策略(公式5:θ^(i,j,α)=(1?α)θi+αθj)。通过优化混合系数α,以最小化在场景i和j上的总RSS误差面积(公式6),可以找到平衡双方性能的最佳权重。例如,对于场景对A-B和A-C,最优权重αA,B ≈ 0.85 和 αA,C ≈ 0.80,表明应给予NLoS场景模型(θ(B)或θ(C))更高的权重,以有效抑制因LoS场景高RSS带来的初始偏差,从而在两种场景下都获得更快、更稳定的收敛。
研究结论与意义
本研究成功开发并评估了一套基于DQN和迁移学习的毫米波波束选择方案,并在真实的毫米波SDR测试平台上验证了其效能。该测试平台通过精心的软硬件设计,实现了亚微秒级的波束控制能力,为实时ML-in-the-loop(机器学习在环)实验奠定了基础。
研究的主要结论在于,所提出的DQN架构能够仅利用RSS测量值,在没有相位信息或复杂天线阵列的情况下,有效完成AoA检测,在三维空间中达到小于2°的精度。更重要的是,迁移学习的引入极大地提升了智能体的性能。通过重用在不同环境场景下预训练的模型权重,智能体在新环境中能够更快地收敛,并表现出更低的检测误差。然而,研究也揭示了一个关键点:当混合来自差异巨大的环境(特别是RSS奖励尺度悬殊的LoS和NLoS场景)的模型时,若不加权衡地直接平均权重,可能导致智能体行为出现偏差,反而影响初始性能。通过引入加权平均策略,可以对这种偏差进行有效控制。
这项工作的意义在于,它展示了一种将先进强化学习算法与低成本、开源硬件平台紧密结合的可行路径,为动态环境下(如移动通信、车联网V2V)的智能、鲁棒毫米波波束管理和跟踪提供了新的思路和实践方案。其提出的纳秒级控制API和迁移学习框架,对未来研究实时自适应通信系统具有重要的参考价值。
研究的局限性在于当前实验在静态室内环境下进行,未考虑移动性、人体遮挡等更复杂的动态因素。未来工作可以扩展到室外场景、引入更复杂的RL算法(如PPO、SAC),并探索联邦学习等在AoA检测中的应用,以进一步提升算法的泛化能力和实用性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号