摘要
近年来,生成式人工智能凭借其强大的数据分布拟合能力及数据生成补全能力,逐渐被引入无线电频谱认知领域,相较于传统依赖物理建模、数学插值以及判别式人工智能的方法,大幅提升了认知准确度。本文系统梳理了生成式人工智能赋能无线电频谱认知的研究进展,重点分析了不同生成范式的技术原理、应用场景及代表性工作,并深入探讨了训练数据稀缺、未知场景泛化能力不足、模型可解释性有限等生成式人工智能用于无线电频谱认知时面临的挑战。未来,通过跨模态知识融合、物理机理嵌入、可信评估构建,生成式人工智能有望推动无线电频谱认知向高精度、强泛化、可解释方向发展,有效支撑频谱资源高效利用。
Abstract
In recent years, generative artificial intelligence is progressively introduced into the field of radio spectrum cognition due to its powerful capabilities in data distribution fitting, data generation, and data completion. Compared to conventional approaches relying on physical modeling, mathematical interpolation, and discriminative artificial intelligence techniques, generative AI has significantly enhanced the accuracy of radio spectrum cognition. This paper systematically reviewed the research progress of generative artificial intelligence in radio spectrum cognition, with a focused analysis on the technical principles, application scenarios, and representative works of different generative paradigms. The challenges faced by generative AI in spectrum cognition were further discussed, including scarce training data, limited generalization in unknown scenarios, and insufficient model interpretability. In the future, by cross-modal knowledge fusion, physics-informed embedding, and the establishment of a trustworthy assessment framework, generative artificial intelligence is expected to advance radio spectrum cognition toward high precision, robust generalization, and enhanced interpretability, thereby effectively supporting the efficient utilization of spectrum resources.
无线电频谱通常指空间传播的3 000 GHz以下的电磁波,由电场和磁场交替变化而产生,具有信息承载特性。无线电频谱是支撑信息传输的国家战略性稀缺资源,是信息化发展的重要载体。电磁空间已成为继陆、海、空、天、网络之后的“第六维作战域”,并深度融入经济社会运行的各个环节[1]。我国《无线电管理条例》总则提到,国家鼓励、支持对无线电频谱资源的科学技术研究和先进技术的推广应用,提高无线电频谱资源的利用效率。当前,无线通信系统正面临用频环境动态多变、用频业务规模海量化、用频干扰日趋复杂等挑战,亟须构建精细化的频谱管控体系,保障频谱资源的高效利用。
无线电频谱认知是精细化频谱管控体系的核心组成部分,是实现频谱资源高效利用的基础。其核心任务在于频谱态势的生成,即基于有限频谱采样数据、无线发射源参数以及环境先验等信息,对无线电频谱资源在时域、空域、频域中的动态状态进行精确推断,具体包括信号强度、占用情况、调制方式等指标。通过对多维频谱态势的生成,无线电频谱认知能够为频谱资源的优化配置、干扰规避及安全管控提供决策依据。
传统无线电频谱认知方法主要包括物理建模方法、数学插值方法及以卷积神经网络为代表的判别式人工智能(discriminative artificial intelligence,DAI)方法。然而,这些方法在面向复杂电磁环境时往往认知精度不足。近年来,生成式人工智能迅速发展,变分自编码器、生成对抗网络、扩散模型等生成范式,展现出强大的数据分布拟合能力与数据生成补全能力,为突破传统认知瓶颈提供了新途径。通过从有限频谱采样数据、无线发射源参数等信息生成复杂环境频谱态势,生成式人工智能能够显著提升频谱认知准确度,为精细化频谱管控奠定了技术基础。
然而,生成式人工智能(generative artificial intelligence,GAI)在无线电频谱认知领域的应用面临诸多挑战,包括训练数据稀缺、在未知场景下的泛化能力有限、模型决策过程可解释性不足等问题。为克服上述瓶颈,当前研究聚焦于探索如何融合跨模态知识、将电磁传播的物理机理嵌入模型结构、构建可信评估体系,以期构建高精度、强泛化、可解释的无线电频谱认知体系。本文系统梳理了生成式人工智能在无线电频谱认知中的研究进展,深入剖析了不同生成模型的技术原理、适用场景及代表工作,并展望了未来发展趋势,以期为动态频谱共享、智能频谱管控及电磁频谱战等关键应用提供理论支撑与技术参考。
1 无线电频谱认知
1.1 发展脉络
自20世纪90年代末Mitola等提出“认知无线电”概念以来[2],该技术受到学术界、工业界及无线电监管机构的持续关注。Mitola等最初从“无线电礼仪”的视角定义认知无线电,即通过理解并适应频段、接口、协议等频谱使用规则,以增强通信服务的灵活性。随着研究深入,其内涵不断演进:2007年王军等强调其智能寻找与利用空闲频谱的自主能力[3];2012年王钦辉等将其作为实现动态频谱共享、缓解频谱供需矛盾的重要途径[4];2018年郭文祥等进一步指出,频谱感知作为其核心技术,是实现频谱高效分配的前提[5]。与此同时,以频谱态势生成为核心任务的“无线电频谱认知”概念被正式提出,为认知无线电研究提供了新的理论框架与研究范式[6]。当前,无线电频谱认知已发展为该领域的核心研究方向,并在频谱决策[7]、频谱安全[8]与频谱对抗[9]等关键场景中展现出重要的应用价值。
近年来,生成式人工智能迅速发展,在自然语言处理、计算机视觉等领域不断取得突破性进展,其在无线电频谱认知中的应用也逐步深入:自2021年起,以生成对抗网络和变分自编码器为代表的生成式方法逐渐被引入频谱认知任务中[10-12],凭借其出色的数据生成与特征建模能力,提升了频谱认知性能。到2023年,基于扩散模型的方法开始在频谱认知中崭露头角[13-14],并迅速展现出巨大应用潜力。进入2025年,越来越多基于不同架构的大规模生成模型与自主智能体系统也开始被探索并应用于频谱认知任务[15-17],为该领域带来新的发展动力。
在无线电频谱认知研究中,存在多个内涵相关但侧重不同的概念,包括频谱地图(radio map)、信道增益地图(channel gain map)、频谱环境地图(radio environment map)、信道知识地图(channel knowledge map)、频谱态势(spectrum situation)等:频谱地图指在特定地理区域、时间与频段上,信号接收功率的空间分布[7];信道增益地图描述在特定地理区域、时间与频段上,由发射机所产生的信道增益(或路径损耗)的空间分布[18];频谱环境地图作为无线电场景的时空数据库,记录时、空、频域中无线信号的接收功率、忙闲状态等观测特征[19];信道知识地图指时、空、频域中直接反映环境固有无线信道特性的信息,其表征独立于特定发射源或接收机的配置与活动状态[20];频谱态势作为对电磁环境的整体描述,涵盖时、空、频域中无线信号的接收功率、忙闲状态等观测特征,以及环境固有的信道传播特性[1]。频谱环境地图在定义上包含了频谱地图与信道增益地图;而频谱态势作为更上层的集成概念,其内涵进一步涵盖了频谱环境地图与信道知识地图。
1.2 问题定义
根据输入信息的不同,无线电频谱认知问题通常可分为两类:基于无线发射源的频谱认知问题与基于有限频谱采样的频谱认知问题。基于无线发射源的频谱认知问题,要求依据已知的发射源参数(如数量、位置、发射功率等)与环境先验信息(如建筑物布局、地势变化等),生成目标区域的频谱态势[14]。而基于有限频谱采样的频谱认知问题,则依赖于在有限空间位置观测的频谱数据,结合环境先验信息,生成目标区域的频谱态势[21]。
基于无线发射源的频谱认知,其核心前提在于能够获取环境中所有相关发射源的先验信息。该方法通过建立从“发射源”到“频谱场”的确定性因果关联,能够揭示不同发射源对空间各点频谱状态的具体影响,在干扰溯源、网络规划等任务中具有天然优势。然而,在实际复杂电磁环境中,往往难以获取全部发射源(尤其是非法、未经授权或高速移动的发射源)的精确参数,导致该方法的适用性受到制约。相比之下,基于有限频谱采样的频谱认知不依赖于难以完备获取的发射源参数,而是直接依据实际测量数据进行认知,能够捕捉复杂环境中各类传播效应与未知信号源对电磁空间的综合影响。然而,从有限采样点重构连续频谱场存在固有的多解性,即多种不同的态势分布均可能与有限采样数据相容,从而导致认知结果的不确定性与推断精度下降。
此外,射频指纹识别也是一类重要的频谱认知问题。射频指纹识别作为一种物理层身份认证技术,通过提取并分析因硬件固有缺陷而产生的、具有物理不可克隆性的射频特征,实现对设备身份的鉴别与认证。其在零信任安全框架下尤为重要,并凭借其低开销、低延迟的天然优势,为大规模物联网终端提供了轻量级的安全保障[15]。
1.3 传统方法
传统的无线电频谱认知方法包括物理建模方法、数学插值方法以及判别式人工智能方法。
基于物理建模的认知方法依赖电磁传播理论,通过先验知识(如发射源参数、地形地物、材料特性)推断目标区域的频谱状态分布,无须依赖实际观测数据。典型方法包括射线追踪法[22]、主导路径模型[23]以及以无线电自由空间传播模型为代表的一系列经验模型[24]。该类方法在环境结构已知且静态的场景中具有一定仿真价值,但难以准确刻画动态复杂环境中的多径、遮挡与非规则传播效应,适应性受限。
基于数学插值的认知方法基于频谱采样数据的空间相关性,利用数学与统计手段,构建目标区域的连续频谱态势。常见方法包括基于径向基函数(radial basis function,RBF)的插值法[25]、基于样条函数的插值法[26]以及克里金插值法[27]。此类方法虽能实现空间连续估计,但普遍未融入传播环境的结构性先验信息(如建筑物布局与材质),在障碍物影响显著或采样稀疏区域精度易显著下降。
基于判别式人工智能的认知方法借助数据驱动的判别模型,从有限频谱观测中直接学习到完整频谱态势的映射关系。例如,Levie等[28]提出了一种基于双重U-Net的频谱认知方案;Locke等[29]设计了基于自动编码器(autoencoder)的频谱认知方法;此外,图注意力网络[30](graph attention networks)等方法也被用于无线电频谱认知。然而,此类方法通常将频谱认知建模为回归任务,在采样稀疏或目标区域结构复杂时,受限于模型泛化能力与数据拟合瓶颈,其认知性能受限。
2 生成式人工智能
生成式人工智能是指能够从训练数据中学习底层统计分布,并据此生成在内容上具有原创性、在统计特性上与训练数据相似的新数据实例的人工智能技术。生成式人工智能与判别式人工智能存在本质差异:后者通过建立条件概率模型来学习不同类别之间的决策边界,这种建模方式难以反映训练数据本身的分布特性;而前者则直接对目标变量的概率分布进行拟合,具备生成符合原始数据分布的新样本的能力[31]。
生成式人工智能常用的神经网络结构有:全连接神经网络[32]、卷积神经网络[33]与Transformer架构[34]。作为深度学习领域最基础的网络类型,全连接神经网络由一系列全连接层组成,其特点是相邻层的神经元实现全互连,这种结构在构建简单生成器和辨别器时展现出良好的适用性。在更复杂的应用场景中,卷积神经网络凭借其独特的卷积计算和深度前馈结构脱颖而出,特别是U-Net网络[35]通过创新的U型架构和残差连接机制,在空域矩阵数据生成任务中表现出显著优势。近年来,基于自注意力机制的Transformer架构逐渐成为研究热点,该架构通过多头注意力机制、位置编码和残差连接等技术,实现了对序列数据的高效并行建模。值得注意的是,其衍生模型如ViT[36]和DiT[37]等,通过结构创新已成功从序列文本的生成拓展至空域矩阵数据的生成。
生成式人工智能常见的生成范式有:生成对抗网络[38](generative adversarial network,GAN)、变分自编码器[39](variational autoencoder,VAE)和扩散模型[40](diffusion model)。此外,在自然语言处理领域,大型语言模型主要采用自回归语言模型[41](autoregressive language model)作为其核心生成范式。近年来,这一范式被成功拓展至视觉领域,视觉自回归建模[42]作为一种新兴的视觉生成范式,通过借鉴自回归语言模型的思想框架,首次实现了大语言模型风格的自回归视觉生成模型在性能上超越扩散模型的突破。下文将重点讨论这四种生成范式。
2.1 变分自编码器
变分自编码器结合了自编码器结构和变分推断的思想。其主要目标是学习数据(如图像、文本、声音)的潜在概率分布,从而能够生成与训练数据相似的新样本,并学习到数据的有意义、低维的潜在表示,结构如图1所示。
图1变分自编码器
Fig.1Variational autoencoder
2.1.1 方法背景
传统自编码器通过编码器将高维输入数据压缩为低维潜在表示,再通过解码器进行重构,主要目标是追求低重构误差。然而,这种确定性映射存在不足:其学习到的潜在空间往往结构混乱、不连续,存在大量“空洞”区域,导致随机采样潜在点并解码生成的样本毫无意义,缺乏有效的生成能力。与此同时,显式建模复杂数据(如图像、文本)的分布并直接优化其对数似然极其困难,尤其当引入隐变量来解释数据生成过程时,计算隐变量的真实后验分布涉及难以处理的积分。
变分推断为解决这一推断难题提供了思路,其核心是用一个由参数化分布族(如高斯分布)构成的、相对简单的变分后验分布来近似真实后验,并通过最大化一个称为证据下界(evidence lower bound,ELBO)的替代目标来间接优化数据的对数似然。变分自编码器的诞生正是将变分推断的自适应近似过程与神经网络强大的函数拟合能力相结合,通过深度神经网络来参数化变分后验分布和数据的生成分布。
2.1.2 方法实现
如图1所示,变分自编码器在结构上沿袭了自编码器的编码器-解码器架构,但在关键环节引入了概率思想和随机性。编码器不再输出单一的潜在向量,而是输出定义隐变量的近似后验分布(通常假设为对角高斯分布)的参数,即均值向量和方差向量(常输出对数方差以保证数值稳定)。这一设计使变分自编码器能够捕捉输入数据在潜在空间中的不确定性分布。
为了在保持模型可训练性的前提下从该分布中采样,变分自编码器引入了核心技巧——重参数化,这一技巧将随机性转移至辅助变量,使得梯度能够通过确定性的路径从解码器反向传播到编码器网络参数。
变分自编码器的训练目标即是最大化ELBO,其负值构成了损失函数。ELBO包含两项关键部分:重构项期望在变分后验下,解码器重构输入的对数似然尽可能大(即重构损失尽可能小);KL散度项则度量变分后验与预先设定的隐变量先验分布(通常为标准正态分布)之间的差异,起到正则化作用。优化过程通过随机梯度下降联合调整编码器参数和解码器参数,在最小化重构误差的同时,迫使所有输入的潜在分布向标准正态先验靠拢,从而塑造出一个连续、平滑且结构化的潜在空间。模型训练完成后,生成新样本变得直接而优雅:仅需从先验分布中采样一个潜在点,送入解码器即可生成符合学习到的数据分布的新样本。
综上所述,变分自编码器通过概率化的编码器、重参数化技巧、概率化的解码器以及基于ELBO的优化目标,成功地将变分推断与深度自编码器框架融合。它能够学习数据的有意义低维流形表示,其结构化且连续的潜在空间更赋予了其强大的生成能力,使其成为深度生成模型发展历程中的里程碑。尽管其生成样本有时存在模糊性等挑战,但其严谨的概率基础、训练的稳定性和潜在空间的可解释性,使其在诸多领域持续发挥着重要作用并催生了大量改进模型。
2.2 生成对抗网络
生成对抗网络是博弈论思想驱动的生成式人工智能方法,其通过“对抗”的方式训练生成模型、提高模型的生成能力,结构如图2所示。
2.2.1 方法背景
传统生成模型依赖于显式的概率分布建模与似然优化,但在处理复杂高维数据(如图像、视频)时面临计算瓶颈和生成质量限制。2014年,Goodfellow等创新性地提出了一种“对抗训练”的博弈框架,其核心思想是通过两个神经网络的动态竞争实现生成能力进化[38]。
图2生成对抗网络
Fig.2Generative adversarial network
生成对抗网络的灵感来源于博弈论中的零和博弈:生成器试图伪造足以乱真的数据样本,而判别器则努力区分真实数据与生成样本。二者的对抗过程被形式化为一个极小极大优化问题,最终目标是使生成器能够学习到数据的真实分布,从而生成与原始数据在统计上不可区分的样本。这一框架摆脱了对显式似然函数的依赖,转而通过判别器提供的对抗性信号隐式优化生成分布,为生成模型开辟了全新路径。
2.2.2 方法实现
生成对抗网络的实现围绕生成器和判别器的对抗训练展开。生成器通常是一个深度神经网络(如全连接网络或卷积网络),其输入为从简单先验分布(如标准正态分布)中采样的随机噪声向量,输出为与真实数据同维度的生成样本。判别器同样是一个神经网络,接收真实数据样本或生成样本作为输入,输出一个标量概率值,表示输入样本来自真实分布而非生成分布的可能性。
训练过程通过交替优化两个网络的目标函数实现:判别器通过固定生成器,并最大化判别器对真实样本与生成样本的区分能力来进行优化;生成器通过固定判别器,最小化生成样本被判别器识别的概率来进行优化。训练过程中,生成器与判别器在动态博弈中迭代提升。理想情况下,当生成分布逼近真实分布时,判别器无法区分样本来源,系统达到纳什均衡。
2.3 扩散模型
扩散模型的核心思想是将输入信息(例如图像)逐步转化为无序噪声,再通过神经网络逆向重建,形成基于似然最大化的生成范式,结构如图3所示。
2.3.1 方法背景
近年来,扩散模型已成为生成式人工智能领域的主导范式之一,其核心思想源于对复杂数据分布生成过程的深刻洞察。其发展背景与早期生成模型面临的挑战密切相关——生成对抗网络虽然能生成高质量样本,但训练过程不稳定且易出现模式崩溃;变分自编码器训练相对稳定,但其生成样本的保真度常受限于变分下界的紧致性和解码器的表达能力。为解决以上问题,扩散模型应运而生,旨在寻求一条既能实现稳定训练,又能生成高保真度、多样化样本的新路径。其灵感部分来源于非平衡态热力学,设想通过一个渐进的过程将数据分布(结构复杂)逐步转化为一个简单、易处理的噪声分布(如标准高斯分布),再学习如何逆向这个“破坏”过程,从而从噪声中“重建”出新的数据样本。
图3扩散模型
Fig.3Diffusion models
2.3.2 方法实现
去噪扩散概率模型[40](denoising diffusion probabilistic model,DDPM) 是奠定扩散模型当前范式基础的关键工作。DDPM的核心在于构建了一个清晰的两阶段马尔可夫链框架:前向过程(扩散过程) 和反向过程(生成过程)。方法实现上,前向过程被设计为一个固定的、逐步添加高斯噪声的过程。这个过程在离散的时间步上运行,从原始数据样本开始,每一步都根据预定义的噪声调度(一个随时间逐渐增大的方差序列),向当前数据添加少量高斯噪声。经过足够多的步骤后,原始数据的结构信息被彻底破坏,最终仅剩下纯高斯噪声。DDPM的巧妙之处在于其反向过程的实现。它训练一个深度神经网络(通常是具有跳跃连接的U-Net结构)来学习“去噪”,即预测在给定当前噪声版本数据的情况下,前一步添加的噪声是什么。这个神经网络接收含噪数据和对应的时间步信息作为输入,输出预测的噪声。训练目标极其简洁:最小化神经网络预测的噪声与实际添加噪声之间的均方误差。一旦模型训练完成,生成新样本的过程(采样)就开始了:从一个完全随机的纯高斯噪声样本出发,利用训练好的神经网络预测当前步的噪声,然后根据特定的更新规则(基于预测噪声和噪声调度参数)逐步去除噪声。这个过程逐步迭代,最终将噪声“演化”回一个清晰、符合训练数据分布的新样本。DDPM的成功在于其训练目标的稳定性和可扩展性,以及最终生成样本的高视觉质量,迅速在图像生成等领域确立了标杆地位。
扩散模型领域以DDPM的开创性工作为基石,通过其结构化的加噪/去噪框架和高效的噪声预测训练目标,奠定了高质量数据生成的基础。之后,基于随机微分方程[43](stochastic differential equation,SDE)的框架从连续时间动力学的视角提供了更普适的理论统一,深化了理解并启发了更先进的采样技术。而新兴的流匹配[44](flow matching)范式则另辟蹊径,通过学习从噪声到数据的确定性映射路径,追求更简单的训练和更高效的生成。这些方法共同构成了当前生成式人工智能的核心引擎。
2.4 自回归模型
自回归模型是概率论与序列建模思想驱动的生成式人工智能方法,其核心在于利用序列中已有元素的条件概率分布来逐步生成新元素,广泛应用于自然语言处理、时间序列预测等领域,结构如图4所示。
图4自回归模型
Fig.4Autoregressive model
2.4.1 方法背景
传统序列生成模型(如隐马尔可夫模型或循环神经网络)在处理长距离依赖和复杂上下文时,常面临梯度消失、计算效率低和生成连贯性不足等挑战。2017年,Vaswani等提出的Transformer架构[34]革新了序列建模方法,其自注意力机制有效捕捉了序列中的全局依赖关系。在此基础上,OpenAI于2018年推出GPT系列模型[45],将自回归生成与Transformer结合,通过预训练和微调范式显著提升了自然语言生成的质量与多样性。
自回归模型的灵感来源于时间序列分析中的自回归过程:每个序列元素的生成严格依赖于前面所有元素,从而保证生成的连贯性和逻辑性。在自然语言处理中,这一思想被形式化为一个条件概率链式规则,模型通过最大化序列的似然函数来学习数据分布。视觉自回归建模[42]提出将图像生成重新定义为“下一尺度预测”,即按分辨率从低到高逐步生成多尺度特征图,从而更自然地建模图像结构,提升生成效率与质量。
2.4.2 方法实现
自回归模型的实现围绕序列元素的逐次生成展开,其核心是条件概率建模。生成器通常是一个基于Transformer的深度神经网络,其输入为已生成的部分序列,输出为下一个元素的概率分布。判别组件则隐含在生成过程中:模型通过自注意力机制动态评估序列上下文,确保生成内容与历史信息一致。
训练过程通过最大化似然估计实现:模型基于大规模文本语料,通过最小化负对数似然损失来优化参数,即使生成序列的条件概率逼近真实数据分布。在推理阶段,模型以自回归方式逐元素生成序列:每一步根据当前序列采样或选择下一个元素,并将新元素反馈为下一时间步的输入。训练可以分为预训练和微调两个阶段:预训练阶段使用海量互联网文本学习通用语言表示;微调阶段通过人类反馈强化学习等技术对齐人类偏好,提升生成内容的安全性和相关性。
视觉自回归建模分为两个阶段:首先,使用多尺度变分量化自编码器将图像编码为一系列分辨率递增的离散令牌图;然后,训练一个仅含解码器的 Transformer 模型,以前缀所有低分辨率令牌图为条件,自回归地预测下一尺度的全部令牌。在生成过程中,每个尺度内的令牌是并行预测的,显著降低了计算复杂度。
3 研究进展
近年来,迅速发展的生成式人工智能,凭借其强大的数据分布拟合能力及数据生成补全能力,逐渐被引入无线电频谱认知领域,相较于传统方法,大幅提升了认知准确度。
3.1 频谱认知数据集
生成式人工智能模型的性能,在很大程度上受限于其训练数据的规模、质量与多样性。为系统性地评述生成式人工智能技术在频谱认知领域的研究现状,有必要对支撑模型训练与验证的关键数据集进行梳理。当前,研究界已形成若干涵盖不同场景、频段与调制类型的开源数据集,共同构成了生成式频谱认知方法发展与性能评估的重要基础。细节如表1所示。
表1无线电频谱认知数据集
Tab.1Radio spectrum cognitive datasets
RadioMapSeer数据集[28]通过软件WinProp,基于从OpenStreetMap获取的701张真实城市地图(尺寸为256 m×256 m,涵盖安卡拉、柏林、格拉斯哥等多个城市),仿真生成了空间分辨率为1 m的大规模频谱态势。仿真设置分为地面级(无线发射源高度为1.5 m,模拟设备到设备通信(device-to-device communication,D2D)场景)和屋顶级(无线发射源位于建筑物屋顶,模拟基站场景)两类,并采用了主导路径模型与智能射线追踪两种仿真方法。数据集还引入车辆影响模型,通过随机在道路周边放置车辆计算其对无线电传播的影响。此外,针对不同应用场景,构建了多个专用子集:用于路径损耗预测的RadioMapSeer、支持高精度定位研究的RadioLocSeer和RadioToASeer,以及扩展至三维场景的RadioMap3DSeer。所有数据均以图像及JSON格式存储,并提供了路径损耗的截断阈值以突出高路径增益区域。
BART-Lab Radiomap[30]是一个多频段的无线电频谱态势数据集。从OpenStreetMap获取10个真实城市场景的建筑地图,并利用WinProp软件的射线追踪技术,生成每个区域在不同频率下的接收信号强度分布。该数据集包含2 000个粗分辨率频谱态势(分辨率约为500像素×500像素)和100个细分辨率频谱态势(分辨率约为3 000像素×3 000像素),均覆盖5个频段(1 750 MHz、2 750 MHz、3 750 MHz、4 750 MHz和5 750 MHz)。每个区域包含三个无线发射源,区域被划分为5 m×5 m的网格单元,每个单元记录了考虑建筑遮挡、距离衰减和频率衰减等因素后的接收信号强度值。
CKMImageNet数据集[46]是一个为支持6G环境感知通信而设计的大规模混合数据集,其构建基于商用射线追踪软件Wireless Insite。通过对北京等典型城市环境进行高精度电磁波传播仿真,生成了包含位置标签的详细信道数据及对应的视觉图像。该数据集覆盖城市、乡村和室内等多种场景,集成了超过10 000张128 m×128 m的物理环境地图,包含建筑几何、材料属性等环境信息,并在此基础上生成了超过2 500万条信道数据条目,每条数据均关联基站与用户设备的位置信息以及路径增益、时延、到达角与出发角等关键信道参数。此外,CKMImageNet还提供了40 000张64像素×64像素分辨率的信道热力图,以视觉形式呈现信号强度等信道特性的空间分布。
SpectrumNet数据集[47]是一个大规模多频段三维频谱态势数据集,其构建综合了真实世界的地理信息与气候参数,采用了MATLAB射线追踪方法。该数据集基于 OpenStreetMap 获取了15 300个真实区域的建筑与地势信息,每个区域覆盖1.28 km×1.28 km的范围,空间分辨率为10 m。数据集包含11种地形场景(如密集城市、乡村、山地、森林、海洋等)、3种气候类型(热带、亚热带、温带),并在5个频段(150 MHz~22 GHz)和3个高度(1.5 m、30 m、200 m)上生成频谱态势,总计超过30万例态势样本。此外,SpectrumNet 还引入建筑物材质、地形材质及多种天气参数(如温度、气压、降雨率等),频谱态势生成的维度全、规模大。
UrbanRadio3D数据集[48]是一个大规模、高分辨率的三维频谱态势数据集,基于真实城市环境的高度和几何信息,采用射线追踪方法构建而成。该数据集覆盖701个不同城市区域,每个区域为256 m×256 m,空间分辨率为1 m,并模拟了从1~20 m共20个不同接收高度的信号传播情况,总计包含超过1 120万个数据点。数据集中每个场景均包含200个随机分布的发射机,并提供了丰富的信道参数,包括路径损耗、到达方向和到达时间等多模态信息。此外,数据集还提供了建筑物分割图、高度图和发射机位置图等辅助信息,所有数据均以统一的体素格式存储。
3.2 基于变分自编码器的频谱认知
作为一种较为基础的生成范式,变分自编码器的优点是结构相对简单、训练稳定,且能学习到平滑的隐空间表示,便于进行频谱数据的插值或渐进式生成。然而,其在频谱认知任务(如语音增强或音乐分离)中往往存在生成样本过于平滑、细节还原能力不足的问题,导致重建的频谱在清晰度和感知质量上通常逊于一些更先进的生成模型。因此,变分自编码器较少单独用于高性能要求的频谱处理任务,更适合作为基础模块,与其他模型(如扩散模型或对抗生成网络)结合使用,以提升整体表达能力和生成效果。
Zhang等提出了一种基于对抗自编码器的缺失数据推断方法[10],用于解决频谱认知数据缺失的挑战。该方法的核心动机在于克服传统矩阵补全等方法对数据缺失完全随机性的严格要求,以及在高缺失率下局部插值和变分自编码器难以有效学习数据分布的问题。为此,作者将变分自编码器与生成对抗网络结合,构建了一个对抗自编码器框架。在该框架中,变分自编码器负责从部分观测数据中学习潜在变量分布并重构完整数据,而对抗网络则通过判别器与生成器之间的极小极大博弈,进一步提升生成数据的质量与真实性。具体实现中,编码器将带有缺失的观测数据映射为潜在变量,解码器基于该变量生成完整数据,并通过掩码重建损失和KL散度损失进行优化;同时,判别器对生成数据与真实数据进行区分,推动生成数据分布逼近真实分布。该方法还引入了三种不同的数据缺失模式(完全随机缺失、块缺失和组合缺失)进行训练,以增强模型在实际复杂感知场景下的适应性与鲁棒性。
3.3 基于生成对抗网络的频谱认知
生成对抗网络在无线电频谱认知领域有较为广泛的应用。得益于其架构设计,其能产生细节丰富的输出,这是其最突出的优点。然而,其训练过程不稳定,存在模式坍塌、梯度消失和难以收敛等问题,需要精心的架构设计与超参数调校。因此,生成对抗网络更适用于数据分布相对明确、任务目标较为单一的场景,而在需要高度稳定性和精确重建的复杂场景频谱认知任务中,其直接应用面临挑战。
DeepREM[49]采用条件生成对抗网络和U-Net两种学习架构,仅通过有限测量数据实现端到端的频谱态势估计。该方法摆脱对额外地理信息或参数化传播模型的依赖,通过数据驱动的方式直接从稀疏输入中重建完整的接收功率与基站覆盖地图。在实现方法上,模型首先利用射线追踪仿真生成大量城市场景下的频谱态势作为训练数据,模拟真实环境中的建筑与地形对无线电传播的影响;随后对完整地图进行随机掩码处理,以模拟稀疏测量输入。条件生成对抗网络通过生成器与判别器的对抗训练,学习从稀疏输入到完整频谱态势图的映射,并利用条件信息提升输出的真实性与一致性;U-Net则通过编码-解码结构与跳跃连接,实现高效的特征提取与图像重建。两种模型均在训练阶段隐式学习射线追踪所蕴含的物理传播特性,而在实际部署中仅需输入有限的测量值及其位置,无须任何额外信息,提升了频谱认知的效率。
GAN-CRME[50]提出一种基于生成对抗网络的协同频谱认知方法,摆脱对发射机信息的依赖,转而利用移动用户分布式采集的接收信号强度样本与地理地图之间的深层关联,实现高精度的频谱认知。该方法采用条件生成对抗网络架构,以U-Net作为生成器,输入为有限接收信号强度样本与地理地图拼接而成的双通道图像,输出为完整的频谱态势;判别器则通过对抗训练机制,评估生成图像与真实频谱态势图在联合分布上的一致性,从而提升生成器的推断能力。训练过程中,生成器与判别器通过对抗损失与像素级重构损失联合优化,使得模型不仅能从稀疏接收信号强度样本中还原信号空间分布,还具备一定的误差校正能力,即使在地理地图存在缺失或误差的情况下,仍能通过接收信号强度中蕴含的真实环境特征进行修复。该方法无须发射机信息,具备低复杂度和强鲁棒性,为生成式人工智能在频谱认知中的应用提供了新思路。
RAD-GAN[11]提出了一种基于生成对抗网络的无线地图异常检测方法。该方法利用生成对抗网络强大的分布建模能力,仅使用正常接收信号强度样本进行无监督训练,从而学习室内空间内无线电信号的正常分布模式。其采用编码器-解码器-编码器的网络结构,首先通过生成网络对正常指纹进行特征提取与重构,再通过判别网络区分真实指纹与重构指纹,进而推动生成网络更准确地拟合正常数据分布。在训练过程中,除了传统的对抗损失和重构损失,还引入了潜在特征空间的重构误差以及一项额外的重建损失函数,以增强模型对无线电信号特征的表示能力与训练稳定性。该方法不依赖定位算法,仅需未标注的接收信号强度数据即可实现对异常指纹的高灵敏度检测,为指纹数据库的适时更新提供了可靠依据,体现出生成式人工智能在频谱认知与环境感知中的有效应用。
RME-GAN[12]提出了一种基于条件生成对抗网络的两阶段学习框架,旨在融合模型驱动与数据驱动的优势,实现从稀疏观测到高精度频谱态势的端到端估计。该方法的核心理念在于分阶段处理全局传播模式与局部阴影特征:第一阶段利用模型引导插值(如对数距离路径损耗模型)生成粗略的频谱态势模板,以捕捉信号在大尺度空间中的传播规律;第二阶段则通过几何下采样和频域下采样策略,聚焦于非均匀分布观测点和高频细节,以修正由建筑物等障碍物引起的局部阴影效应。在条件生成对抗网络的框架下,生成器采用U-Net结构,输入包括稀疏观测、城市地图及发射机位置等多通道特征,判别器则通过对抗训练提升生成精度。此外,设计了两阶段损失函数,分别引入梯度一致性、几何误差、高频成分匹配及多尺度结构相似性等约束,以协同优化全局路径损耗与局部细节恢复。该方法无须依赖均匀采样或固定传播参数,提升了在复杂室外场景下无线电频谱认知的适应性与准确度。样例如图5所示。
3 D-DCRGAN[51]面向三维空间的频谱认知问题,提出传统空间插值算法难以在非平稳多发射源场景下高效重建信号分布,而现有基于密集采样的方法又因频谱观测无人机实际飞行路径受限而难以实施。为此,3D-DCRGAN使用网络结构与损失函数的协同设计解决该问题。在网络结构方面,该模型融合了ResNet与扩张卷积,以增强网络深度与感受野,避免因下采样导致上下文信息丢失,并引入PatchGAN思想提升局部判别能力。在训练机制上,采用无监督方式,仅使用不完整地图进行训练,无须真实完整地图作为标签。损失函数结合了重建损失与对抗损失,其中重建损失采用加权L1范数以强化对高信号强度区域的关注,对抗损失则基于Wasserstein GAN与梯度惩罚机制,以提升训练稳定性与生成质量。通过预处理阶段对不完整地图进行归一化与多通道着色,进一步提升了模型对测量与非测量区域的区分能力。该方法的实现体现了生成式人工智能模型在复杂电磁环境中从有限观测样本中学习并重构全局频谱状态的潜力。
3.4 基于扩散模型的频谱认知
作为当前性能卓越的生成范式,扩散模型已成为无线电频谱认知领域极具发展前景的研究方向。其通过一个渐进式的去噪过程生成数据,在频谱认知任务中能产生细节极其丰富、连贯性极佳的频谱,其生成效果通常被认为超越了对抗生成网络和变分自编码器。然而,获得这一卓越性能的代价是其庞大的计算开销和较为缓慢的采样速度,同时模型严重依赖于海量的高质量训练数据以学习复杂的去噪映射。因此,扩散模型非常适用于计算资源充足且拥有大规模标注或配对数据集的场景。
RadioDiff[14]将基于无线发射源的频谱认知问题建模为条件生成任务。其核心动机在于利用生成式方法更好地捕捉路径损耗的高频细节与复杂纹理特征,尤其是在动态障碍物(如车辆)影响下信号的部分遮挡与反射特性。方法上,RadioDiff采用解耦扩散模型以提升推理效率,将扩散过程分为数据衰减与噪声注入两个阶段,并通过两个U-Net解码器分别预测衰减函数与噪声向量。为增强模型对动态环境高频特征的提取能力,引入自适应快速傅里叶变换模块,在频域中通过可学习权重矩阵强化关键频率成分。此外,模型以发射源位置、静态与动态环境特征作为条件提示,通过交叉注意力机制实现条件生成,从而在潜空间中以自监督方式从环境信息中重构出高保真、结构清晰的频谱态势,提升了生成式方法在频谱认知中的建模能力与实用性。
IRDM[13]旨在基于有限采样及其与无线发射源位置的参考关系实现高精度频谱态势生成,进而解决传统频谱认知对大量实测数据的依赖问题。该方法基于条件扩散模型构建“无线电扩散模型”,将频谱认知问题建模为一个从噪声到清晰信号的逐步去噪过程。在实现上,模型以包含几何结构、位置编码和有限采样的路径损耗图作为输入条件,通过U-Net结构的去噪网络进行多步反向扩散,逐步恢复完整的高分辨率全局路径损耗图。训练过程中采用了多阶段策略与在线数据增强,逐步降低采样率以提升模型在低采样条件下的稳定性和泛化能力。该方法不依赖于大量实测点,而是结合射线追踪仿真数据与生成式模型强拟合能力,实现了在有限观测下对复杂室内信号分布的高保真重建。
RM-Gen[52]提出了一种条件扩散概率模型,通过引入两种易于获取的条件信息——有限接收信号强度采样和无线发射源的位置,引导生成过程逐步去噪并重建全局频谱态势。该方法将频谱认知问题建模为一个从条件输入到空间信号分布的映射任务,利用前向过程逐步注入噪声,再通过反向过程结合条件编码特征进行逐步去噪,最终合成出与真实分布高度一致的频谱态势。在模型训练中,采用U-Net结构实现噪声预测函数,并通过射线追踪技术合成涵盖多样化室内外场景的大规模训练数据,以增强模型对毫米波和Sub-6 GHz频段信号传播特性的适应能力。该方法降低了对大量实测数据的依赖,体现了生成式人工智能应用于频谱认知的高效性与灵活性。
WiFi-Diffusion[21]通过生成式人工智能的“发散思维”能力解决超低采样率下的频谱态势生成问题。其三大模块分别负责先验信息增强、多样化候选态势生成和物理规律引导的优选,共同保证了在极低采样率(<0.1%)下高精度的无线电频谱认知。该方法的核心思想是:不直接进行从稀疏样本到完整态势的确定性映射,而是先让扩散模型生成一组多样化的可能解(候选态势),再通过物理规则从中筛选出最优解。整个框架由三个模块组成,分别是增强模块、生成模块和选择模块。增强模块的任务是弥补超低采样率带来的信息不足问题,为扩散模型提供“提示词”,引导其生成更高质量的结果。生成模块是整个框架的核心,其目标是以增强模块输出的结果和建筑布局为条件,生成一组多样化的、高分辨率的候选频谱态势。由于生成模块的多样性,候选态势中存在较差结果。选择模块利用无线电传播的物理定律作为规则,从候选态势中筛选出最符合物理规律的结果作为最终输出。样例如图6所示。
RadioDiff-3D[48]突破现有二维路径损耗预测的局限,实现对三维空间中多模态信道特征(包括路径损耗、到达方向与到达时间)的全面建模。该方法基于去噪扩散概率模型,构建了一个条件生成框架,能够从环境先验信息(如三维建筑布局与无线发射源位置)或稀疏观测数据中合成高保真的三维频谱态势。具体实现中,模型采用三维卷积架构的U-Net作为去噪网络,通过前向加噪与反向去噪的马尔可夫过程,逐步从随机噪声中重建出结构化的四维张量表示的多模态频谱态势。该框架支持两种典型场景:在发射源已知时,利用环境先验与发射源信息进行条件生成;在发射源未知时,则依据稀疏采样点与环境先验进行态势推断。通过引入三维卷积操作,模型能够有效捕捉垂直维度的空间相关性,在复杂城市环境中实现具有空间一致性的三维频谱态势生成。
3.5 其他基于生成式人工智能的频谱认知
自回归模型常用于对序列数据的建模,虽然近期已有视觉自回归建模[42]方法将自回归方法用于空域数据,但自回归模型在频谱认知领域的应用相对较少。基于自回归模型的方法效果优异,但需将任务建模为序列生成任务,具有一定局限性。除了生成对抗网络、变分自编码器和扩散模型,随着大型语言模型的发展,基于Transformer架构实现的生成范式也逐渐进入无线电频谱认知研究者的视野。
CollaboRadio[53]提出了一种端-边-云协同频谱认知的范式,以解决高分辨率频谱态势构建中因传感器稀疏分布导致的超低采样率难题。该方法首先将传感器设备依据无线电传播特性进行聚簇部署,优化聚类位置以覆盖建筑边缘等无线电传播复杂区域,以增强簇内信号相关性;随后在每个簇内部署边缘服务器,利用轻量级人工智能模型(比如U-Net)基于簇内采样数据生成局部频谱态势;最后在云端采用基于Transformer的大模型,融合来自各边缘服务器的局部态势,并引入融合传播规律的损失函数,生成全局高分辨率频谱态势。该协同机制不仅能够基于超稀疏频谱采样实现高精度频谱认知,而且能够降低端-边-云之间的数据传输量,提升了系统实时性。样例如图7所示。
RadioFormer[54]设计了一种多粒度的变换器(multiple-granularity transformer)模型,通过双粒度特征编码与跨模态融合机制,在极低采样率下实现高精度的频谱态势生成。该方法采用双流自注意力模块分别处理像素级观测点特征与块级建筑物地图特征:观测点分支通过坐标与信号值嵌入捕捉稀疏点之间的关联,建筑物分支则通过视觉变换器提取空间结构信息。随后,设计跨流交叉注意力模块,以观测特征为查询,建筑物特征为键与值,实现多粒度信息的深度融合,从而在避免逐点推理的高计算开销的同时,有效整合环境结构与信号分布之间的物理关联。整个模型通过轻量级解码器输出密集频谱态势,并使用均方误差损失进行端到端优化,显著提升了其在极端稀疏采样条件(频谱采样率约为1‱)下的频谱认知能力。
表2总结了上述代表性工作及其特点。
生成式人工智能在射频指纹识别领域也展现出应用潜力,为提升识别精度、增强模型鲁棒性以及应对数据稀缺挑战提供了新的解决方案。例如,Jiang等[55]提出了一种基于变分自编码器与长短期记忆(long short-term memory,LSTM)网络的轻量化识别方案,通过VAE实现信号去噪与特征降维;Zhu等[56]利用一维卷积辅助分类器生成对抗网络(auxiliary classifier generative adversarial network,AC-GAN)进行数据增强,并设计了RF-GANomaly网络用于异常信号检测,提升了小样本场景下的识别性能与系统可靠性;Gao等[15]将大语言模型引入射频指纹识别任务,通过双向编码器表征法(bidirectional encoder representation from transformers,BERT)预训练与知识蒸馏构建轻量化识别模型,在复杂信道环境下仍可实现高精度识别。
表2智能生成式无线电频谱认知代表性工作
Tab.2GAI radio spectrum cognitive representative work
4 研究挑战
4.1 训练数据缺乏
训练数据缺乏是制约生成式人工智能赋能频谱认知的核心瓶颈之一。无线电传播受复杂的物理机制支配,其过程遵循麦克斯韦方程组,并伴随多径衰落、绕射损耗、阴影效应等高度非线性的传播现象。人工智能模型需依赖海量高质量数据方能有效捕捉此类复杂关系。此外,传播特性还受到发射功率、天线方向、建筑布局与材质、植被分布乃至气象条件等多重因素的耦合影响,进一步加剧了数据驱动的频谱认知难度。现有开源数据集在场景多样性、空间分辨率与测量精度等方面存在局限,且多为仿真数据,难以全面反映真实电磁环境的复杂性。多场景、细粒度、高精度的开源频谱态势数据严重匮乏,导致生成模型难以准确学习并泛化至实际传播场景。构建高质量、大规模的频谱态势数据集,是推动生成式人工智能在无线电频谱认知中有效应用的重要前提。
4.2 未知场景泛化能力不足
未知场景泛化能力不足是生成式人工智能赋能频谱认知的另一核心挑战。现有生成模型在训练过程中所学习的无线电传播规律,往往高度依赖于训练场景覆盖的特定传播特性、地理布局与发射源配置。当模型部署于一个全新的电磁环境时,由于发射源类型、空间分布、天线参数以及地形地物结构等关键要素可能发生显著变化,其底层数据分布与训练集之间存在显著差异,模型在未知场景中的频谱态势推断性能急剧下降。这一问题的本质在于,模型主要拟合了训练数据中的表观统计特征,而未能从根本上掌握可迁移的、可泛化的电磁传播物理机理。因此,如何从模型架构设计、训练机制优化与物理规律嵌入等角度出发,构建具备强泛化能力的生成式人工智能模型,使其能够真正理解并迁移电磁传播内在规律,是实现生成式频谱认知从学术研究走向实际工程应用的关键所在。
4.3 模型可解释性有限
模型可解释性有限是制约生成式人工智能在频谱认知领域可靠应用的关键挑战之一。以生成对抗网络、扩散模型为代表的生成模型通常具有复杂的非线性结构,其决策过程如同“黑箱”,难以提供关于频谱认知结果的明确物理依据或因果解释。在频谱认知任务中,用户不仅需要获得准确的频谱态势,更需理解模型为何会生成特定的信号强度分布、空间干扰模式或频谱空洞。然而,现有生成模型难以追溯其输出与具体环境要素(如建筑物遮挡、特定发射源活动)之间的定量关联,导致其结果可信度存疑,在频谱管理、干扰溯源和安全攸关的决策中难以被完全信赖。因此,提升模型的可解释性与可溯源性,发展能够融合物理知识、提供决策依据的透明化生成范式,对于推动智能生成式频谱认知技术在实际环境中的落地至关重要。
4.4 模型安全性威胁
模型安全性面临对抗性威胁是阻碍生成式人工智能在频谱认知中规模化部署的潜在风险之一。以数据投毒、梯度篡改为代表的对抗性攻击手段,可对生成式频谱认知模型的训练与推理过程构成严重威胁。在训练阶段,攻击者可通过向训练数据中注入精心构造的恶意样本,对频谱传播特性、信号特征或环境参数进行隐蔽篡改,导致模型在后续生成过程中学习到被污染的传播规律,进而系统性偏离真实电磁物理机制。在模型更新阶段,针对分布式学习或联邦学习设置的梯度篡改攻击,可通过伪造本地梯度信息,误导全局模型向异常方向优化,使其在特定区域或场景下产生有偏的频谱态势估计结果。更为严峻的是,由于电磁传播本身具有高度非线性与复杂性的特点,此类攻击往往难以通过常规数据验证手段被及时检测与消除。因此,构建具备对抗鲁棒性的生成式频谱认知模型,研发能够识别并抵御数据投毒与参数篡改的安全训练机制,是确保生成式人工智能赋能的频谱认知在开放、动态甚至对抗环境中可靠运行的重要保障。
4.5 生成式人工智能在该领域面临的特殊挑战
此外,生成式人工智能在无线电频谱认知领域的应用还面临实时性不足与生成结果不稳定等特殊的挑战。在实时性方面,为实现高质量的频谱认知,生成式模型通常需要具备大规模参数并依赖海量训练数据,这导致模型计算复杂度高、推理速度受限。特别是以扩散模型为代表的迭代式生成方法,其生成过程需经过多步反向去噪操作,进一步加剧了推理延迟,难以满足动态频谱管控对实时频谱认知的严格要求。因此,亟须将模型剪枝、知识蒸馏或专用硬件加速等推理优化技术融入生成流程,以提升运算效率。在稳定性方面,生成式模型固有的随机性导致其输出质量存在波动。这类模型通常从随机噪声中采样并生成结果,其随机性虽有助于输出多样性,但也造成不同推理批次之间生成质量不一致,从而影响结果的可靠性与一致性。为此,有必要设计有效的输出筛选与评估机制,以便从多次生成结果中稳定选取最优的频谱认知结果。
5 总结与展望
本文系统梳理了生成式人工智能赋能的无线电频谱认知研究进展。从变分自编码器、生成对抗网络到扩散模型,生成式人工智能通过其强大的数据分布拟合与数据生成补全能力,为频谱认知提供了革新性的解决方案,显著提升了频谱认知的精度与鲁棒性。
尽管前景广阔,生成式技术赋能频谱认知仍面临一系列严峻挑战:模型性能受限于训练数据的规模、质量与多样性,在数据稀缺或存在分布外场景时认知能力急剧下降;模型在未知场景下的泛化能力不足,难以适应动态变化的电磁环境;模型决策过程可解释性有限,难以追溯频谱生成结果与物理传播机理之间的因果关联,制约了其在安全攸关场景中的可信部署。
展望未来,为克服上述挑战并将生成式人工智能深度融入下一代无线通信系统,以下研究方向至关重要:构建大规模、多场景、高保真的标准频谱数据集与基准测试平台,是公平评估、持续迭代并推动领域共同进步的基石;将电磁传播物理规律作为显式约束嵌入模型训练与推理过程,发展物理信息赋能的生成模型,是实现强泛化频谱认知的重要路径;发展可解释生成架构与溯源分析方法,增强模型输出与物理现实之间的透明关联,是构建可信频谱认知系统的关键环节。




