摘要
面向5G/6G超密集组网的基站网络流量预测需求,提出一种增强随机集成混合核K近邻算法(enhanced random ensemble-based mixed kernel K-nearest neighbor algorithm,ER-MKKNN)。通过融合径向基函数与白噪声核构建混合核函数,突破了单一核函数在非线性关联建模与噪声抑制间的平衡瓶颈。创新性地引入样本-特征双重随机子采样与超参数区间随机化策略,显著提升了高维稀疏场景的泛化稳定性。基于袋外误差反演的动态权重分配机制,提升了算法对流量突变的鲁棒响应能力。配套设计的多级并行化架构,为超密集组网提供了可扩展的预测解决方案。实验表明,ER-MKKNN在均方根误差、平均绝对百分比误差和平均绝对误差三项指标上均优于所对比深度学习模型,为智能网络运维提供了新的技术路径。
Abstract
An ER-MKKNN (enhanced random mixed kernel K-nearest neighbors algorithm) was developed to meet the requirements of base station network traffic prediction in ultra-dense 5G/6G environments. A hybrid kernel function was formed by combining a radial basis function kernel with a white-noise kernel, thereby overcoming the trade-off between nonlinear relationship modeling and noise suppression that plagues single-kernel methods. Dual random subsampling of both samples and features, together with a randomized hyperparameter-interval strategy, was employed to bolster generalization stability in high-dimensional, sparse settings. A dynamic weight-allocation mechanism based on inversion of out-of-bag errors was introduced to improve robustness against abrupt traffic fluctuations. Finally, a multi-level parallel architecture was implemented to deliver a scalable prediction framework for ultra-dense network topologies. Experimental evaluations show that ER-MKKNN outperformed deep-learning models in root mean square error, mean absolute percentage error and mean absolute error, respectively, establishing a new technical pathway for intelligent network operations and maintenance.
作为现代通信基础设施,蜂窝网络采用分布式架构,构建起覆盖广泛的无线通信体系。其核心构成为密集分布的蜂窝小区,作为独立服务单元,每个小区依托基站实现区域内移动终端设备的通信管理与控制。在该系统中,“网络负载”特指基站承载的数据传输量及信道资源占用率,是直接反映网络运行状态的关键指标。
当前移动通信技术正经历代际跃迁,5G商用深化与6G研发推进正不断催生革命性应用场景。新一代通信技术将重构三大应用领域[1]:一是智能交通领域,二是沉浸式交互领域,三是工业互联网领域。这些高带宽、低时延的创新应用将引发流量结构的根本性变革。更值得关注的是视频流量的爆发式增长,2025年移动视频流量占比将攀升至74%,年均复合增长率达35%,这将持续加剧网络负载的动态不均衡特性[2]。对于基站流量的预测,将成为解决网络负载问题的重点研究内容。
传统的基站网络流量预测方法通常采用统计时间序列方法,例如自回归积分移动平均模型[3](autoregressive integrated moving average model,ARIMA)。随着人工智能方法的广泛应用[4-8],越来越多的基站网络流量预测模型引入了机器学习方法。 Rohini等[9]基于深度学习的长短期记忆(long short-term memory, LSTM)网络进行网络流量预测,因其长期记忆能力,被用于实现更精准的蜂窝网络流量预测,以支持动态资源分配和基站节能优化。Qiu等[10]提出了一种基于LSTM的多任务学习框架,该框架通过共享层提升泛化能力,通过融合注意力机制与卷积模块构建全局空间关联、全局时间关联及局部时空依赖的三维分析框架,在真实蜂窝流量数据集上实现了对复杂时空特征的全面挖掘与预测性能的显著提升。Huang等[11]提出一种基于条件概率建模的移动网络流量预测神经网络方法,通过对原始数据进行窗口化预处理、相邻窗口条件概率参数化及集成预测,构建了一种多尺度时序依赖建模框架。Zhang等[12]设计了一个Inverted Transformer模型来准确预测蜂窝流量。这些方法计算资源消耗大,动态适应性差,难以捕捉基站网络的动态拓扑变化。
除此之外,集成学习算法也受到研究人员的关注[13-14]。Yamada 等[15]在实时移动流量预测任务中使用随机森林(random forest, RF)预测网络流量,根据对预测准确性的贡献对流量日志数据进行优先级排序。Xia 等[16]采用RF算法进行特征筛选,进一步将轻量级梯度提升机(light gradient boosting machine, LGB)应用于移动网络流量预测。Gijón等[17]基于全国范围内30个月的小区数据,对比了监督学习与时间序列分析方法在小区级月度高峰数据流量预测中的性能,结果表明随机森林、支持向量回归等监督学习模型具有更高的预测精度。在降低存储需求的同时超越季节性自回归等传统方法,且非深度学习方法在计算效率上可与深度学习竞争,为长期流量预测提供了高效解决方案。
与上述工作不同的是,本文提出了一种增强随机集成混合核K近邻算法(enhanced random ensemble-based mixed kernel K-nearest neighbor algorithm, ER-MKKNN),在基站网络流量预测中有着更好的精度和鲁棒性。
1 增强随机集成混合核K近邻算法
1.1 混合核K近邻算法
1.1.1 算法原理
本文提出了一种混合核K近邻算法(mixed kernel K-nearest neighbor algorithm, MKKNN),突破传统K近邻算法(K-nearest neighbor algorithm, KNN)单一核函数的局限性,有效平衡非线性关系建模与噪声鲁棒性。通过将径向基函数(radial basis function,RBF)和白噪声核整合到统一框架中,混合核方法能够在异构特征空间中自适应地度量样本相似性。最终预测值通过对k个邻居的核值归一化加权平均获得。MKKNN结构如图1所示。
图1混合核K近邻
Fig.1Mixed kernel K-nearest neighbor
图1示意了MKKNN预测的基本原理。图中黑点表示特征空间中的已知训练样本,位于中央的x为当前待预测的目标样本(查询点)。灰色阴影区域表示以x为中心的核函数权重分布,颜色越深代表距离目标样本更近、权重值更高。x1、x2与x3为根据度量从训练样本中选取的三个最邻近样本。
KNN是一种经典的非参数回归与分类方法[18]。传统 KNN 基于欧氏距离度量,相似性度量在存在特征尺度差异或非线性关系时可能表现不佳。核化KNN通过Mercer 核替换距离度量[19],但通常只使用单一核。本文将其推广为仅由径向基函数和白噪声核构成的核混合形式:
(1)
其中:wrbf,wnoise≥0为对应权重;γ为 RBF 核带宽参数;σ2n为噪声方差。令 ,那么
,其中
为定义的指示函数,为阈值。RBF核在小尺度内对相似样本赋予高权重,能够精准刻画特征空间的平滑非线性关系。白噪声核仅在自相似位置贡献常量相似度,等价于对离群样本施加最小影响,显著提高整体鲁棒性,该混合核实现了多尺度特征捕获。
,其中
为定义的指示函数,为阈值。RBF核在小尺度内对相似样本赋予高权重,能够精准刻画特征空间的平滑非线性关系。白噪声核仅在自相似位置贡献常量相似度,等价于对离群样本施加最小影响,显著提高整体鲁棒性,该混合核实现了多尺度特征捕获。
设训练集为,其中。对任意测试点,先计算混合核相似向量:
(2)
令 Nk(x)表示相似度排名前k的索引集合,则预测值为

(3)
具体步骤如算法1所示。
算法1 混合核K近邻算法
Alg.1 Mixed kernel K-nearest neighbor algorithm
1.1.2 混合核正定性分析和距离分析
定义1(正定矩阵) 给定样本集{x1,···,xn} ,存在
(4)
则K为正定矩阵。
定义2(半正定(positive semi-definite, PSD)核) 核函数若对任意样本集构造的正定矩阵K满足

(5)
则称K为PSD核。
定理1 设K1,K2均为PSD核,且权重w1,w2≥0满足w1+w2=1,则
(6)
亦为PSD核。
证明:对任意,有
则Kmix为PSD核。
定理2(Mercer 定理) 若K为连续PSD核,则存在一个希尔伯特空间
及映射φ:
,使得
及映射φ:
,使得

(7)
证明:对连续的 PSD 核Kmix,可在
上做谱展开:
上做谱展开:
其中,{ψi}为正交归一的特征函数,对应特征值{λi}。定义映射
则在中有
取
,即得所需再生核希尔伯特空间。
,即得所需再生核希尔伯特空间。
定理3(Representer定理) 在核正则化的经验风险最小化问题

(8)
中,其解f*可表示为
(9)
证明:令在
中生成子空间
,任取f∈
,可分解为f=f0+f⊥,f0∈
,
。由于
中生成子空间
,任取f∈
,可分解为f=f0+f⊥,f0∈
,
。由于

经验损失与f⊥无关,但正则项
随||f⊥||增大而增大,因此最优解必有f⊥=0,即
随||f⊥||增大而增大,因此最优解必有f⊥=0,即

令,得证。
推论1 由 PSD 核可定义核距离
(10)
满足度量性质,有助于 KNN 中最近邻查询的理论保证。
证明:对任意x,y,z∈
,令
,令

则有非负性:
对称性:
三角不等式:
由此满足距离的三要素。
综上所述,MKKNN 所用的混合核Kmix(x,y)因其PSD的性质,不仅保证了对应的正定矩阵在再生核希尔伯特空间中的合法内积表示,也使得基于该核函数的距离度量满足伪度量甚至度量的条件。进一步地,Representer 定理说明了在正则化经验风险最小化框架下,任意解都可在有限样本核基上展开,从而为 MKKNN 的可解释性和算法实现提供了理论支持。基于以上理论保证,MKKNN 在多核自适应融合、异常点抑制与核回归平滑估计等方面具有坚实的数学基础,为后续的一致性与收敛性分析奠定了良好基础。
1.2 增强随机集成
为了提高算法的预测精度,本文提出一种基于随机子集策略的增强集成回归框架,将 MKKNN作为基学习器,该算法被称为ER-MKKNN。
设训练集为。对第m个基学习器,从{1,···,N}中随机不放回抽取αN个索引,记为实例子集Im;从d维特征中随机选取βd维,记为特征子集Fm;设置随机采样超参数km~U(kmin,kmax),γm~U(γmin,γmax);在子集上训练MKKNN,得到回归函数fm。双重随机化打破了特征间的伪相关性,特别适用于基站流量数据中的时空耦合特征。
对每个基学习器,计算其袋外(out-of-bag, OOB)样本误差样本集上的均方误差:

(11)
定义原始权重
(12)

(13)
其中,ε为防零常数。该方法有效利用未参与训练的OOB样本评估模型性能,指数加权强化高性能模型贡献。
最终集成预测为
(14)
具体步骤如算法2所示。
算法2 增强随机集成混合核K近邻算法
Alg.2 Enhanced random mixed kernel K-nearest neighbor algorithm
通过在实例子集与特征子集上随机采样并随机化超参数,生成多样化基学习器;利用无放回样本的OOB误差反演为权重,再经Stable Softmax归一化,实现加权融合,能够有效提升模型的多样性和在高维稀疏空间中的泛化能力。
1.3 多级并行化策略
为进一步提升训练与预测效率,本文在增强随机子集集成框架中引入多级并行化策略,包括基学习器级并行、OOB误差并行计算、预测阶段的并行融合和流水线与异步调度。多级并行化策略结构如图2所示。由于各基学习器互相独立,训练过程可按实例子集和特征子集并行执行,对M个基学习器同时调度:
其中,Pparallel是并行执行算子,参数njobs根据中央处理器(central processing unit,CPU)核数动态设定。
在所有基学习器训练完毕后,针对各自的OOB子集独立计算均方误差。同样可利用并行框架批量执行:
(15)
其中,为第m个基学习器在OOB样本上的均方误差损失,fm为模型预测值,foobm为对应的OOB实测值。并行完成后再统一进行 Stable Softmax 权重归一化。对新样本集{},各基学习器的预测 同样可并行计算。最终加权求和仅涉及向量内积,无须全局同步。在大规模数据场景下,可将训练和 OOB 验证两步流水线化:异步启动子任务,先训练fm,训练完成即提交其 OOB 误差计算,再根据结果动态调整剩余基学习器的资源分配,进一步提高集群利用率。
图2多级并行化策略改进的增强随机集成混合核K近邻算法
Fig.2Enhanced random mixed kernel K-nearest neighbor algorithm with improved multi-level parallelization strategy
2 实验与分析
本实验收集了深圳市18个小区2018年3月1日至4月19日的基站网络小时级流量数据,选取前4周数据作为训练集,第5、6周数据作为测试集。图3展示了样例基站一周的流量数据情况。具体统计描述如表1所示。
图3样例基站一周的流量数据
Fig.3A traffic data of the sample base station for one week
表1基站网络小时级流量数据统计描述
Tab.1Base station network hourly traffic data statistics description
本文在实时预测时,利用过去7个时段(共7 h)的流量数据来预测下一时段(1 h)的流量,同时采用均方根误差(root mean square error,RMSE)、平均绝对误差(mean absolute error,MAE)和平均绝对百分比误差(mean absolute percentage error, MAPE)作为基站网络流量的预测精度评价指标。
2.1 基站流量数据分析
首先,对不同小区的基站流量数据进行了相关性分析,采用皮尔逊相关系数对不同基站流量的相关性进行计算,并绘制热度图,如图4所示。
图4不同基站流量的相关性热度图
Fig.4Correlation heat map of traffic at different base stations
从图4中可以发现,大多数基站间的皮尔逊相关系数都在 0.4~0.7,说明大部分基站的小时流量模式具有一定相似性。这可能源自相邻基站覆盖区域内用户行为的共性(如上下班高峰、午间休息、夜间流量低谷等)相互重叠。少数基站间的相关系数接近 0(比如1与7),提示它们的时段行为几乎不相关。
接下来,对不同小区的流量分布情况进行分析,测试正态、对数正态、韦伯和伽马分布,采用赤池信息准则选择小区基站流量的最优分布,所有基站的流量分布情况如表2所示,其中:kΓ为伽马分布的形状参数,决定峰度与偏态;θΓ为伽马分布的尺度参数;σLN为对数正态分布的形状参数;μLN为对数正态分布的尺度参数;kW为韦伯分布的形状参数;λW为韦伯分布的尺度参数;δ表示分布的平移量。
2.2 MKKNN的表现
为了验证混合核方法的有效性,本文分别与核K近邻算法(kernel K-nearest neighbor algorithm,KKNN)、采用欧氏距离的KNN(KNN-欧氏距离)、采用马氏距离的KNN(KNN-马氏距离)、采用余弦距离的KNN(KNN-余弦距离)和采用动态时间规整(dynamic time warping,DTW)距离的KNN(KNN-DTW距离)进行比较,所有算法的超参数K=5。不同KNN变体在RMSE、 MAPE和MAE上的性能比较如图5所示。不同KNN变体在18个基站网络流量预测中的平均表现如表3所示。
表2不同小区基站流量的分布情况
Tab.2Distribution of traffic at different residential base stations traffic
从表3可见,在相同超参数 K=5 条件下,MKKNN 在 18 个基站的平均流量预测中,RMSE为0.317 4、MAPE为2.518 7、MAE为0.195 4,三项指标均优于单一距离度量的 KNN 方法。与其他模型相比,MKKNN在RMSE上降低2.1%~14.1%, MAPE 降低 8.7%~42.2%,MAE 降低1.3%~14.1%。余弦距离因忽略幅度信息,在MAPE上波动最剧烈;DTW 虽强调时序对齐,但对突变与周期性波动敏感性不足,MKKNN相比KNN-DTW距离仅降低 MAPE 8.7%。MKKNN 通过综合核策略兼顾周期性与非线性特征,显著抑制噪声,使 MAPE 降低高达 42.2%。这充分验证了混合核方法在多尺度特征捕捉与预测稳定性上的优势,而 KKNN 固定单一核的特性限制了其在多样流量模式下的适应性,相比KNN,RMSE 仅降低约 2.1%。
图5不同KNN变体的性能对比箱线图
Fig.5Performance comparison boxplots of different KNN variants
表3不同KNN变体的性能对比
Tab.3Performance comparison of different KNN variants
2.3 增强随机集成MKKNN的表现
为了验证增强随机集成MKKNN的有效性,本文分别与先进的集成学习算法(包括RF、XGBoost[20]、LGB和CatBoost[21])进行比较。对比的集成学习算法参数采用的是默认推荐参数。集成学习算法在RMSE、MAPE和MAE上的性能比较如图6所示。集成学习算法在18个基站网络流量预测中的平均表现如表4所示。
图6集成学习算法性能对比箱线图
Fig.6Performance comparison boxplots of ensemble learning algorithms
表4集成学习算法性能对比
Tab.4Performance comparison of ensemble learning algorithms
与RF、XGBoost、LGB和CatBoost四种先进集成学习方法进行对比,ER-MKKNN在18个基站的网络流量预测中的RMSE(0.296 3)、MAPE(1.949 2)和MAE(0.179 9)均显著领先:与次优的LGB相比,RMSE降低了约7.7%、MAE降低了约5.9%;与RF相比,MAPE降低了约22.2%、MAE降低了约9.9%,表明通过随机子集集成多核函数,不仅能更精准地捕捉时序模式,还能在峰谷波动中提供更稳定的预测性能。
基于KKNN作为基础学习器,通过混合核函数实现多尺度特征映射,再结合增强随机集成机制以提高模型的泛化性能与稳健性。一方面利用核函数捕捉多尺度的局部相似性,另一方面通过随机化增强模型多样性,降低过拟合风险。相比树模型,核方法能更直观地以距离度量进行预测,因此在时序平滑、周期性和突发性特征并存时,表现更加稳定。ER-MKKNN将MKKNN与双重随机化子集集成有机结合,在单模型层面实现多尺度特征捕捉,在集成层面最大化模型多样性并降低过拟合。两者协同作用下,不仅带来RMSE、MAPE、MAE的显著降低,也令模型在峰谷突变与噪声干扰中表现得尤为稳定与鲁棒,充分验证了其在网络流量预测中的创新价值。
2.4 多级并行化策略的表现
为验证多级并行化策略的有效性,构建了包含20 000个样本的合成数据集(特征维度d=10),其中75%的样本作为训练集,25%的样本作为测试集,对其进行了对比实验,硬件环境为32核CPU集群,所有测试均在独占计算节点环境下进行。固定基学习器数量为100,采用控制变量法分别测试{1,2,4,8,16}核的并行性能。每个配置重复运行10次以消除随机波动,最终结果取平均值,结果如图7所示,具体表现如表5所示。
图7多级并行化加速性能表现
Fig.7Performance of multi-level parallelization acceleration
表5多级并行化加速效果
Tab.5Multi-level parallelization acceleration effect
从表5中发现,多级并行化策略能够在保持高并行度(大于95%)的前提下,在中等规模核数(2~8 核)上实现近线性加速(2 核约1.9倍、4 核约3.6倍、8 核约6.2倍)。但当并行核数进一步增至16 核时,由于线程间同步、通信及内存带宽竞争等开销急剧增加,并行效率由8 核时的77%下降至16 核时的58%,出现明显的收益递减效应,但是整体的性能却进一步提升,从而验证了本文提出的多级并行化的有效性。
2.5 与不同的机器学习和深度学习模型的比较
为系统验证ER-MKKNN的泛化能力,本研究设计了多维度对比实验。在传统机器学习模型方面,选取ARIMA、多层感知器[22](multi-layer perceptron,MLP)、决策树[23](decision tree,DT)和支持向量机[24](support vector machine,SVM)作为基准模型,其实现基于Python的Scikit-learn[25]库,均采用推荐默认参数配置。在与深度学习模型对比方面,进一步引入了堆叠自编码器[26](stacked autoencoders,SAEs)、循环神经网络[27](recurrent neural network,RNN)、门控循环单元[28](gated recurrent unit,GRU)、LSTM、Transfomer[29]和时间卷积网络[30](temporal convolutional network,TCN)前沿时序预测模型。实验设计中,所有深度学习模型均通过Adam优化算法进行模型训练,初始学习率设为0.001,以保持参数配置的一致性。特别地,通过构建涵盖传统机器学习与深度学习的多层次对照体系,充分确保了算法验证的全面性和结果的可信度。以小区1为例,多模型网络流量预测结果如图8所示。
图8多模型网络流量预测结果
Fig.8Network traffic prediction results of multiple models
多模型在RMSE、MAPE和MAE上的性能比较如图9所示。多模型在18个基站网络流量预测中的平均表现如表6所示。
实验数据充分验证了ER-MKKNN的综合优越性,其以0.296 3的平均RMSE、1.949 2的平均MAPE和0.179 9的平均MAE全面领先所有对比模型。相较于传统机器学习领域表现最佳的MLP模型,ER-MKKNN在关键指标MAPE上实现82.4%的大幅降低,显著克服了MLP对数据异常值敏感的问题;面对深度学习领域表现最优的LSTM和Transformer模型,ER-MKKNN在保持RMSE优势的基础上,其MAPE指标分别优于二者63.5%和70.8%,凸显了混合架构在时序特征提取与误差控制方面的双重突破。特别是在处理基站流量数据的非线性特征时,有效规避了DT模型的高系统性偏差缺陷,同时解决了SAEs等生成式模型在判别特征学习上的局限性,最终达成预测精度与稳定性的协同优化。
图9多模型综合性能对比箱线图
Fig.9Comprehensive performance comparison boxplots of multiple models
表6多模型综合性能对比
Tab.6Comprehensive performance comparison of multiple models
3 讨论
本文主要聚焦于基于时序模型的流量预测方法。为了更加全面地理解基站流量的波动特征,在后续的数据收集和模型构建方面,有必要进一步考察影响流量变化的多维因素,如发射功率和网络状况等。
发射功率越高,覆盖半径和小区容量越大,理论上可承载更多用户并分担热点区域的流量压力;但过高功率也会导致小区间干扰增大,反而影响用户体验。可通过采集不同功率档位下的基站业务量数据,构建功率-流量曲线;结合信号强度评估覆盖边缘用户接入成功率与重传率对流量的拉动或抑制作用。网络状况主要包括负载率、上行/下行时延、丢包率等,高负载率会使得调度资源紧张,用户等待时延增加,可能导致短时流量峰值被抑制或错峰;而丢包与重传会引发额外流量消耗,形成“假性高流量”。通过对多维因素的深入分析与建模,实现对基站负载的精准评估与动态资源调度。
4 结论
针对5G/6G时代基站网络流量预测面临的动态不均衡性与高维时空复杂性挑战,本文提出了一种融合混合核函数与增强随机集成的多级并行K近邻算法。
通过融合径向基函数与白噪声核构建混合核函数,模型既能捕捉相关性,也能针对流量突变进行局部“去噪”,实现了“信号”与“噪声”之间的有效平衡;结合样本-特征双重随机子采样与超参数区间随机化策略,每次基模型只在部分基站和时间段数据上训练,使得各基模型之间的训练误差具有较低相关性,有效降低整体方差,对核函数的超参数在给定区间内随机采样,使得不同基模型聚焦于不同的时空尺度,从而进一步提升集成多样性;通过基于OOB误差反演的动态权重分配机制,增强了系统对流量突变的响应能力;同时设计的多级并行化架构,为5G/6G超密集组网的负载预测提供了高精度、强鲁棒、可扩展的一体化解决方案。
尽管所提多级并行 ER-MKKNN 在预测精度与鲁棒性方面表现优异,但仍存在不足之处,ER-MKKNN 架构天然关注局部相似性,难以捕捉更长范围的时序趋势与全局周期,该模型对多级时序依赖(如跨天、跨周)的显式建模能力仍较为有限。虽然在核函数中可融入空间维度信息,但 ER-MKKNN 并未显式利用基站间的地理或网络拓扑关系。在后续的工作中,将通过时序分解融合和混合深度学习方法进行改进。




