Frontiers of Information Technology & Electronic Engineering

ISSN 2095-9184

   优先出版

合作单位

2024年, 第25卷 第6期 出版日期:2024-06-15

选择: 合并摘要 显示/隐藏图片
基于Transformer的强化学习方法在智能决策领域的应用:综述
袁唯淋, 陈佳星, 陈少飞, 冯大为, 胡振震, 李鹏, 赵卫伟
Frontiers of Information Technology & Electronic Engineering. 2024, 25 (6): 763-790.  
https://doi.org/10.1631/FITEE.2300548

摘要   PDF (1265KB)

强化学习已成为一种主导的决策范式,在许多现实应用中取得令人瞩目的成果。在大规模决策场景中,深度神经网络成为释放强化学习巨大潜力的关键所在。受自然语言和视觉领域中先进Transformer方法的启发,Transformer和强化学习的结合,突破了智能决策领域许多瓶颈。本文从基础模型、先进算法、代表性示例、典型应用和挑战分析等层面,归纳总结了基于Transformer的强化学习方法(TransRL),旨在深入分析当前强化学习方法的痛点,讨论TransRL如何突破强化学习范式的局限。据我们所知,本文是第一篇系统性回顾基于Transformer的强化学习方法在智能决策领域应用进展的综述,期望提供一个全面的TransRL讨论基础,推动强化学习在此领域的应用。为便于跟进TransRL的前沿进展,我们整理了最新相关论文及其开源项目,详见https://github.com/williamyuanv0/Transformer-in-Reinforcement-Learning-for-Decision-Making-A-Survey

参考文献 | 补充材料 | 相关文章 | 多维度评价
信息中心卫星网络中缓解突发流量的最优替代策略—聚集遥感图像传输
邢紫阳, 底晓强, 祁晖, 陈静, 曹金辉, 刘晋尧, 李旭生, 张子初, 朱玉臣, 陈雷, 黄锴, 霍星翰
Frontiers of Information Technology & Electronic Engineering. 2024, 25 (6): 791-808.  
https://doi.org/10.1631/FITEE.2400025

摘要   PDF (1349KB)

信息中心卫星网络在遥感图像传输中发挥着重要作用,然而,突发业务的出现在满足日益增长的带宽需求方面带来重大挑战。传统内容传输网络(CDN)由于需要预先部署内容,不具备应对此类突发流量的能力。本文提出一种最优替代策略,用于缓解信息中心卫星网络中的突发流量,特别是针对遥感图像传输。当多个用户在短时间内订阅相同的遥感图像内容时,所提策略选择最优的替代交付卫星节点,有效减少网络传输数据,防止突发流量导致的吞吐量下降。将内容传输过程公式化为一个多目标优化问题,应用马尔可夫决策确定突发流量减少的最优值,并利用联邦强化学习求解。此外,基于布隆过滤器设计了图像划分和识别方法,快速检索编码后的遥感图像。通过软件模拟低轨道卫星星座,验证了所提策略的有效性,平均交付时延减少17%。本文为卫星网络内容高效传输,特别是遥感图像传输,提供宝贵见解,并提出一种有前景的途径缓解信息中心环境中的突发流量挑战。

参考文献 | 补充材料 | 相关文章 | 多维度评价
通过类别特定帧聚类增强动作显著性的弱监督时序动作检测
夏惠芬, 詹永照, 刘洪麟, 任晓鹏
Frontiers of Information Technology & Electronic Engineering. 2024, 25 (6): 809-823.  
https://doi.org/10.1631/FITEE.2300024

摘要   PDF (1244KB)

时序动作检测任务是指在未裁剪的视频中检测出动作的开始时间和结束时间,并对动作实例进行分类。随着视频中动作类别的增多,现有仅提供视频级别标签的弱监督时序动作检测方法已无法提供足够的监督。单帧标注方法引起了人们兴趣。但现有单帧标注方法仅从视频片段序列的角度对标注的单帧建模,而忽略了标注单帧的动作显著性,并且没有充分考虑它们在同一动作类别中的相关性。考虑到在同一动作类别中,带标注的单帧能表现出独特的外观特征和清晰的动作模式,本文提出一种新颖的通过类别特定帧聚类来增强动作显著性的弱监督时序动作检测方法。该方法采用K-均值聚类算法对同一动作类别的帧聚合,将其作为该动作类别的特征表示。通过计算每帧与各个动作类别之间的相似度,得到类激活分数。特定于类别的单帧表征建模可以为主线中的视频片段序列建模提供补充性的指导。因此,针对标注的帧和其对应的视频片段序列,提出凸组合融合机制,用于增强动作显著性的一致性特性,从而生成更加鲁棒的类激活序列,进行精确的动作分类和动作定位。由于动作显著性增强的补充指导,该方法优于现有的基于单帧标注的动作检测方法。在THUMOS14、GTEA和BEOID 3个数据集上进行的实验表明,与最新的方法相比,所提方法具有更高的检测性能。

参考文献 | 补充材料 | 相关文章 | 多维度评价
三维无人机-多接入边缘计算场景下的多智能体协作任务调度能效优化方案
李阳, 魏子令, 苏金树, 赵宝康
Frontiers of Information Technology & Electronic Engineering. 2024, 25 (6): 824-838.  
https://doi.org/10.1631/FITEE.2300393

摘要   PDF (1036KB)

针对智能应用算力处理需求,多接入边缘计算(multi-access edge computing,MEC)在网络边缘为其提供计算服务。无人机(unmanned aerial vehicle,UAV)具有良好机动性,可在MEC中作为临时空中边缘节点为地面用户提供边缘服务。然而,MEC环境复杂且动态可变,如何为多台无人机制定合适的服务策略具有一定挑战。此外,现有很多UAV-MEC相关工作均假定无人机飞行高度固定,即飞行在二维平面内,忽略了飞行高度的重要性。在同信道干扰存在的前提下,本文通过优化能效实现任务完成量的最大化,多台无人机在三维空间中共同协作为地面用户提供任务计算服务。为实现能效优化目标,最大化任务完成量并最小化飞行能耗,须制定最优飞行策略、子信道选择策略以及任务调度策略。基于多智能体深度确定性策略梯度算法(multi-agent deep deterministic policy gradient,MADDPG),本文提出好奇心驱动和双网络结构的多智能体深度确定性策略梯度算法(curiosity-driven and twin-networks-structured MADDPG,CTMADDPG)解决上述优化问题,通过内部奖励促进智能体的状态探索,避免收敛于次优策略。同时,利用双批评家网络降低Q值高估概率,实现稳定更新。仿真结果表明CTMADDPG算法在最大化整个系统能效方面表现突出,优于其他基准测试算法。

参考文献 | 补充材料 | 相关文章 | 多维度评价
PEGA:一种考虑表观遗传特征平衡全局和局部优化的概率环境梯度驱动遗传算法
段峙宇, 杨顺昆, 邵麒, 杨明浩
Frontiers of Information Technology & Electronic Engineering. 2024, 25 (6): 839-855.  
https://doi.org/10.1631/FITEE.2300170

摘要   PDF (2728KB)

表观遗传学的灵活性使进化机制更加精细和多样化。从表观遗传的角度来看,提升遗传算法的稳定性和准确性需要重点解决两个方面的问题:(1)恒定外部环境导致突变或交叉后表型变化的过度无序性;(2)表观遗传算子类型有限导致的过早收敛。为此本文提出一种考虑表观遗传特征的概率环境梯度驱动遗传算法(PEGA)。提出概率环境梯度下降策略(PEG),其基于多维异构指数环境向量在解空间中沿梯度方向生成更多后代,以提高局部收敛效率并获得稳定的局部搜索能力。为了在不同进化阶段平衡全局和局部搜索,设计了可变核小体重组算子(VNR)以动态调整参与突变和交叉的基因数量。在此基础上,引入3个表观遗传算子,通过丰富遗传多样性来减少过早收敛的可能。在CEC’17基准函数集上10维,30维,50维和100维的实验结果表明,PEGA的准确性和稳定性均优于10种先进的进化和群体智能算法。消融分析验证了PEG和VNR在96.55%的测试函数上的有效性,并可将准确性提高至多4个数量级。此外,PEGA在航天器轨迹优化问题上也表现出了最佳综合性能。

参考文献 | 补充材料 | 相关文章 | 多维度评价
基于混合信号的神经模糊Wiener–Hammerstein系统辨识
李峰, 杨浩, 曹晴峰
Frontiers of Information Technology & Electronic Engineering. 2024, 25 (6): 856-868.  
https://doi.org/10.1631/FITEE.2300058

摘要   PDF (1779KB)

提出一种基于混合信号的神经模糊Wiener–Hammerstein(W–H)系统分离辨识策略。W–H系统由两个线性动态模块和一个非线性静态模块组成。静态非线性模块利用神经模糊网络(NFN)建模,两个线性动态模块分别利用自回归外生(ARX)模型和自回归(AR)模型建模。当系统输入为高斯信号时,利用相关分析技术解耦两个线性动态模块的辨识与非线性模块辨识。首先,基于高斯信号的输入和输出,利用相关分析技术辨识输入线性模块和输出线性模块,解决了W–H系统中间变量信息无法测量的问题。然后,采用零极点匹配方法分离两个线性模块的参数。此外,基于随机信号的输入和输出,利用递归最小二乘法识别非线性模块,避免输出噪声的影响。数值仿真和非线性过程仿真证明了所提辨识技术的可行性。仿真结果表明,所提策略可以获得比现有辨识算法更高的辨识精度。

参考文献 | 补充材料 | 相关文章 | 多维度评价
非线性二阶系统的多智能体强化学习行为控制
张祯毅, 黄捷, 潘聪捷
Frontiers of Information Technology & Electronic Engineering. 2024, 25 (6): 869-886.  
https://doi.org/10.1631/FITEE.2300394

摘要   PDF (1234KB)

强化学习行为控制局限于没有群体任务的单个智能体,因为其将行为优先级学习建模为马尔可夫决策过程。本文提出一种新颖的多智能体强化学习行为控制方法,该方法通过执行联合学习克服上述缺陷。具体而言,针对一组非线性二阶系统,设计一个多智能体强化学习任务监管器以在任务层分配行为优先级。通过将行为优先级切换建模为协作式马尔可夫博弈,多智能体强化学习任务监管器学习最优联合行为优先级,以减少对人类智能和高性能计算硬件的依赖。在控制层,设计了一组二阶强化学习控制器用以学习最优控制策略,实现位置和速度信号的同步跟踪。特别地,设计了一组自适应补偿器以保证输入饱和约束。数值仿真结果验证了所提出的多智能体强化学习行为控制对比有限时间、固有时间和强化学习行为控制具有更低的切换频率和控制代价。

参考文献 | 补充材料 | 相关文章 | 多维度评价
基于非对称时变积分障碍李雅普诺夫函数的动态状态约束非线性系统自适应最优控制
魏岩, 郝明爽, 禹鑫燚, 欧林林
Frontiers of Information Technology & Electronic Engineering. 2024, 25 (6): 887-902.  
https://doi.org/10.1631/FITEE.2300675

摘要   PDF (1018KB)

本文研究具有动态状态约束的非线性系统自适应最优跟踪控制问题。首先提出一种基于非对称时变积分障碍李雅普诺夫函数(ATIBLF)的积分强化学习(IRL)控制算法。在最优反步控制设计的每一步中都引入ATIBLF,以确保系统始终满足动态变化的全状态约束。每个子系统中的最优虚拟/实际控制器均用ATIBLF和自适应最优项进行分解,同时利用神经网络来近似最优代价函数梯度。根据李雅普诺夫稳定性定理,证明了闭环系统所有信号的有界性。所提出的控制方案保证了系统状态在预定义的紧集内。最后,通过仿真实验验证了本文所提方法的有效性。

参考文献 | 补充材料 | 相关文章 | 多维度评价
8篇文章