Frontiers of Information Technology & Electronic Engineering

ISSN 2095-9184

   优先出版

合作单位

2021年, 第22卷 第5期 出版日期:2021-05-15

选择: 合并摘要 显示/隐藏图片
视觉知识的五个基本问题
潘云鹤
Frontiers of Information Technology & Electronic Engineering. 2021, 22 (5): 615-618.  
https://doi.org/10.1631/FITEE.2040000

摘要   PDF (1406KB)

认知心理学早已指出,人类知识记忆中的重要部分是视觉知识,被用来进行形象思维。因此,基于视觉的人工智能(AI)是AI绕不开的课题,且具有重要意义。本文继《论视觉知识》一文,讨论与之相关的5个基本问题:(1)视觉知识表达;(2)视觉识别;(3)视觉形象思维模拟;(4)视觉知识的学习;(5)多重知识表达。视觉知识的独特优点是具有形象的综合生成能力,时空演化能力和形象显示能力。这些正是字符知识和深度神经网络所缺乏的。AI与计算机辅助设计/图形学/视觉的技术联合将在创造、预测和人机融合等方面对AI新发展提供重要的基础动力。视觉知识和多重知识表达的研究是发展新的视觉智能的关键,也是促进AI 2.0取得重要突破的关键理论与技术。这是一块荒芜、寒湿而肥沃的“北大荒”,也是一块充满希望值得多学科合作勇探的“无人区”。

参考文献 | 相关文章 | 多维度评价
视觉知识:智能创意初探
庄越挺, 汤斯亮
Frontiers of Information Technology & Electronic Engineering. 2021, 22 (5): 619-624.  
https://doi.org/10.1631/FITEE.2100116

摘要   PDF (7789KB)

长期以来困扰人工智能领域的一个问题是:人工智能是否具有创造力,或者说,算法的推理过程是否可以具有创造性。本文从思维科学的角度探讨人工智能创造力的问题。首先,列举形象思维推理的相关研究;然后,重点介绍一种特殊的视觉知识表示形式,即视觉场景图;最后,详细介绍视觉场景图构造问题与潜在应用。所有证据表明,视觉知识和视觉思维不仅可以改善当前人工智能任务的性能,而且可以用于机器创造力的实践。

参考文献 | 相关文章 | 多维度评价
面向视觉常识推理的有向视觉连接
韩亚洪, 武阿明, 朱霖潮, 杨易
Frontiers of Information Technology & Electronic Engineering. 2021, 22 (5): 625-637.  
https://doi.org/10.1631/FITEE.2000722

摘要   PDF (17476KB)

为推动认知层面视觉内容理解的研究,即基于视觉细节的深入理解做出精确推理,视觉常识推理的概念被提出。相比仅需模型正确回答问题的传统视觉问答,视觉常识推理不仅需要模型正确地回答问题,还需给出相应解释。最近关于人类认知的研究指出大脑认知可以看作局部神经元连接的全局动态集成,有助于解决特定的认知任务。受其启发,本文提出有向连接网络。通过使用问题和答案的语义来情景化视觉神经元从而动态重组神经元连接,以及借助方向信息增强推理能力,所提方法能有效实现视觉常识推理。具体地,首先开发一个GraphVLAD模块来捕捉能够充分表达视觉内容相关性的视觉神经元连接。然后提出一个情景化模型来融合视觉和文本表示。最后,基于情景化连接的输出设计有向连接来推断答案及对应解释,其中包含了ReasonVLAD模块。实验结果和可视化分析证明了所提方法的有效性。

参考文献 | 相关文章 | 多维度评价
基于场景自适应概念学习的无监督目标检测
浦世亮, 赵暐, 陈伟杰, 杨世才, 谢迪, 潘云鹤
Frontiers of Information Technology & Electronic Engineering. 2021, 22 (5): 638-651.  
https://doi.org/10.1631/FITEE.2000567

摘要   PDF (28631KB)

目标检测是机器视觉领域最热门的研究方向之一,在学术界已取得令人瞩目的成果,在工业界也存在许多有价值的应用。然而,主流的检测方法仍有两个缺陷:(1)即使是经过大量数据有效训练的模型,仍然无法很好地泛化到新场景中;(2)模型一旦部署到位,则无法随着不断累积的无标注数据自主进化。为克服上述问题,受视觉知识理论启发,提出一种场景自适应进化的无监督视频目标检测算法,该算法可利用目标群体概念,降低场景变化带来的不利影响。首先通过预训练检测模型从无标注数据中提取大量候选目标,然后对候选目标聚类,构建目标概念的视觉知识字典,其中各个聚类中心代表一种目标原型。其次,通过研究不同目标簇和不同群体目标信息之间的关系,提出基于图的群体信息传播策略以判断目标概念的归属,可有效区分候选目标。最终,利用收集到的伪类标微调预训练模型,实现算法对新场景的自适应。算法的有效性得到多个不同实验的验证,且性能提升显著。

参考文献 | 相关文章 | 多维度评价
深度三维重建:方法、数据和挑战
刘彩霞, 孔德慧, 王少帆, 王志勇, 李敬华, 尹宝才
Frontiers of Information Technology & Electronic Engineering. 2021, 22 (5): 652-672.  
https://doi.org/10.1631/FITEE.2000068

摘要   PDF (2259KB)

三维形状重建是计算机视觉、计算机图形学、模式识别和虚拟现实等领域的重要研究课题。现有三维重建方法通常存在两个瓶颈:(1)它们涉及多个人工设计阶段,导致累积误差,且难以自动学习三维形状的语义特征;(2)它们严重依赖图像内容和质量,以及精确校准的摄像机。因此,这些方法的重建精度难以提高。基于深度学习的三维重建方法通过利用深度网络自动学习低质量图像中的三维形状语义特征,克服了这两个瓶颈。然而,这些方法具有多种体系框架,但是至今未有文献对它们作深入分析和比较。本文对基于深度学习的三维重建方法进行全面综述。首先,基于不同深度学习模型框架,将基于深度学习的三维重建方法分为4类:递归神经网络、深自编码器、生成对抗网络和卷积神经网络,并对相应方法作详细分析。其次,详细介绍上述方法常用的4个代表性数据库。再次,对基于深度学习的三维重建方法进行综合比较,包括不同方法在同一数据库、同一方法在不同数据库以及同一方法对于不同视角个数输入的结果比较。最后,讨论了基于深度学习的三维重建方法的发展趋势。

参考文献 | 相关文章 | 多维度评价
面向强化学习自动驾驶模型的异步监督学习预训练方法
王云鹏, 郑坤贤, 田大新, 段续庭, 周建山
Frontiers of Information Technology & Electronic Engineering. 2021, 22 (5): 673-686.  
https://doi.org/10.1631/FITEE.1900637

摘要   PDF (5386KB)

基于人定规则所设计的自动驾驶系统可能会因大规模相互耦合的规则而变得越来越复杂,因此许多研究人员致力于探索基于学习的解决方案。强化学习(reinforcement learning,RL)因其在各种顺序控制问题上的出色表现而被应用于自动驾驶系统设计。然而,基于RL的自动驾驶系统落地应用所面临的主要挑战是其初始性能不佳。强化学习训练需要大量训练数据,然后模型才能达到合理的性能要求,这使得基于强化学习的模型不适用于现实环境,尤其在数据昂贵的情况下。本文为基于强化学习的端到端自动驾驶模型提出一种异步监督学习(asynchronous supervised learning,ASL)方法,以解决在实际环境中训练基于强化学习模型时初始性能差的问题。具体而言,通过在多个驾驶演示数据集上并行且异步执行多个监督学习过程,在异步监督学习预训练阶段引入先验知识。经过预训练后,模型将被部署到真实车辆上进一步开展强化学习训练,以适应实际环境并不断突破性能极限。本文在赛车模拟器TORCS(The Open Racing Car Simulator)上对所提出的预训练方法进行评估,以验证该方法在改善强化学习训练阶段端到端自动驾驶模型的初始性能和收敛速度方面足够可靠。此外,建立一个实车验证系统,以验证所提预训练方法在实车部署中的可行性。仿真结果表明,在有监督的预训练阶段使用一些演示,可以显著提高强化学习训练阶段的初始性能和收敛速度。

参考文献 | 相关文章 | 多维度评价
用于规划快速变化无人机群的动态值迭代网络
李伟, 杨波威, 宋广华, 姜晓红
Frontiers of Information Technology & Electronic Engineering. 2021, 22 (5): 687-696.  
https://doi.org/10.1631/FITEE.1900712

摘要   PDF (3677KB)

在无人机自组网(UANET)中,稀疏且高速移动的无人机节点会动态改变无人机自组网的拓扑结构,这可能会导致无人机自组网服务性能问题。为规划快速变化的无人机群,本文提出一种动态值迭代网络(DVIN)模型,该模型利用无人机自组网的连接信息,采用场景式Q学习方法训练,生成状态值传播函数,使无人机节点能够自适应调节至新的物理位置。然后,评估了动态值迭代网络模型的性能,并将其与非支配排序遗传算法NSGA-II和穷举法比较。仿真结果表明,动态值迭代网络模型显著缩短了无人机节点路径规划的决策时间,且平均成功率更高。

参考文献 | 相关文章 | 多维度评价
用于说话人识别的潜在可区分性表征学习
黄多林, 毛启容, 马忠臣, 郑智燊, ROUTRAY Sidheswar, OCQUAYE Elias-Nii-Noi
Frontiers of Information Technology & Electronic Engineering. 2021, 22 (5): 697-708.  
https://doi.org/10.1631/FITEE.1900690

摘要   PDF (721KB)

从语音信号中提取特定说话人的可区分性表征,并将其转换为固定长度的向量是说话人识别和验证系统的关键步骤。提出一种潜在的可区分性表征学习方法,用于说话人识别。我们认为所学表征不仅具有可区分性,还具有相关性。具体来说,引入附加说话人嵌入查找表以探索同一说话人不同语音之间的相关性。此外,引入一个重构约束用于学习线性映射矩阵,使表征更具可区分性。实验结果表明,所提方法在INTERSPEECH2019会议的Fearless Step Challenge挑战赛的Apollo数据集和TIMIT数据集上的性能优于目前最先进方法。

参考文献 | 相关文章 | 多维度评价
一种基于分块步态模板的鲁棒性步态识别方法
王科俊, 刘亮亮, 丁欣楠, 于凯强, 胡钢
Frontiers of Information Technology & Electronic Engineering. 2021, 22 (5): 709-719.  
https://doi.org/10.1631/FITEE.2000377

摘要   PDF (909KB)

步态识别具备远程识别的巨大潜力,但这种方法很容易受到与身份无关的因素影响,例如穿衣、随身携带的物体和角度。目前基于步态模板的方法可以有效表示步态特征。每一种步态模板都有其优势以及表征不同的显著信息。本文提出一种步态模板融合方法,以避免经典的步态模板(例如步态能量图像方法)的不足——经典步态模板表征的不完整信息对轮廓变化很敏感。所提步态模板融合方法采取分块的方法,以表征行人不同身体部位的不同步态习惯。根据人体各部分特点将融合的步态模板为3个部分(头部、躯干和腿部区域),然后将这3部分的步态模板分别输入卷积神经网络学习从而获得融合的步态特征。采用CASIA-B数据集进行充分的实验评估,并将所提方法与现有方法比较。实验结果表明,所提步态识别方法具有良好准确性和鲁棒性。

参考文献 | 相关文章 | 多维度评价
具有执行器饱和的分段仿射系统基于事件的H控制
蒋永豪, 吴炜, 楼旭阳, 江正仙, 崔宝同
Frontiers of Information Technology & Electronic Engineering. 2021, 22 (5): 720-731.  
https://doi.org/10.1631/FITEE.1900601

摘要   PDF (1339KB)

针对具有执行器饱和的离散时间分段仿射系统,提出一种事件触发控制器设计方法。考虑饱和信息,提出一种新的事件触发策略,该策略能节省通信资源。基于分段李雅普诺夫函数,推导出基于线性矩阵不等式的可行性条件。该条件不仅能保证闭环系统在一定H性能指标下的稳定性,还能减少信号传输数量。最后,利用仿真实例验证该方法的有效性。

参考文献 | 相关文章 | 多维度评价
一种求解带邻域的Dubins旅行商问题的坐标下降法
陈征, 孙晨浩, 邵雪明, 赵文杰
Frontiers of Information Technology & Electronic Engineering. 2021, 22 (5): 732-740.  
https://doi.org/10.1631/FITEE.2000041

摘要   PDF (1490KB)

由于带邻域的Dubins旅行商问题(Dubins traveling salesman problem with neighborhoods, DTSPN)是无人机执行多目标区域侦察任务需要解决的核心问题,国内外学者对DTSPN问题的快速求解方法进行了广泛研究。本文针对目前已有方法存在计算资源消耗大等情况,设计了一种用于求解DTSPN问题的无梯度坐标下降方法。该方法的核心步骤是将DTSPN问题分解为一系列子问题,对于每个子问题仅需计算从初始点经过一个区域到达目标点的最短路径。通过研究子问题最短路径的几何特征,并将几何特征与二分法相结合,可得到快速计算子问题的鲁棒算法。然后,将子问题计算方法与坐标下降法相结合,构建了能快速求解DTSPN问题的计算方法。最后,为验证所提方法的有效性和快速性,将所提方法与几种传统算法进行仿真对比。

参考文献 | 相关文章 | 多维度评价
面向片上网络的一种模糊集成拥塞感知路由算法
YASREBI Shahrouz, REZA Akram, NIKRAVAN Mohammad, VAZIFEDAN Seena
Frontiers of Information Technology & Electronic Engineering. 2021, 22 (5): 741-755.  
https://doi.org/10.1631/FITEE.2000069

摘要   PDF (1850KB)

片上网络(NoC)是一种为多处理器芯片提供通信平台的基础设施。共享资源的虫孔交换方法在提升其效率的同时,也可能导致拥塞问题的出现。然而,处理这种拥塞问题需更多能耗,从而增加了耗电量。此外,耗电量的增加会产生更多热量并加剧热量波动,从而削减基础设施寿命,更严重的是降低网络性能。考虑到这些复杂性,提出控制拥塞的方法是一个重大挑战。本文提出一种模糊逻辑拥塞控制路由算法,以提高NoC在面对拥塞时的性能。为避免拥塞,所提算法采用被占用的输入缓冲区、相邻节点的总占用缓冲区以及从瞬时相邻节点到终点最短路径下最大可能的路径多样性作为选择参数。为强化路径选择函数,利用了模糊逻辑算法的不确定性。结果表明,平均时延、功耗和最大时延分别降低14.88%、7.98%和19.39%。此外,该方法提高了14.9%的吞吐量和11.59%的接收数据包总数。为凸显所提算法的重要性,采用转置流量模式进行检验,平均延迟改善15.3%。TMPEG-4(三倍MPEG-4)、QPIP(四倍PIP)和TVOPD(三倍VOPD)的平均延迟分别降低3.8%、36.6%和20.9%。

参考文献 | 相关文章 | 多维度评价
基于二硫化钛可饱和吸收体的被动锁模掺铒光纤激光器
尚新新, 郭林广, 张华年, 李登旺, 岳庆炀
Frontiers of Information Technology & Electronic Engineering. 2021, 22 (5): 756-766.  
https://doi.org/10.1631/FITEE.2000341

摘要   PDF (2765KB)

本文采用液相剥离法和旋涂法合成调制深度为5.08%、饱和强度为10.62 MW/cm2的二硫化钛聚乙烯醇薄膜型可饱和吸收体。由于二硫化钛可饱和吸收体具有很强的非线性饱和吸收特性,在掺铒锁模光纤激光器中观测到两种类型的光孤子。当泵浦功率达到67.3 mW时,产生重复率为1.716 MHz、脉宽为6.57 ps的传统锁模脉冲串,其输出光谱中心为1556.98 nm、半高全宽为0.466 nm,且有明显对称的Kelly边带。通过调整偏振控制器,得到另一种锁模脉冲,在517.2 mW泵浦功率下,其最大输出功率为3.92 mW,脉冲能量为2.28 nJ。实验证明层状二维材料二硫化钛具有优异的非线性饱和吸收特性,在超快光子学领域具有广阔应用前景。

参考文献 | 相关文章 | 多维度评价
13篇文章