Frontiers of Information Technology & Electronic Engineering

ISSN 2095-9184

   优先出版

合作单位

2024年, 第25卷 第1期 出版日期:2024-01-15

选择: 合并摘要 显示/隐藏图片
人工智能生成内容最新进展
张军平, 孙凌云, 靳聪, 高俊斌, 李小兵, 罗杰波, 潘志庚, 唐瑛, 王井东
Frontiers of Information Technology & Electronic Engineering. 2024, 25 (1): 1-5.  
https://doi.org/10.1631/FITEE.2410000

摘要   PDF (6737KB)

人工智能生成内容(AIGC)是近年来人工智能(AI)领域一个研究热点,它有望取代人类以较低成本高效率执行内容生成工作,如音乐、绘画、多模态内容生成、新闻文章、总结报告、股评摘要,以至元宇宙中的内容生成和数字人。AIGC为未来AI发展和实现提供了一条新的技术路径。

在此背景下,《信息与电子工程前沿(英文)》期刊组织了一期关于AIGC最新进展的特刊。本期特刊关注AIGC理论、算法、应用及相关领域。通过吸引高质量论文,我们希望帮助学术界和工业界研究人员更深入了解AIGC背后的基本理论及其潜在应用,激励更多研究人员加入并推进AIGC领域的研究。因此,我们就以下主题(但不限于)征集论文:(1)AI生成音乐;(2)AI生成绘画;(3)AI对话模型;(4)AI新闻摘要;(5)AI与元宇宙;(6)AI与数字人;(7)AI图像编辑;(8)AI生成短视频;(9)AI生成多媒体内容;(10)ChatGPT相关工作。经严格评审,选出12篇论文,包括1篇评论、1篇观点、3篇综述、6篇研究和1篇通讯。我们将其划分为3个主要部分:ChatGPT、扩散模型、提示学习和多模态。

总体而言,本期特刊涵盖了与AIGC开发和应用相关的广泛研究主题,包括人工智能图像/文本生成、三维内容创建、以用户为中心的图形设计、特定风格的音乐生成,以及与因果表征学习、高阶扩散模型相关的工作。此外,还详细调研了概率扩散模型、提示学习和ChatGPT。

最后,感谢所有作者对本期特刊的支持,特别感谢所有评审人对专刊投稿富有见地的意见和有益建议。

参考文献 | 相关文章 | 多维度评价
ChatGPT:潜力、前景和局限
周杰, 柯沛, 邱锡鹏, 黄民烈, 张军平
Frontiers of Information Technology & Electronic Engineering. 2024, 25 (1): 6-11.  
https://doi.org/10.1631/FITEE.2300089

摘要   PDF (569KB)
参考文献 | 相关文章 | 多维度评价
ChatGPT辅助的平行智能教育
王加存, 唐瑛, HARE Ryan, 王飞跃
Frontiers of Information Technology & Electronic Engineering. 2024, 25 (1): 12-18.  
https://doi.org/10.1631/FITEE.2300166

摘要   PDF (1206KB)
参考文献 | 相关文章 | 多维度评价
扩散模型在时间序列的应用综述
林乐荃, 李正坤, 李瑞昆, 李旭亮, 高俊斌
Frontiers of Information Technology & Electronic Engineering. 2024, 25 (1): 19-41.  
https://doi.org/10.1631/FITEE.2300310

摘要   PDF (937KB)

扩散模型,一类基于深度学习的生成模型家族,在前沿机器学习研究中变得日益重要。扩散模型以在生成与观察数据相似样本方面的卓越性能而著称,如今广泛用于图像、视频和文本合成。近年来,扩散的概念已扩展到时间序列应用领域,涌现出许多强大的模型。鉴于这些模型缺乏系统性总结和讨论,我们提供此综述作为此领域新研究人员的基础资源,并为激发未来研究提供灵感。为更好理解,引入了有关扩散模型基础知识的介绍。除此之外,主要关注基于扩散的时间序列预测、插补和生成方法,并将它们分别在三个独立章节中呈现。还比较了同一应用的不同方法,并强调它们之间的关联(若适用)。最后,总结了扩散方法的共同局限性,并突出强调潜在的未来研究方向。

参考文献 | 补充材料 | 相关文章 | 多维度评价
计算机视觉中的提示学习:综述
雷一鸣, 李婧琦, 李子龙, 曹原, 单洪明
Frontiers of Information Technology & Electronic Engineering. 2024, 25 (1): 42-63.  
https://doi.org/10.1631/FITEE.2300389

摘要   PDF (26205KB)

自大型预训练视觉—语言模型(VLM)爆发以来,提示学习已在计算机视觉领域引发广泛关注。基于VLM构建的视觉和语言信息之间的密切关系,提示学习成为许多重要应用领域(如人工智能内容生成(AIGC))中的关键技术。本综述循序渐进且全面地总结了与AIGC相关的视觉提示学习。首先介绍了VLM,它是视觉提示学习的基础。然后,回顾了视觉提示学习方法和提示引导生成模型,并讨论了如何提高将AIGC模型适用于下游特定任务的效率。最后,提供了一些有前景的关于提示学习的研究方向。

参考文献 | 补充材料 | 相关文章 | 多维度评价
人工智能文本生成的进展与挑战
李冰, 杨鹏, 孙元康, 胡中坚, 易梦
Frontiers of Information Technology & Electronic Engineering. 2024, 25 (1): 64-83.  
https://doi.org/10.1631/FITEE.2300410

摘要   PDF (548KB)

文本生成是人工智能和自然语言处理的重要研究领域,为人工智能生成内容的快速发展提供了关键技术支撑。该任务基于自然语言处理、机器学习和深度学习等技术,通过训练模型学习语言规则,自动生成符合语法和语义要求的文本。本文对文本生成的主要研究进展进行梳理和系统性总结,对近几年文本生成相关文献进行综合调研,并详细介绍相关技术模型。此外,针对典型文本生成应用系统进行介绍。最后,对人工智能文本生成的挑战和未来研究方向进行分析和展望。得出以下结论,提高生成文本的质量、数量、交互性和适应性有助于从根本上推动人工智能文本生成的发展。

参考文献 | 补充材料 | 相关文章 | 多维度评价
“六书”多模态处理的形声表征以完善汉语语言模型
李伟钢, MARINHO Mayara C., LI Denise L., DE OLIVEIRA Vitor V.
Frontiers of Information Technology & Electronic Engineering. 2024, 25 (1): 84-105.  
https://doi.org/10.1631/FITEE.2300384

摘要   PDF (1089KB)

大型语言模型(LLMs)在自然语言处理中已取得显著成就,但在某些场景下,仍然面临解决中文语言处理复杂性的挑战。本文提出“六书”多模态处理(SWMP)框架,旨在考虑汉语形、声、音、像、意、会特性,便于中文语言多模态处理。在SWMP统一的理论框架下,提出“六书”形声编码(SWPC,简称“六书编码”)方法,使得对汉字的表达既能与语法有机结合,又反映汉语灵活应用的特点。文中设计的实验场景包括:(1)实验性建立汉字字根、偏旁(形部)和部件(声部)的图像和“六书”编码(SWPC)的数据库,实现汉语文字和图形的双模态处理;(2)表征若干汉词生成机制,建立提示性问/答模式,进行类比推理。使用SWPC处理中文形态关系数据集(CA8-Mor-10177)的所有问题,精度可达100%。(3)建立“六书”形声编码对词嵌入生成结果微调机制。对中文单词相似度数据集(COS960)中39.37%的问题,相似度计算与人工基础评估结果的平均相对误差低于25%。这些优于目前同类基准精度的结果表明,“六书编码”尝试体现汉语细腻的局部表征和整体关联等特点,可作为对现行汉语语言处理理论和技术的有效补充。

参考文献 | 补充材料 | 相关文章 | 多维度评价
基于Transformer-GANs生成有风格调节的音乐
王伟凝, 李嘉辉, 李意繁, 邢晓芬
Frontiers of Information Technology & Electronic Engineering. 2024, 25 (1): 106-120.  
https://doi.org/10.1631/FITEE.2300359

摘要   PDF (4887KB)

近年来,研究人员开发了各种算法来生成动听的音乐。然而,在生成过程中有时忽略了风格控制。音乐风格是指音乐作品呈现的具有代表性的特征,是音乐最突出的特质之一。本文提出一种创新的音乐生成算法,该算法能够根据指定的风格从零开始创作完整的音乐作品。算法引入了风格约束的线性生成器和风格鉴别器。风格约束生成器模拟MIDI事件序列,强调风格信息的作用。风格鉴别器应用对抗学习机制并引入两种创新的损失函数,以加强对音乐序列的建模。此外,本文首次建立了一个判别指标,以评估生成音乐与训练数据在音乐风格上的一致性。在现有公共数据集上,实验结果的客观和主观评价都表明我们的算法在音乐制作方面优于现有先进方法。

参考文献 | 补充材料 | 相关文章 | 多维度评价
基于细粒度强化学习增强噪声数据的低资源跨语言摘要
黄于欣, 顾怀领, 余正涛, 高玉梦, 潘通, 徐佳龙
Frontiers of Information Technology & Electronic Engineering. 2024, 25 (1): 121-134.  
https://doi.org/10.1631/FITEE.2300296

摘要   PDF (659KB)

跨语言摘要是从源语言文档生成目标语言摘要的任务。最近,端到端跨语言摘要模型通过使用大规模、高质量数据集取得令人瞩目的结果,这些数据集通常是通过将单语摘要语料库翻译成跨语言摘要语料库而构建的。然而,由于低资源语言翻译模型性能有限,翻译噪声会严重降低模型性能。提出一种细粒度强化学习方法解决基于噪声数据的低资源跨语言摘要问题。引入源语言摘要作为黄金信号,减轻翻译后噪声目标摘要的影响。具体来说,通过计算源语言摘要和生成目标语言摘要之间的词相关性和词缺失度设计强化奖励,并将其与交叉熵损失相结合优化跨语言摘要模型。为验证所提出模型性能,构建汉语-越南语和越南语-汉语跨语言摘要数据集。实验结果表明,所提出模型在ROUGE分数和BERTScore 方面优于其他基线。

参考文献 | 补充材料 | 相关文章 | 多维度评价
基于因果表征学习的可控图像生成
黄珊珊, 王元浩, 龚志黎, 廖军, 王姝, 刘礼
Frontiers of Information Technology & Electronic Engineering. 2024, 25 (1): 135-148.  
https://doi.org/10.1631/FITEE.2300303

摘要   PDF (12027KB)

人工智能生成内容(AIGC)已成为制作各种形式的大规模内容不可或缺的工具,特别是在图像生成和编辑中发挥重要作用。然而,图像生成和编辑的可解释性和可控性仍然是一个挑战。现有人工智能方法由于忽略图像内部的因果关系,往往难以生成既灵活又可控的图像。为解决这个问题,本文开发了一种新颖的因果可控图像生成方法,它将因果表征学习与双向生成对抗网络相结合。本文方法的关键在于使用因果结构学习模块学习图像属性之间的因果关系,并与图像生成模块中的编码器、生成器和联合鉴别器进行联合优化。基于这种方法,不仅可以学习图像潜在空间中的因果表征,进而实现因果可控的图像编辑,还可以利用因果干预操作生成反事实图像。最后,在真实世界的数据集CelebA上进行大量实验。实验结果证明所提方法的合理性和有效性。

参考文献 | 补充材料 | 相关文章 | 多维度评价
Deep3DSketch-im:基于人工智能从单个手绘草图快速生成高保真三维模型
陈天润, 曹润龙, 李泽健, 臧影, 孙凌云
Frontiers of Information Technology & Electronic Engineering. 2024, 25 (1): 149-159.  
https://doi.org/10.1631/FITEE.2300314

摘要   PDF (2547KB)

人工智能生成内容(AIGC)在语言和图像领域的崛起值得注意,但由于其复杂性和缺乏训练数据,基于人工智能生成三维模型仍未被充分探索。通过计算机辅助设计(CAD)创建三维内容的传统方法需大量人力和专业知识,这对于新手用户来说具有挑战性。为解决此问题,提出一种基于草图的三维建模方法,名为Deep3DSketch-im,它利用单个手绘草图进行建模。由于草图的稀疏性和模棱两可性,这是一项具有挑战性的任务。Deep3DSketch-im使用一种称作“有符号距离场(SDF)”的新型数据表示,通过将隐式连续场整合至从草图到三维模型的过程,以及一个特别设计的可以捕捉点和局部特征的神经网络,改进从草图到三维模型的过程。进行了大量实验证明该方法的有效性,在合成数据集和真实数据集上均取得更优的性能。此外,用户研究报告显示,用户对Deep3DSketch-im生成的结果更加满意。我们相信,Deep3DSketch-im有潜力通过为新手用户提供直观易用的解决方案来彻底改变三维建模的过程。

参考文献 | 补充材料 | 相关文章 | 多维度评价
TendiffPure:一种用于纯化的卷积张量链去噪扩散模型
白名瑗, 周德润, 赵启斌
Frontiers of Information Technology & Electronic Engineering. 2024, 25 (1): 160-169.  
https://doi.org/10.1631/FITEE.2300392

摘要   PDF (2066KB)

扩散模型是有效的纯化方法,在现有分类器执行分类任务之前,使用生成方法去除噪声或对抗性攻击。然而,扩散模型的效率仍然是一个问题,现有的解决方案基于知识蒸馏,由于生成步骤较少,可能会危及生成质量。因此,我们提出TendiffPure,一种用于纯化的张量化和压缩的扩散模型。与知识蒸馏方法不同,我们直接使用张量链分解压缩扩散模型的U-Net骨干网络,减少参数数量,并在多维数据(如图像)中捕获更多的空间信息。空间复杂度从O(N2)减少到O(NR2),其中R≤4为张量序列秩,N为通道数。实验结果表明,基于CIFAR-10、Fashion-MNIST和MNIST数据集,TendiffPure可以更有效地生成高质量的净化结果,并在两种噪声和一次对抗性攻击下优于基线纯化方法。

参考文献 | 补充材料 | 相关文章 | 多维度评价
受艺术家创造性思维启发的扩散模型多阶段引导
齐旺, 邓晃煌, 李太豪
Frontiers of Information Technology & Electronic Engineering. 2024, 25 (1): 170-178.  
https://doi.org/10.1631/FITEE.2300313

摘要   PDF (12285KB)

目前文本生成图像的研究已显示出与普通画家类似的水平,但与艺术家绘画水平相比仍有很大改进空间;艺术家水平的绘画通常将多个意象的特征融合到一个意象中,以表示多层次语义信息。在预实验中,我们证实了这一点,并咨询了3个具有不同艺术欣赏能力的群体的意见,以确定画家和艺术家之间绘画水平的区别。之后,利用这些观点帮助人工智能绘画系统从普通画家水平的图像生成改进为艺术家水平的图像生成。具体来说,提出一种无需任何进一步预训练的、基于文本的多阶段引导方法,帮助扩散模型在生成的图像中向多层次语义表示迈进。实验中的机器和人工评估都验证了所提方法的有效性。此外,与之前单阶段引导方法不同,该方法能够通过控制不同阶段之间的指导步数来控制各个意象特征在绘画中的表现程度。

参考文献 | 补充材料 | 相关文章 | 多维度评价
13篇文章