生态发布会|中科院自动化所赫然研究员分享视觉内容生成和鉴别
2021年12月21日,“数据驱动决策”中科闻歌首届大数据与决策智能生态发布会在北京成功举办。会上,中国科学院自动化研究所研究员赫然作题为《视觉内容生成和鉴别》的学术报告,全面介绍了视觉内容的生成技术,列举了具体的应用和影响,并阐述了合成信息的鉴别方法。
赫然介绍了深度合成、深度伪造和对抗样本的基本概念,并进一步阐述了三者之间的关联。他指出,深度合成是基于人工智能技术实现对数字多媒体内容进行自动合成或编辑的技术,深度伪造指借助深度合成技术伪造以人为主体的视听觉内容以达到欺骗的目的,其主要攻击人的视听觉系统,而对抗样本则主要攻击机器的智能系统。
赫然表示,目前约64%的深度合成视频应用于娱乐领域,深度合成若以人为中心则主要涉及无中生有、身份替换和人脸重演等方面。无中生有即为从噪声中合成人脸,其合成的图像数据都是现实世界不存在的虚拟数据。身份替换涉及到的重要技术之一为人脸换脸,可以把一个人的脸换到另一个人的身上;为了使换脸结果更加逼真,可以使用信息瓶颈方法,将人脸身份相关的有用信息留下,背景等无关的信息去掉,即可实现不同性别不同年龄的精准换脸。同时,还可以把脸换到不同类型的图像上,如可以将《哈利波特》男女主角的脸换到卡通人物身上等。除此之外,还可以模拟任何场景下的光照,使更换后的结果更加贴合真实场景。深度合成中另一个具有代表性的工作是人脸重演,可以让一个人说他没有说过的话,其中,语音驱动说话人技术可以让不同的人说同样的话。
深度合成的原理(图片来自赫然研究员演讲方案)
赫然认为,在深度合成技术广泛应用的同时,如何鉴别合成的虚拟数据也成为互联网行业关注的重点内容之一。他指出,可以通过模型指纹线索、图像拼接线索、时序闪烁线索、时序生理信号线索、音视频一致性线索、语义合理性线索等来判断真假,也可以使用多模态多线索的鉴别方法,利用语音、语义、视频信息等所有可能用到的信息,再加上辅助分析来鉴别其是否为合成信息。
深度合成的鉴别线索(图片来自赫然研究员演讲方案)
赫然表示,视觉内容的合成与鉴别是一个对抗搏弈的过程,随着合成技术的发展,合成数据集也变得越来越真实、越来越难以辨别,由此也出现了利用时空信息、多特征协同和自注意力机制进行检测等新的鉴别方法,但合成和鉴别技术的更新迭代速度较快,后续仍有很多实际问题需要进一步研究。