1月28日,国家互联网信息办公室发布《互联网信息服务深度合成管理规定(征求意见稿)》。
根据说明,深度合成技术,是指利用以深度学习、虚拟现实为代表的生成合成类算法制作文本、图像、音频、视频、虚拟场景等信息的技术,包括但不限于:
1)篇章生成、文本风格转换、问答对话等对文本内容进行生成或者编辑的技术;
2)文本转语音、语音转换、语音属性编辑等对语音内容进行生成或者编辑的技术;
3)音乐生成、场景声编辑等对非语音内容进行生成或者编辑的技术;
4)人脸生成、人脸替换、人物属性编辑、人脸操控、姿态操控等对图像、视频内容中人脸等生物特征进行生成或者编辑的技术;
5)图像增强、图像修复等对图像、视频内容中非生物特征进行编辑的技术;
6)三维重建等对虚拟场景进行生成或者编辑的技术。
深度合成服务提供者,是指提供深度合成服务以及为深度合成服务提供技术支持的组织。
深度合成服务使用者,是指使用深度合成服务制作、复制、发布、传播信息的组织、个人。
征求意见中要求,提供以下深度合成服务的,应当使用显著方式对深度合成信息内容进行标识,向社会公众有效提示信息内容的合成情况:
1)提供智能对话、智能写作等模拟自然人进行文本生成或者编辑服务的,在文本信息内容的稿源说明处等位置进行显著标识;
2)提供合成人声、仿声等语音生成或者显著改变个人身份特征的编辑服务的,在音频信息内容的合理区域以语音说明等方式进行显著标识;
3)提供人脸生成、人脸替换、人脸操控、姿态操控等虚拟人物图像、视频生成或者显著改变个人身份特征的编辑服务的,在图像、视频信息内容的明显位置进行显著标识;
4)提供沉浸式拟真场景等生成或者编辑服务的,在虚拟场景信息内容的明显位置进行显著标识;
5)提供其他具有生成或者显著改变信息内容功能的服务的,在文本、图像、音频或者视频、虚拟场景等的合理位置或者区域进行显著标识。
深度合成服务提供者提供前款规定之外的深度合成服务的,应当向深度合成服务使用者提供对深度合成信息内容进行显著标识的功能,并提示深度合成服务使用者可以对深度合成信息内容进行显著标识。
涉及的用语的含义:
1)场景声,是指音频中非语音内容的背景声音。
2)人脸操控,是指对图像、视频中人物的面部表情等进行操控。
3)姿态操控,是指对图像、视频中人物的肢体动作等进行操控。
4)三维重建,是指利用数据生成或者编辑场景三维立体影像的深度合成技术。
5)训练数据,是指被用于训练机器学习模型的标注或者基准数据集。
6)沉浸式拟真场景,是指通过深度合成技术生成或者编辑的、可供参与者体验或者互动的、具有高度真实感的虚拟场景。