竞技宝app

竞技宝app

集换式卡牌 | 338人在玩 | 大小:82.75M | 版本号:V1.82.23

更新时间:2024-04-26 18:02:25

  • 简介
  • 版本
  • 资讯
  • 评论

    AI邓丽君如何翻唱周杰伦的《千里之外》?袁隆平院士的仿真语音又是如何生成?

    在第13期南都数字经济治理论坛“AI复活”主题研讨现场,来自中国科学院信息工程研究所的正高级工程师韩冀中,给与会嘉宾带来了上述场景的LIVE 演示,并分享科普了其背后的AIGC技术原理及数据安全治理挑战。

    从“AI孙燕姿”到“AI李玟”“AI高以翔”, 从“虚拟歌手一秒出专辑”到当下“复活逝者”的火爆业务,AIGC行业的发展可谓一日千里。在韩冀中看来,相比起生成式人工智能技术的迭代发展速度,其在商业落地应用场景的丰富速度其实更快,一些应用层出不穷。站在一位AI技术前沿研究者的角度,他直言其中隐私保护与数据安全风险亦相伴相生,需前置治理。“未来数字人必然将成为数字时代的一种趋势,更多人的数据会上网,整个行业生态发展必然要走的一条路。“而与此同时,各类大模型也有海量的高质量数据训练需求,“清洗数据的行业诱惑太大了。”



    在《数字人生成技术及其风险》的主旨演讲中,韩冀中总结了全球AIGC当前主要的模态技术路径:在文本方面体现为聊天机器人技术;音频方面包含了语音内容的声音克隆、音色模仿以及歌曲生成技术;图像和视频方面则是以人为主体的身份替换、说话人生成、人物定制化生成,以及聚焦于环境且基于文本指导的图像或视频生成。

    “对周杰伦的音频输入,首先尽可能地去除他的音色,而保留其中的歌词、语气等信息,这部分由SoftVC模型完成。随后再使用专属于邓丽君的vits模型为其添上邓丽君的音色。” 韩冀中以语音生成领域为例,介绍称当前该领域主要包括音色迁移、声音克隆等主流技术形态。其中音色迁移主要依靠Sovits框架实现,声音克隆的主流工具则是mocking bird,“这是一款基于卷积神经网络和大规模语音的预训练模型,只要输入袁老的既往语音来提供音色,再加上一段文本,就能克隆出对应音频。”韩冀中说。

    “在音乐生成行业比较敏感的话题,则主要是涉及音乐版权的问题,如谷歌、微软、OPENAI等公司都避讳提及他们在相关业务领域的训练数据来源。“韩冀中介绍,当前音乐生成领域主流的工具,国外的SUNO AI 暂无开源接口,国内的则以天工SkyMusic为龙头。

    而对于数字人的另一大核心场景——视觉生成,韩冀中则概述称当前路径主要依赖两大类技术:GAN主要用于深度伪造,Diffusion主要用于文生图和文生视频。不同于文字类生成模型主要基于大规模数据预训练以及人类反馈强化学习,该类文生图、文生视频技术任务则是主要使用了基于扩散模型的技术路线。而在视频类生成式业态中,最为重要级的人物生成领域,之所以能根据不同模态信息指导生成人脸或人体视频,主要是使用了包含传统的编码器解码器结构在内的生成对抗网络架构。其主流工具包含了DeepFaceLab、D-ID、InstantID、万兴播爆等。

    会上韩冀中表示,在AI复活亲人的案例中,不同的执行流程对应了不同的生成式人工智能技术以及对应的工具,比如使用定制化文生图技术生成亲人头像、使用声音克隆技术复制亲人音色、使用文字生成技术生成对话内容、使用音频驱动视频生成技术来驱动亲人的头部动作等。

    “对AI复活逝者的追寻是有代价的。”韩冀中坦言,对数字人来说,技术上已经可以实现将数据库内存储的人物现实生活中的语流语段等原始文本设为提示词,以便更多地控制生成的内容。而从相应的技术需求来说,"AI复活亲人”在数据层面需要收集大量逝者的面部图像和声音数据,他以包小柏提到的对女儿遗产信息的使用授权为例,“如何保障这些逝者海量的敏感隐私数据在被授权后的安全清洗,是一个极大的数安挑战。”

    他强调,依照《互联网信息服务深度合成管理规定》,训练数据包含个人信息的,应当遵守个人信息保护的有关规定。AI服务提供者若在未获得数据主体(即逝者家属或法定继承人)的明确同意下收集逝者的个人数据,如声音或图像,就是侵犯了逝者的隐私权。而即便在获得授权的情况下,服务提供者对于使用逝者数据的方式仍可能超出原授权的范围,如未经授权用于模型训练,“这种行为可能对逝者家属造成严重伤害。”

    “任何的算法你没有数据是训练不出来的,这些高质量的数据对行业内的任何一个公司来讲都是一个特别大的诱惑。“毕竟,与普通日常的声音受限于噪点音色等问题相区别,这些要用来建模数字孪生的人物数据都将经过一定的提纯处理,质量更高,被围猎的概率更大。“而一旦未授权被流转盗用,合成的内容未明确标识,更易与真实的混淆,加剧网络虚假信息的泛滥。”韩冀中一针见血。而根据《互联网信息服务深度合成管理规定》,深度合成服务提供者所提供的深度合成服务,可能导致公众混淆的,应当在生成或者编辑的信息内容的合理位置、区域进行显著标识。

    此外,韩冀中还同时提到,黑盒测试在技术上尚无法做到,因此“在一些企业不配合的情况下也很难探知它是否使用过一些无授权的隐私数据。”

    采写:南都记者 吕虹

    出品:南都数字经济治理研究中心