资本永不眠,AI数字人有一颗做“通讯社”的野心 | 专访总台“AI王冠”团队

“AI王冠”项目是中央广播电视总台视听新媒体中心旗下的一项技术创新项目,它代表了国内媒体领域对人工智能应用的典型探索和实践。

“AI王冠”项目起源于2020年,当时总台希望逐步创建元宇宙形象,把传统真人出镜的模式转换到数字分身,并应用于元宇宙场景。“我们的核心出发点是:以自动化、智能化的生产体系来应对财经、证券类资讯的潮汐式涌现,实现前台展示和后台生产的全流程自动化。”

通过创建AI虚拟主播,应用到新媒体日常新闻播报、两会重点项目,以及商业化项目等场合,“AI王冠”填补了内容生产的空白,加速了新闻制作过程,在节省资源的同时,保持了内容的质量稳定。“AI王冠”在央视频的账号有近6000粉丝和超780万总播放量。目前,同样的技术已经在CGTN等总台更多部门应用和铺开。

在这个项目中,“AI王冠”的原型,财经评论员王冠是如何深度参与到其中的?开发团队面临怎样的挑战,又是如何克服了这些挑战?“AI王冠”在央视频等平台上的应用情况,以及其在当前媒体生态中的地位和潜力又是如何呢?

请看视智未来对总台“AI王冠”项目团队负责人,以及王冠老师的专访。

受访者:

总台视听新媒体中心技术应用部副主任 姚远

总台视听新媒体中心内容一部制片人 高跃

总台财经节目中心“548A红人馆”工作室制片人 王冠

总台财经节目中心“548A红人馆”工程师 王京源

---以下为采访实录---

项目起源

请介绍一下“AI王冠”项目是如何立项的,当时确定的目标有哪些?

2020年,元宇宙概念在全球爆发。那时我们考虑逐步创建总台的元宇宙形象。我们想要将传统的真人出镜模式转换为数字分身,应用于元宇宙场景。以技术创新跟进时代的脚步,是我们的初衷。

同时在2020年春,恰逢美股熔断的大新闻频发,央视频多次邀请王冠老师深夜上线,直播解读美股市场动态。全球主要资本市场,尤其是美股均在北京时间夜间进行交易,而国内的广电财经媒体在北京时间晚上10点后内容更新较少,与世界主要资本市场的活跃时间存在明显时差。我们显然不能期望所有主持人、编辑和记者以常态化、高强度工作状态应对全球资本市场的突发情况。

全球资本市场永不休眠!美股在夏令时期间,同我们有12个小时的时差。海外资本市场的行情走势该如何在北京时区工作人员下班之后也能及时得到处理?因此,我们认为在流媒体的财经资讯领域,虚拟主持人可以发挥重要作用,尤其可以弥补北京时间的当日晚间到次日早晨这一时段的内容生产空白。

虽然财经类APP的文字更新迅速,但目前其视频化的产能和播报服务占比很低。基于这一点,我们进一步明确目标:首先创建一个财经播报的虚拟主持人,并进一步探索自动化的AI生产体系。

1、全流程自动化

我们的核心出发点是:以自动化、智能化的生产体系来应对财经、证券类资讯的潮汐式涌现,实现前台展示和后台生产的全流程自动化。

中国上市公司的数量不断增长,目前已超过5000家。每家上市公司每年至少发布四份财报,这意味着在固定时间窗口内,会有海量的财报密集发布。此外,还有各种突发新闻及周期性经济数据发布,如国家统计局和各地统计局的月报、年报等。

面对这种潮汐式的信息发布,传统的人力资源在处理这些海量信息时显得力不从心。因此,我们希望研发的不仅仅是一个视觉化的AI超仿真人,而是一个全流程的、AI化的、自动化的生产工具。

2、在财经领域先行试点是可行的

我们在内容端进行了一系列策划和尝试,进一步去系统论证AI虚拟人技术在财经内容领域的必要性和可行性。这样重大的创新项目对于总台来说当然是一项重资产的技术研发和成本投入,我们必须谨慎起步。

之所以认为财经领域AI自动化生产内容可行,也是基于财经内容的特质和基调:理性、客观,使得数字虚拟人的情感波动不大,其人物呈现状态整体上相对冷静。当AI主播报道股票涨跌和数据统计等新闻时,不会像文艺和体育类主播那样,有很大的情感振幅和节奏变化,在研发起步阶段对算力的要求相对不高。

“AI王冠”项目从2021年第三季度开始,至今已经超过两年的时间。财经中心团队与王冠老师紧密合作,深度参与项目的完成。

本创新项目中会涉及各维度的供应商,它们是项目的重要支撑。而整个项目的技术把控和效果评估,都是由总台视听新媒体中心(即央视频)以及财经节目中心共同主导完成的。

当初为什么选定王冠老师来做数字分身的试点?

我们接受采访时,常被问及为什么选择王冠老师进行此项工作。这是要从技术和内容两个维度进行评估。

王冠老师是总台财经评论员,也是财经节目中心的资深主持人。总台成立前,在中央人民广播电台工作时期,王冠老师就曾经与科大讯飞合作,制作了语音版AI主播“央小广”。开始我们考虑,是否可以在此基础上增设人物形象?但后来发现技术上不可行,还是需要另起炉灶。

同时,在项目研发过程中,我们需要具有财经内容生产经验的专业人员来动态评估和把关,方便我们动态调整,研以致用。我们选择王冠老师,并不仅仅是为了使用一个主持人的形象,更多的是因为王冠老师和其栏目组团队能够全程参与,积极配合。如果只是使用他的形象,这项工作将难以进行。

王冠老师本人和其内容团队,对于这个项目的参与度很高。同时他们也向财经节目中心领导就项目设想进行了详细汇报,并得到了中心领导层的大力支持。这其实也反映了总台内部的良性创新氛围,面对未知领域的探索,从上到下都齐心协力,跃跃欲试。跨中心、跨栏目的动态组合,往往能迸发更多创新的火花。

自总台在2018年3月成立后,“融合发展”即成为既定战略。这种融合主要体现在传统广播电视内容向新媒体平台的延伸。2020年8月,王冠老师所负责的财经谈话类品牌栏目《王冠红人馆》,在总台技术局和视听新媒体中心的共同努力下,率先突破传统音频渠道,在央视频客户端实现视频化融媒直播,之后总台多档广播栏目和广播频率均依照此模式在央视频实现视频化播出。

《王冠红人馆——卡塔尔世界杯特刊》在央视频客户端的直播界面

在这个以技术引领的融合发展过程中,《王冠红人馆》节目组和央视频相关技术团队一直全程参与,紧密配合。大家彼此熟悉,合作起来非常顺畅。“AI王冠”的项目研发,其重要基础正是团队的率先融合和彼此信任。

制作过程

在“AI王冠”制作过程中,都需要用到王冠老师的哪些个人信息和特征?

项目启动伊始,首先需要全面采集王冠老师的生物信息,包括相貌体征、肢体轨迹、语言行为等。主要用于完善AI主播肢体运动轨迹的信息,包括面部信息、表情变化和声音的特质,还有就是语言表达的习惯。

由于这是总台层面的重点创新项目,主要用途为财经新闻的内容生产,并不是与商业平台合作的产业项目,所以使用王冠本人的个人IP及身份信息授权问题并没有明显障碍。

基于培育总台的“新质生产力”、创新内容生产流程和提高生产效率的考虑,在优质的技术团队把关和引领下,王冠老师全力配合整个信息采集过程,同时也积极参与内容生产体系设计与AI程序的工程搭建。

他表示:“这的确是一个全新的课题!作为主持人和财经评论员,参与到‘再造一个自己’这项工作中,感觉很奇妙,也难免惶恐,面对科技的日新月异,未来自己是否会饭碗不保?但时代浪潮滔滔,不舍昼夜。就像‘骆驼祥子’担心内燃机和汽车的发展一样,这是没有意义的。我们真正应该做的,是去顺应时代发展的潮流。”

“AI王冠”的声音和形象还原度如何?

王冠老师认为,目前“AI王冠”的仿真度已经非常高了,但在一些细节之处的表达上,AI和本人还是有差距的。“我个人觉得肯定不如和本人的实际交流流畅,但‘AI王冠’最大的优势,是提高生产效率和降低成本。我们研发的是财经新闻生产工具,不是艺术品。就像制造业的生产线,首先要确保产量和产品质量下限。这是工具,而不是还原与复刻。”

需要指出的是,目前主流媒体上的数字人主要通过动捕或光捕,进行形象、肢体或外貌的渲染展示。而“AI王冠”是一个真正的新闻生产工具,是一个生产力平台。“AI王冠”的首要目标是新闻生产全流程的自动化比例不断提升,优化生产环节,提质增效。

从电视专业角度来看,在AI人物形象上,网友可能会注意到在竖屏画面中有远景和中景两个景别。切换到中景时,人物分辨率稍显“发虚”。这是因为我们并没有针对近景重新渲染一次,从而保证图像生成速度更为快速,同时又不产生难以忍受的质量损耗。其实我们技术上可以做到同时渲染多机位,但对于全自动的财经快讯而言,速度快和成本低是第一位的,纠结于画质精美度的必要性不大。

在制作“AI王冠”时,遇到了哪些技术挑战?如何解决?

在技术上,我们遇到的主要困难包括:虚拟人视觉形象所呈现的自然度和流畅度问题,特别是在拟人化方面的训练和升级。我们也致力于训练其语音表达,尽量使其接近真实发音。此外,我们还关注语音的细节呈现,如音色和音调如何与文字内容的语境相贴合?这在播报不同内容的情绪转换时尤为重要。

因为这是一个自动化的生产力平台,所以存在一些多音字处理的问题。同一个字在不同情境下可能需要不同的声调。动态优化这些技术细节非常重要,尤其是在处理中英文的混合读音时更为明显。

另一个挑战是时效性。我们逐步解决了时效性问题,从最初需要20-30分钟生成1分钟内容,升级到10分钟生成1分钟内容,甚至可以更快。

在外宣应用方面,处理多个语种不同发音,特别是特殊名词、深层词汇、组合词和特殊人名也是一大挑战。如何精确匹配它们的读音、口型、语义和语调,是我们在技术方面面临的最大挑战之一,也是这两年来我们不断调优的重点。

提高时效性、真实度以及处理多音字的能力,对“AI王冠”项目的最终落地而言是非常关键的。

目前“AI王冠”的应用场景主要集中在央视频App,它为什么没有在电视频道和广播频率中常态化应用?

首先,“AI王冠”有过“上大屏”的电视报道经历。在2022年的两会报道中,《“冠”察两会》是总台唯一一档以“科技创新”标签和视角来报道两会的重点项目,此创新专栏被总台多个电视频道报道,也被中国记协等机构表彰。不过“AI王冠”的主要应用阵地还是在央视频。

2022年全国两会期间,CCTV4《中国新闻》栏目对于《“冠”察两会》进行报道

其实从媒体融合发展的视角来看,中国目前有10.9亿网民和7.7亿5G手机用户,很多网友在家通过投屏收看,或者用“低碳听音”功能来收听央视频提供的内容。那么,这究竟是电视、广播还是手机端的内容?随着中国新基建的高速发展,现在媒体介质和渠道的界限其实非常模糊。

央视频用户在家投屏收看《王冠红人馆》现场直播(网友供图)

对公众而言,区分广播、电视和手机端是一个“伪命题”,大家需要的是获取信息和得到服务。总台成立央视频的目的,正是坚决贯彻中央“加快构建全媒体传播体系”的战略。央视频作为总台的旗舰平台,承载着奥运会、世界杯、春晚等优质版权内容的传播与宣发。由此可见总台“全面走向移动互联”的意志非常坚定。从我们团队内部来说,纠结广播、电视以及央视频小屏的渠道之别没有意义。我们要做的是,跟上总台全媒体传播体系建设的脚步。

关于自动化

《“冠”察两会》《“象舞指数”总台短视频榜单播报》等项目的文案是AI还是人类撰写的?

我们的文案制作其实论证和尝试过好多套方案,会根据实际需要采用不同模式。实际上,目前来看,人工编写的文案通常优于AI生成的文案。

我们发现,目前AI生成的稿件往往不能直接使用,往往需要进行小幅甚至大幅修改。因此,从实操效率角度来看,AI文稿还不尽如人意。

王冠老师说:“对于财经类内容,我们央媒有较为成熟的信息确权和审核体系,从而保证内容的准确性和客观性。而目前的AI文字工具,有时候还不能准确辨识信息的源头出处和保真度,我们需要人工确认比对信息,尤其是引用数据的靠谱程度。现在我们更关注的是,如何让人工和大模型的AI生产工具更好地配合,形成更合理高效的流程分工。”

“AI王冠”在新闻采集、编稿到播发方面的全程自动化程度如何?

自动化程度取决于不同的产品。例如,我们目前的日更项目自动化程度非常高。通过我们的虚拟人生产力平台系统,稿件能在几分钟内完成,视频也可以直接发布。

我们做了一个工具,但我们不可能每个系统都自己开发,反复发明轮子。这样我们的效率不一定会提高。我们可以用成熟的第三方工具,经评估后确定实际的方案,比如做AI字幕识别,包括一些非编上的处理,都有非常成熟、高效的工具。我们尝试过将这些外部工具整合进来,但后来评估发现可能效率不会高,效果还更差。这确实是一个重要的考虑因素。

如何确保生成内容的准确性和稳定性,减少人工审核时需要返工的概率?

我们的视频一经制作完成,理论上可以直接发布,包括其对话内容和字幕等。不过,我们并不能保证产品100%无误。我们在后期处理中关闭了一些自动化环节,例如字幕生成,这是出错率最高的部分。我们通过人工干预来处理字幕,尽管现在许多编辑软件已经非常智能,但是在总台的平台上进行信息发布,我们务必要确保准确无误。

通过其他软件系统的再次检查,我们可以快速生成并修正字幕。实践证明,这种方法比集成所有功能到系统中要快得多,且减少了返工的需求。返工不仅涉及时间问题,还涉及成本和服务器问题。因此,我们选择去掉某些原本可以自动化的环节,实际上是为了提高整体效率。

“AI王冠”现在是否可以做到“自主发现新闻热点”?

因为我们现在的更新频率决定了它还不能像路透等一些通讯社那样有7*24小时的不断更新,所以热点的事情,在我们这里目前并不是一个常规的工作。单是对于财报季发布,以及统计局年报发布等重点时间窗口,我们是可以提前布局的。

从今年开始我们每天都在保持动态更新,这在目前国内的虚拟人使用频率上已经是非常高了。因为很多类似产品大家也都了解,可能在某个时期会做很多的代言或其他活动,但往往是短周期内的强曝光状态,而我们是长周期的高频率使用。

但即便在这种情况下,我们每天的更新量也还没有达到完全理想化的程度。因为实际上热点新闻的发生有着动态性和随机性。我们目前每天往往是一篇或几篇内容的更新量,还无法一天之内动态机动地发布信息组群。

为什么不考虑将“AI王冠”输出为一个7*24小时不间断播报的直播信号?

如果做直播,观看数据可能会更好,但内容填充度和信息更新量是一个挑战,画面的丰富度也是一个问题。这需要大量的人力和资源投入,我们必须评估性价比。虽然我们初步评估具备进一步扩产的能力,但还是需要有所克制。同时,如果用“AI王冠”的形象做24小时直播,可能会对王冠老师形象本身造成过度消费,任何时候打开这个直播间都是这个单一形象,对于用户的观感而言就不是视频了,变成了人物图片加背景音。还有一种直播的画面处理方式,大量使用图表来填充,抛开图表编辑的各项成本,单纯就展示效果就好比PPT加背景音,审美疲劳也是不可避免的,这样的直播反而可能对长期价值的构建不利。

在移动互联网生态中,内容是碎片化的。使用大段单一内容填充并不能吸引用户注意,效果不佳。相比之下,碎片化的精品内容更能吸引和留住用户。

未来展望

“AI王冠”在央视频有近6000粉丝和超780万总播放量,在央视频平台这是一个什么水平?它是否有在其他社交平台的推广和IP运作计划?

这个数据目前的水平是“一般”,基本属于一个活跃账号的正常水平,但还未达到顶级账号的水平。当前的成就并不是我们预期的终极目标。

当然,并非所有内容都能达到顶级账号的标准。首先,在央视频,电影、电视剧、综艺和体育等内容自然拥有更高的流量,一些知名的电视栏目账号也吸引了众多关注。相比之下,财经内容较为“冷门”,这是和大众的信息消费习惯需要息息相关的,也符合大多数综合性媒体的内容分布。

其次,我们目前每天发布内容,保持日更。我们的理想状态是持续发布信息,但发布的频率和数量是不封顶的。

王冠老师认为:“虽然这个数据并不算高,我个人认为这在今年央视频客户端上是非常可观的成绩。刨去前期研发成本和内部人力成本,这应该是总台最‘省钱’的流量。没有主持人、化妆师、演播室硬件损耗和摄制组人员开支,这也是我们的立项初衷。”

至于进一步推广和扩容IP的计划,我们一直在通过央视频的全网社交媒体账号发布内容。这些账号的粉丝数量非常庞大,可能达到数千万甚至过亿。目前日常内容更多是在央视频客户端内发布。

我们的目标是通过“AI王冠”在全网范围内传播内容,无论是在我们自己的平台,还是其他平台。

当然,在进行全网推广之前,需要找到合适的结合点。无论是在内容、用户还是平台诉求方面。很多大众平台更偏向娱乐内容,我们必须确保所生产内容适合其他平台的用户需求。

“AI王冠”是一次性交付,还是会在几年的期限内不断迭代改进?会不会应用大模型技术来改进?

我们的录制过程经过了多次迭代,逐步升级改进,“AI王冠”的呈现效果一直在动态优化。这包括声音的采集、面部表情的采集以及声音的补充采集等方面。2022年开始立项的时候,声音技术还不够完善,现在再做一次的话,声音效果会好很多。

大模型的技术我们一直在AI平台上使用,但并未在“AI王冠”上广泛应用。原因在于,它以王冠老师的名字命名,所以深度绑定了王冠老师的社会和个人形象。

有趣的是,当“AI王冠”推出后,我们面临了一个挑战,即如何使用它?尽管它只是一个数字分身,却采用了王冠老师本人的形象和声音。因此,当我们利用它发布内容时,它可能会被视为代表王冠老师的态度和立场。

在这方面,我们非常谨慎。我们专门探讨了数字分身与本人之间的关系。为此,我们与法务部门、总编室以及版权部门合作,经过一个多月的讨论,探讨了如何使用数字分身以及需要什么样的授权。这是一项关于伦理和法律的调研。

我们还考虑了如何开发数字分身。这不仅是法律问题,我们还需要对王冠老师负责。如果我们轻率地开发和使用数字分身,可能会产生问题。关键问题在于,数字分身的形象、态度和立场归谁所有。

例如,我们可以将“AI王冠”与一个大模型连接,使其能够回答任何问题。但是,这些回答是否能代表王冠老师?如果提出了不适当的问题或观点怎么办?尤其是当前AIGC大模型可能会生成一些奇怪的内容。这些内容是根据收集的数据训练而成,其观点是通过发展模型匹配出来的,其真实性、准确性仍有疑问。

“AI王冠”包含了王冠老师真实的人设和观点。如果使用它来做上面这些事情,我们认为这将是破坏性的。因此,我们尽量避免大模型直接参与内容生成。大模型只会参与辅助工作,而不会直接参与内容的核心部分。

“AI王冠”还会有其他的使用场景吗?

关于“AI王冠”,我们只是展示了一部分场景,我们还有很多其他的合作项目。我们还开展了一系列商业尝试,为客户制作特定的AI内容。

当我们使用“AI王冠”时,我们会全面征询王冠老师的意见。在“AI王冠”的使用上,有一个重要原则:不让数字分身影响其本体。

现在,我们也在开发新闻头条等项目,利用其时效性、低成本和快速性进行秒级响应,发布国际突发事件。跟“AI王冠”同样的技术将用于CGTN的对外新媒体传播,虽然不是王冠的形象,但用了一样的技术支持。

《“冠”察两会》入选中国记协2022年全国两会报道融媒产品案例,请说说对它目前成果的总结和对未来的展望。

这项荣誉是对我们努力创新的认可,难能可贵。我们为两会报道引入了一种新的形式,用一种活泼新鲜的方式轻松解读两会经济报道,处理了一些沉重或重要的主题,这可能是其入选的原因之一。

我们认为,“AI王冠”作为一种新型主流媒体内容生产和传播系统,代表了主流媒体拥抱AI时代的一次典型实践。

AI化的最大意义在于它改变了生产方式。它将传统的、需要大量技术和支持人员参与的重型生产方式转变为了一种轻量化的方式。这使得内容的快速生产和迭代成为可能,实现了低成本、高效率的生产。这将从量变引发质变。未来,可能会有更多的虚拟主播参与各种节目。

目前,总台内部已经开始使用越来越多的数字分身或虚拟形象来完成各种工作。我们有多种类型的虚拟形象,比如播报型的、服务型的。例如,您可以看看央视频的智能客服,它是一个服务型的虚拟人物;央视网小C是另一种形式的虚拟分身,更多是作为一个平台或总台的代言形象;还有问答型的机器人,提供各种服务和知识。

我认为,服务型的虚拟人物在各个领域逐渐得到认可,这表明数字技术能够产生重大影响。比如,我们去年为广东茂名的荔枝节开发问答型机器人“荔小宝”,以及为国际宣传提供高效率、高时效性的头条机器人。大家逐渐认可了AI和数字分身的这种生产模式。

以前,我们想要制作突发新闻时,需要准备主持人、内容团队和演播室,但现在更多地依赖移动传媒和新媒体平台。大家更加接受了这种新的生产方式、流程和关系。我认为,这正是AI价值体现的最重要方面。

最后,我们希望传达的信息是,我们不期望“AI王冠”成为一个具有独立思想的虚拟个体,像电影中那些极具智慧的角色一样,能够表达连王冠老师自己都无法表达的观点。

在制作AI内容时,我们始终认为用户通过屏幕与AI接触。我们不会创造一种幻觉,让人们认为他们在现实生活中与“AI王冠”站在一起,进行互动和对话。

就像在日常生活中,你不可能看到一个虚拟人站在你面前并与你对话,那是非常“灵异”的。因此,在我们的传播中,我们绝不应该给用户造成这样的错觉。我们在最初制作时就明确:虚拟人物始终生活在屏幕里,在虚拟世界中。我们的原则是新闻立台,服务大众。我们踏踏实实做好研发创新,不刻意追求标新立异的“出圈”效果。

我们很荣幸能参加本次深度采访,来分享我们的工作实践和所思所想。我们期待着能和更多志同道合的朋友进行合作。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

·