一文搞懂华为ML Kit数字人，超简单集成

一、数字人介绍

虚拟数字人是综合多模态AI能力，结合图像视觉、情绪生成、语音克隆、语义理解等多种AI技术，广泛应用于媒体新闻主播、金融客服、虚拟游戏等众多场景。

数字人在行业中的应用：

在这里插入图片描述

二、HMS ML Kit数字人

HMS ML Kit数字人是依托华为公司强大的图像处理、语音合成、声音克隆、语义理解等AI核心技术，全新推出的综合多模态AI能力。面向教育、新闻、多媒体制作企业，提供高质量、低成本、创新体验的内容创作模式。对比其他厂商数字人，HMS ML Kit数字人的优势明显：

支持超高清4K影院级效果

支持大屏展示，全身细节纹理均达到同等清晰度
生成与真实背景图像无缝融合，高清分辨率下无融合痕迹
嘴唇细节、口红反光分明、纹理清晰
牙齿清晰可见，齿缝纹理清晰真实

合成效果逼真度

真实还原牙齿（非贴图）、嘴唇、甚至口红反光细节。
真实还原面部光照、对比度、阴影、酒窝等细节。
嘴部皮肤生成纹理与真实纹理无缝对接。
相对3D主播，无动画生硬感。

在这里插入图片描述

三、HMS ML Kit数字人生成数字人视频展示

在这里插入图片描述

从上图中我们可以看到HMS ML Kit数字人超高清的真人视频效果，不仅口齿清晰，ML Kit数字人还对一些细节的掌控更加优秀：嘴唇细节、口红反光细节、更加真实的面部发音以及细致的面部光照效果。

四、HMS ML Kit数字人服务集成

4.1 服务集成过程

4.1.1 提交需要生成的文本信息

调用【定制文本转虚拟数字人视频接口】，将一些配置（config）和需要转化的文本（data）通过该接口传输至后端进行处理：首先，要对传输进来的data的文本字符长度进行校验，中文文本最大字符长度不得超过1000，英文文本单个字符长度不得超过3000，英文文本单词长度不得超过3000，对于传输进来的config做非空校验，然后将config和data提交，将文本文字转化为音频文件。

4.1.2 异步执行的定时任务

会有一个异步执行的定时任务处理提交的数据，调用TTS提供的算法，将文本文件转化为视频文件，并且将上一步得到的音频文件与视频文件合成起来。

4.1.3 查询文本是否转化成功

调用【文本转虚拟数字人视频结果查询接口】，实时查询异步执行的文本转视频是否已经执行完毕；如果执行完毕，将会返回一个生成视频的链接。

4.1.4 根据视频链接访问视频文件

根据【文本转虚拟数字人视频结果查询接口】所返回的视频链接，访问生成的视频文件。

4.2 服务集成的主要接口

4.2.1 定制文本转虚拟数字人视频接口

URL：
http://10.33.219.58:8888/v1/vup/text2vedio/submit

请求参数：

在这里插入图片描述

主要功能：
输入文本转换成虚拟数字人视频接口，此接口为异步接口，当前版本转换需要一定时间，采用离线方法，最终转换结果需要通过【文本转虚拟数字人视频结果查询接口】查询。如果提交的文本已经合成过，直接返回播放URL。

主要逻辑：
根据前端页面所传输的需要合成的文本数据data，根据config所提供的一些配置，将文本文字转化为音频文件。异步执行多线程，根据所提供的算法模型生成合乎发音的视频文件，然后将视频文件与音频文件合成起来，生成所需的数字人视频。如果提交的文本已经合成过，直接返回播放URL。

4.2.2 文本转虚拟数字人视频结果查询接口

URL：
http://10.33.219.58:8888/v1/vup/text2vedio/query

请求参数：

在这里插入图片描述

主要功能：

根据提交文本ID批量查询转换状态。

主要逻辑：
根据前端页面所传输的合成的文本数据ID列表，即textIds字段，查询所得到的视频文件合成的任务状态，将得到的状态结果存在集合，作为返回参数，插入到返回的请求当中。如果请求的文本已合成过，直接返回播放URL。

4.2.3文本转虚拟数字人视频批量下线接口

URL：
http://10.33.219.58:8888/v1/vup/text2vedio/offline

请求参数：

在这里插入图片描述

主要功能：
根据提交文本ID批量下线。

主要逻辑：
根据前端页面所传输的合成的文本数据ID数组，即textIds字段，对该数组内所有ID对应的视频进行下线设置，改变其状态为下线状态，同时删除视频文件，被下线的视频无法播放和观看。

4.3 HMS ML Kit数字人服务实现的主要功能

HMS ML Kit数字人服务的功能非常强大：

双语发音：由于目前系统支持中文发音和英文发音，可以传输中文文本和英文文本作为发音数据。
多个虚拟主播形象：支持不同虚拟主播发音，目前系统里配置了4名虚拟主播，分别为：中文女士发音，上海日报，英文女士发音，英文男士发音。
画中画视频播放：除了对虚拟主播的设置以外，视频播放支持画中画即小窗播放视频，在画中画模式播放视频时，视频窗口随屏幕移动，可以一边查看文本，一边播放视频，视频窗口还可以拖拽到任意位置，以至于不遮挡文本位置。
可调节的语速，音量，音调：可以满足不同需求的发音速度，发音音量以及发音音调。
多背景设置：可以设置不同的虚拟主播背景，目前系统内置了透明背景、绿幕、科技主题三种背景，还可以通过上传图片的方式自定义自己喜欢的背景进行设置。
字幕设置：系统可以自动配置字幕，可以设置中文字幕，英文字幕或者双语字幕。
多布局设置：可以由参数调节虚拟主播出现在屏幕当中的位置：左测，右侧，屏幕中间；以及调节虚拟主播人物大小和展示全身或半身。在选择虚拟主播出现在屏幕当中的位置为左边或者右边的时候，还可以设置台标和台标出现的位置，以及在视频当中显示需要播放的视频文件，做到视频画中画的效果，以还原真实的新闻播报的场景。

视频画中画展示：

在这里插入图片描述

五、结后语

作为一名开发者来说，在使用HMS ML Kit数字人生成一个视频之后，尤其是视频画中画的功能，令我叹为观止。这切切实实地还原了真实主播所处的新闻播报场景，不禁让人畅想，在完善化的数字人推行下，是否可以完全替代真人播报呢？

更详细的开发指南参考华为开发者联盟官网

https://developer.huawei.com/consumer/cn/hms/huawei-mlkit

原文链接： https://developer.huawei.com/consumer/cn/forum/topicview?tid=0202351501845870559&fid=18
作者：say hi

本文链接：https://www.cnblogs.com/developer-huawei/p/13915595.html

一文搞懂华为ML Kit数字人，超简单集成

一、数字人介绍

二、HMS ML Kit数字人

三、HMS ML Kit数字人生成数字人视频展示

四、HMS ML Kit数字人服务集成

4.1 服务集成过程

4.1.1 提交需要生成的文本信息

4.1.2 异步执行的定时任务

4.1.3 查询文本是否转化成功

4.1.4 根据视频链接访问视频文件

4.2 服务集成的主要接口

4.2.1 定制文本转虚拟数字人视频接口

4.2.2 文本转虚拟数字人视频结果查询接口

4.2.3文本转虚拟数字人视频批量下线接口

4.3 HMS ML Kit数字人服务实现的主要功能

五、结后语

更详细的开发指南参考华为开发者联盟官网

一文搞懂华为ML Kit数字人，超简单集成的更多相关文章

随机推荐

热门专题

目录导航