当前位置: 首页 > news >正文

铁道部建设管理司官方网站网站毕业作品代做

铁道部建设管理司官方网站,网站毕业作品代做,焦作河南网站建设,北京卓天下网站建设公司一、模型 VITS模型训练教程VITS-从零开始微调#xff08;finetune#xff09;训练并部署指南-支持本地云端 Wav2lip是2D数字人#xff0c;可参考训练嘴型同步模型Wav2Lip PS:以上模型都是开源可用。 二. VITS数据处理问题 VITS模型的输出为一维的numpy类型数据#xff…一、模型 VITS模型训练教程VITS-从零开始微调finetune训练并部署指南-支持本地云端 Wav2lip是2D数字人可参考训练嘴型同步模型Wav2Lip PS:以上模型都是开源可用。 二. VITS数据处理问题 VITS模型的输出为一维的numpy类型数据官方开源代码中给出的处理方法为使用scipy.io.wavfile提供将numpy数据采样并存为音频文件代码示例为 if language is not None:text language_marks[language] text language_marks[language]speaker_id speaker_ids[spk]stn_tst get_text(text, hps, False)with no_grad():x_tst stn_tst.unsqueeze(0).to(device)x_tst_lengths LongTensor([stn_tst.size(0)]).to(device)sid LongTensor([speaker_id]).to(device)audio net_g.infer(x_tst, x_tst_lengths, sidsid, noise_scalenoise_scale, noise_scale_wnoise_scale_w,length_scale1.0 / length)[0][0, 0].data.cpu().float().numpy()del stn_tst, x_tst, x_tst_lengths, sidwavf.write(str(output_dir)/output_name.wav,hps.data.sampling_rate,audio)但是如果要将该模型作为数字人的音频克隆输出上述代码的保存方式对于实时性形成较大阻碍我们应该考虑如何不写入文件直接传输到如Web前端进行播放音频。经过思考若前端使用如下代码解析音频, divaudio idaudio controls autoplay styledisplay: none;/audio /divconst audioEl document.querySelector(audio) audioEl.src data:audio/mp3;base64, messageData该前端不可解析numpy类型数据并且如果直接将numpy类型音频数据直接转为字节类型数据并回传到前端也是不可行的。我们仔细阅读开源模型提供的解决方案中出现的wavf.write函数发现我们可以直接从该函数的实现进行稍微修改即可实现numpy类型音频数据不写入文件直接传输到如Web前端进行播放音频修改结果如下所示 # 采样header_e bRIFFheader_m b\x00\x00\x00\x00# 音频参数fs 16000format_tag 0x0003channels 1bit_depth _audio.dtype.itemsize * 8bytes_per_second fs * ( bit_depth // 8) * channelsblock_align channels * (bit_depth // 8)fmt_chunk_data struct.pack(HHIIHH, format_tag, channels, fs, bytes_per_second, block_align, bit_depth)fmt_chunk_data b\x00\x00header_l bWAVEfmt struct.pack(I, len(fmt_chunk_data)) fmt_chunk_data bfact struct.pack(II, 4, _audio.shape[0])# numpy类型音频数据data bdatapre_data struct.pack(I, _audio.nbytes)audio_data header_e header_m header_l data pre_data _audio.ravel().view(b).datasize len(audio_data)_len struct.pack(I, size - 8)audio_data header_e _len header_l data pre_data _audio.ravel().view(b).data上述代码的最后一行生成的audio_data 变量即为可回传到前端进行正常播放的音频字节信息。由此也可以看出为什么直接将numpy类型音频数据直接转为字节类型数据并回传到前端也是不可行的其原因在于音频数据存在固定保存结构。 三、VITS输出结构驱动Wav2lip 由于VITS模型的输出为numpy类型的音频数据Wav2lip按照官方给出的开源处理方式为输入一个音频文件然后将该音频文件以numpy形式进行读取然后转成梅尔图谱的形式与图片进行batch_size匹配后输入到网络中驱动相关帧的嘴型变化。如果直接读取音频文件将会是一个耗时的任务为此我们应该直接将VITS的numpy类型数据直接传入到Wav2lip,从而跳过读取文件和形成numpy类型的数据过程减少工程实现上的时间。针对Wav2lip模型的优化方案 后续给出。
http://www.sczhlp.com/news/203864/

相关文章:

  • 沛县网站定制微信浏览为网站的缓存怎么清理
  • 网站域名解释怎么做手机上做网站php
  • 深圳 微网站wordpress 邮件找客户
  • 一个dede管理两个网站潍坊百度关键词优化
  • 免费网站安全软件大全下载安装免费咨询电脑问题
  • 互联网公司网站建设ppt模板下载学校网站建设哪家好
  • 网站高速下载如何做东莞网络推广费用
  • 西安网站建设多钱网络管理登录入口
  • 媒体门户网站建设方案常德注册公司流程及费用
  • 坑梓做网站黄页88网宁波企业名录
  • seo站长工具综合查询网站后期维护怎么做
  • 网站首页没收录万盛网站制作
  • 企业建设网站有哪些费用网络工程电子版
  • 易语言如何做验证系统官方网站服务器站点的网站地图怎么做
  • 学院网站设计方案无锡做食品网站的公司
  • 网站为什么功能需求自己建设网站服务器
  • 青柠影院免费观看电视剧高清公司网站seo优化的
  • 网站建设的方向和任务wordpress生成静态 mip
  • 做旅游网站赚钱吗网站维护中是不是关闭网站了
  • 有没有做吉祥物的网站广告创意设计海报
  • cucumber7+junit5
  • 剪映VIP全功能永久解锁后,我的剪辑效率直接翻倍!
  • 零碳园区建设指南:MyEMS 如何用数字化破解能耗与碳排放协同管理难题?
  • 误删 Stash 后的数据恢复实践
  • mysql开启binlog日志,完全配置指南
  • dedecms行业协会网站织梦模板哪个网站是专门做男人衣服的
  • 建设银行 产品管理中心网站网站开发属于什么行业
  • 方案图网站提供网站建设教程的网站
  • 互助网站建设公司小程序商城
  • 如何加强门户网站建设黄山网站推广公司