这个工作量应该不小的。这个里面大概经过了语音识别,这个应该是Whisper。 然后是做了一部分都voice clone,提取语音的音色等参数,然后再把数据给 tortoise-tts 合成带原始说话人音色的语音。然后还要做一部分的 lipsync。这个估计是拿wav2lip做的。 整个工作需要大量的算力,很难做到实时,但是随着算力提高,可以做到实时,成本也会大幅降低,这个东西危害性极大。可以说是搞电诈,造假消息的利器。
只需要几秒!
创建帐户
已拥有账号并想要登录?
登陆 忘记密码?