B站开源的iIndexTTS2,这效果简直绝了
可能是目前情感控制做的最好的声音克隆和最强的原声翻译模型
语气、节奏、口音、现场混响甚至“磕巴”都能还原,支持原声翻译,整条视频一键英文化
对于所有视频创作者而言,AI配音一直存在一个难以逾越的障碍:音画同步。之前的模型在生成时很难精确控制最终音频的时长,尤其是在视频配音等需要严格时间对齐的应用中
IndexTTS2正面解决了这个行业痛点,它支持两种模式:一种可以明确指定生成时长,确保音频与视频画面分秒不差;另一种则可以自由生成,同时保持参考音频的自然韵律
效果真心不错,又收获一个吊炸天利器