site stats
其实这些问题都能很好的解决了1. 扔掉 whisper,换 ASR 模型,Qwen3-ASR 就很不错幻觉很少、也有一些别的ASR选择,whisper 幻觉多也要求 30s片段,Qwen3-ASR 塞更长的音频识别越准确,最大支持 20 分钟;2. 文字时间轴 也扔掉 whisper 不是很准, 虽然 Qwen/Qwen3-ForcedAligner-0.6B
发布时间:
1
数据加载中
Markdown支持
评论加载中...
您可能感兴趣的: