微软做的超强语音AI
GitHuB项目 浏览:25    点赞:1    下载:100 次
TTS 模型单次能生成 90 分钟的多人对话音频,ASR 模型单次处理 60 分钟音频无需切片,如果你需要长音频转录或实时语音合成,目前开源领域没有比它更强的~
https://github.com/microsoft/VibeVoice