PodAgent 是香港中文大学、微软和小红书联合推出的播客生成框架。基于模拟真实的脱口秀场景,用多智能体协作系统(包括主持人、嘉宾和编剧)自动生成丰富且结构化的对话内容。PodAgent构建了多样化的声音库,用在精准匹配角色与声音,确保音频的自然度和沉浸感。PodAgent 引入基于大语言模型(LLM)的语音合成技术,生成富有表现力和情感的语音,让播客更具吸引力。PodAgent 推出了全面的评估指标,衡量生成播客的质量,确保内容的专业性和多样性。
PodAgent的主要功能
- 生成高质量对话内容:自动生成丰富、多样化的对话脚本,涵盖各种主题。
- 声音角色匹配:根据角色的性格和内容背景,动态匹配最适合的声音。
- 语音合成与表现力增强:根据对话内容的情绪和语境调整语音的语调、节奏和情感,让播客更加生动。
- 生成完整的播客结构:支持添加合适的音效和背景音乐,生成完整的播客结构。支持多语言生成,适应不同场景和听众的需求。
- 评估与优化:提供全面的评估指标,衡量生成播客的质量,包括对话内容的丰富度、声音匹配的准确性及语音的表现力。
PodAgent的项目地址
- GitHub仓库:https://github.com/yujxx/PodAgent
- arXiv技术论文:https://arxiv.org/pdf/2503.00455