蚂蚁集团开源发布全模态大模型Ming-Flash-Omni 2.0

2月11日消息，蚂蚁集团开源发布全模态大模型Ming-Flash-Omni 2.0，是业界首个全场景音频统一生成模型，可在同一条音轨中同时生成语音、环境音效与音乐。用户用自然语言下指令，可对音色、语速、语调、音量、情绪与方言等进行控制。模型在推理阶段实现了3.1Hz的极低推理帧率，实现了分钟级长音频的实时高保真生成。（财联社记者黄心怡）

广告等商务合作，请点击这里

本文为转载内容，授权事宜请联系原著作权人。

打开界面新闻APP，查看原文

打开界面新闻，查看更多专业报道

蚂蚁集团开源发布全模态大模型Ming-Flash-Omni 2.0

热门评论

热门推荐

蚂蚁集团开源发布全模态大模型Ming-Flash-Omni 2.0

相关推荐

热门评论

热门推荐