蚂蚁集团;开源;全模态大模型;Ming-Flash-Omni 2.0

蚂蚁集团开源发布全模态大模型Ming-Flash-Omni 2.0

2月11日消息,蚂蚁集团开源发布全模态大模型Ming-Flash-Omni 2.0,是业界首个全场景音频统一生成模型,可在同一条音轨中同时生成语音、环境音效与音乐。用户用自然语言下指令,可对音色、语速、语调、音量、情绪与方言等进行控制。模型在推理阶段实现了3.1Hz的极低推理帧率,实现了分钟级长音频的实时高保真生成。(财联社记者 黄心怡)

    广告等商务合作,请点击这里

    本文为转载内容,授权事宜请联系原著作权人。

    打开界面新闻APP,查看原文
    界面新闻
    打开界面新闻,查看更多专业报道

    热门评论

    打开APP,查看全部评论,抢神评席位

    热门推荐

      下载界面APP 订阅更多品牌栏目
        界面新闻
        界面新闻
        只服务于独立思考的人群
        打开