阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源，看听说写样样精通

民生人寿出手举牌，4家险企争相竞逐浙商银行，年内险资26次举牌11次涉及银行股专家已经证实 采购4000来万预付10多亿，股权款流向配资公司，*ST金泰16亿资金被疑占用 实时报道 李大霄：3700大关或有颠簸又一个里程碑 中信期货：午盘点评8.14实垂了 盘点三明富豪团的百亿商业版图后续会怎么发展 百年巨头柯达再陷生存危机百年巨头柯达债务约5亿美元又一个里程碑 员工跳槽泄露商业机密？上市公司起诉，索赔9999万元是真的？ 美联储9月或降息50基点预期升温，推动美元兑加元连续三日走低后续来了 两年苦等换8个月任期？东方嘉富人寿总经理生变，博士后副总代班 网传大疆销售部门调整、两大负责人相继离职，大疆回应：报道不实这么做真的好么？ 青银理财高管流失潮未止！副总裁唐建卓或离任，系手握重权大将是真的？ 马斯克称谷歌在AI领域暂时领先，暗示xAI将后来居上官方已经证实 美联储9月或降息50基点预期升温，推动美元兑加元连续三日走低是真的吗？ 低空经济板块显著回调纵横股份跌5.19%学习了 高盛关税预警触动白宫神经华尔街集体警示美国通胀风险攀升 网传大疆销售部门调整、两大负责人相继离职，大疆回应：报道不实 赛轮宣布：20.92亿投资建厂实测是真的 南都电源：民用锂电业务主要集中在换电和整车配电上 这么做真的好么？ 赛轮宣布：20.92亿投资建厂实垂了 赛轮宣布：20.92亿投资建厂后续会怎么发展 京东增收不增利，责任都在外卖？后续来了 全球监控×智能决策！新浪财经APP领跑2025五大炒股软件巅峰对决是真的吗？ 四年亏3亿，雷军力挺的公司IPO了官方通报 央行：把促进物价合理回升作为把握货币政策的重要考量官方已经证实 龙国证监会发布上市公司2024年年度财务报告会计监管报告后续会怎么发展 CWG Markets外汇:黄金需求持续走强投资热度升温科技水平又一个里程碑 南都电源：公司仍将以客户需求为导向锚定市场方向 FPG财盛国际:OPEC上调预期油市或迎结构性紧张后续来了 万科Ａ：截至一季度末股东总数为548580户 申万菱信基金被大V质疑：销售贾成东新发产品时，承诺收益涉嫌违规 溢价率34.81%！深圳宝安区宅地86.4亿元成交 6万股民慌了：“大妖股”内蒙一机，暴跌16.75%！实测是真的 文投控股索赔递交立案，投资者维权还可加入是真的吗？ 新元科技意向投资人21家，曾被立案引发维权实测是真的 新元科技意向投资人21家，曾被立案引发维权实时报道 卫龙美味营收、净利保持双位数增长第二增长曲线蔬菜制品收入达到21.09亿元是真的？ 久之洋：自研产品已应用于卫星互联网行业后续反转来了 对话Rokid邵华强：阿里、小米卷入“百镜大战”，Rokid如何应对？ 长春一东：一汽股权公司拟减持不超过2.97%公司股份实测是真的 国科军工：截至2025年7月31日股东人数为17740户反转来了 容百科技：核心产品包括NCM811系列、NCA系列、NCMA系列、Ni90及以上超高镍系列等正极材料 是真的？ 生益电子：上半年归母净利润5.31亿元，同比增长452.11%实时报道 最高翻倍！富国基金旗下145只基金近一年收益超30% 周鸿祎：互联网最重要的价值是用户，没有用户和流量就没有一切实垂了

感谢本站网友乌蝇哥的左手的线索投递！

本站 3 月 27 日消息，今日凌晨，阿里云发布通义千问 Qwen 模型家族中新一代端到端多模态旗舰模型 ——Qwen2.5-Omni，并在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源。

阿里云表示，该模型专为全方位多模态感知设计，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音合成输出。本站汇总其主要特点如下：

全能创新架构：Qwen 团队提出了一种全新的 Thinker-Talker 架构，这是一种端到端的多模态模型，旨在支持文本 / 图像 / 音频 / 视频的跨模态理解，同时以流式方式生成文本和自然语音响应。Qwen 提出了一种新的位置编码技术，称为 TMRoPE（Time-aligned Multimodal RoPE），通过时间轴对齐实现视频与音频输入的精准同步。

实时音视频交互：架构旨在支持完全实时交互，支持分块输入和即时输出。

自然流畅的语音生成：在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

全模态性能优势：在同等规模的单模态模型进行基准测试时，表现出卓越的性能。Qwen2.5-Omni 在音频能力上优于类似大小的 Qwen2-Audio，并与 Qwen2.5-VL-7B 保持同等水平。

卓越的端到端语音指令跟随能力：Qwen2.5-Omni 在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果，在 MMLU 通用知识理解和 GSM8K 数学推理等基准测试中表现优异。

据官方介绍，Qwen2.5-Omni 采用 Thinker-Talker 双核架构。Thinker 模块如同大脑，负责处理文本、音频、视频等多模态输入，生成高层语义表征及对应文本内容；Talker 模块则类似发声器官，以流式方式接收 Thinker 实时输出的语义表征与文本，流畅合成离散语音单元。Thinker 基于 Transformer 解码器架构，融合音频 / 图像编码器进行特征提取；Talker 则采用双轨自回归 Transformer 解码器设计，在训练和推理过程中直接接收来自 Thinker 的高维表征，并共享全部历史上下文信息，形成端到端的统一模型架构。

模型架构图

模型性能方面，Qwen2.5-Omni 在包括图像，音频，音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型，例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

在多模态任务 OmniBench，Qwen2.5-Omni 达到了 SOTA 的表现。此外，在单模态任务中，Qwen2.5-Omni 在多个领域中表现优异，包括语音识别（Common Voice）、翻译（CoVoST2）、音频理解（MMAU）、图像推理（MMMU、MMStar）、视频理解（MVBench）以及语音生成（Seed-tts-eval 和主观自然听感）。

▲模型性能图

Qwen Chat：//chat.qwenlm.ai

Hugging Face：//huggingface.co/Qwen/Qwen2.5-Omni-7B

ModelScope：//modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

DashScope：//help.aliyun.com/zh/model-studio/user-guide/qwen-omni

GitHub：//github.com/QwenLM/Qwen2.5-Omni

Demo 体验：//modelscope.cn/ studios / Qwen / Qwen2.5-Omni-Demo