AI聊天对话

LongCat AI

美团发布并开源LongCat-Flash-Chat大模型

标签：ai搜索免费ai聊天

链接直达手机查看

美团于正式发布 LongCat-Flash-Chat，并同步开源。据官方介绍，LongCat-Flash采用创新性混合专家模型（Mixture-of-Experts, MoE）架构，总参数560B，激活参数18.6B-31.3B（平均 27B）。据多项基准测试综合评估，LongCat-Flash-Chat在仅激活少量参数的前提下，在智能体任务中具备突出优势，同时推理速度超过100tps。

在 通用领域知识 方面，LongCat-Flash 表现出强劲且全面的性能：在 ArenaHard-V2 基准测试中取得 86.50 的优异成绩，位列所有评估模型中的第二名，充分体现了其在高难度“一对一”对比中的稳健实力。在基础基准测试中仍保持高竞争力，MMLU（多任务语言理解基准）得分为 89.71，CEval（中文通用能力评估基准）得分为 90.44。这些成绩可与目前国内领先的模型比肩，且其参数规模少于 DeepSeek-V3.1、Kimi-K2 等产品，体现出较高的效率。
在 智能体（Agentic）工具使用 方面，LongCat-Flash 展现出明显优势：即便与参数规模更大的模型相比，其在 τ2-Bench（智能体工具使用基准）中的表现仍超越其他模型；在高复杂度场景下，该模型在 VitaBench（复杂场景智能体基准）中以 24.30 的得分位列第一，彰显出在复杂场景中的强大处理能力。
在编程方面，LongCat-Flash 展现出扎实的实力：其在 TerminalBench（终端命令行任务基准）中，以 39.51 的得分位列第二，体现出在实际智能体命令行任务中的出色熟练度；在 SWE-Bench-Verified（软件工程师能力验证基准）中得分为 60.4，具备较强竞争力。
在 指令遵循 方面，LongCat-Flash 优势显著：在 IFEval（指令遵循评估基准）中以 89.65 的得分位列第一，展现出在遵循复杂且细致指令时的卓越可靠性；此外，在 COLLIE（中文指令遵循基准）和 Meeseeks-zh（中文多场景指令基准）中也斩获最佳成绩，分别为 57.10 和 43.03，凸显其在中英文两类不同语言、不同高难度指令集上的出色驾驭能力。

暂无评论

暂无评论...

相关导航

暂无评论