计算机设备_国产大模型进展快速_Deepseek_V2和通义千问2_5均展现强大性能
证券研究报告·行业动态
国产大模型进展快速,Deepseek-V2 和通义千问 2.5 均展现强大性能
计算机设备
核心观点
- 幻方子公司 DeepSeek 发布了新的 MoE(混合专家网络)大模型 DeepSeek-V2,模型表现优秀,相比 V1 的稠密模型,Deepseek-V2 节约了 $42.5%$ 的训练成本,减少了推理时$93.3%$ 的 KV-cache 显存占用,将生成的吞吐量也提升到了原来的 5.76 倍。同时 API 调用定价低至每百万输入 Tokens仅 1 元,具有极高的性价比。
- 阿里云正式发布通义千问 2.5 大模型,模型在中文语境下的性能超越了 GPT-4 Turbo。相比上一代通义千问 2.1 版本,通义千问 2.5 在理解能力、逻辑推理、指令遵循、代码能力上全方位提升。同时阿里还开源了 Qwen1.5-110B 模型,该模型性能超越 Llama-3-70B,有超 1000 亿参数,可以处理32K tokens 的上下文长度,并支持多种语言。
产业要闻
【阿里云通义千问 2.5 大模型发布】



