DeepSeek-V4发布后使用反馈和测评

由物联网之家
2026年4月29日
智能体

DeepSeek-V4（4 月 24 日发布）首批真实反馈集中在：代码强、长文本稳、价格极低、Flash 性价比炸裂、但超复杂推理与前端精细度仍弱于 GPT-5.5/Opus 4.7。

一、版本与定价（用户最惊喜）

V4-Pro：1.6T 总参数 / 49B 激活，1M 上下文，输出 $3.48 / 百万 token36氪
V4-Flash：284B 总参数 / 13B 激活，1M 上下文，输出 **$0.28 / 百万 token**（约 GPT-5.5 的 1%）36氪
两者均开源 + 100 万 token 上下文标配，支持国产芯片适配。

二、核心好评（集中在代码 / 长文本 / 速度）

代码能力：开源第一梯队
- Pro 在 Agentic Coding/SWE-bench 达开源最佳，内部反馈优于 Sonnet 4.5、接近 Opus 4.6 非思考模式。
- Flash 在轻量编码中常与 Pro 持平，token 消耗更少、速度更快。
- 实测：简单 / 中等任务流畅、风格偏实战、少过度设计。
长文本理解：1M 上下文真能用
- 整本百万字小说 / 百页合同可直接解析，无需拆分、全局理解强。
- 长摘要 / 问答一致性好，极少 “失忆”。
推理与速度：性价比突出
- 数学 / STEM 竞赛题接近闭源顶尖，推理速度比 V3.2 快 2–3 倍。
- Flash 日常对话67 token/s，长文本生成稳定。
中文能力：优于多数海外模型
- 写作 / 知识问答超越 Gemini 3.1 Pro，成语与文化梗理解到位。

三、主要槽点（复杂任务 / 稳定性 / Agent）

超复杂工程弱于 GPT-5.5/Opus
- 精致前端、游戏逻辑、首次必须成功的任务易出错、稳定性不足。
- 复杂系统设计易遗漏边界条件，需多轮迭代。
Agent 能力：进步大但仍有坑
- 本地工具调用不主动：需明确提示才调用 skill/cli，决策偏保守。
- 多步骤长任务易 “断链”，不如 GPT-5.5 连贯。
稳定性与细节
- Flash 在 system prompt 遵循上偶有漂移。
- 极长文本（>800k token）偶尔降速或丢信息。
- 创意写作 “惊艳度” 略逊 Opus，偏实用稳重。

四、社区共识：Pro vs Flash 怎么选

V4-Flash（首选）：日常对话、轻量编码、长文档摘要、批量处理 ——性价比碾压，多数场景够用。
V4-Pro（按需）：复杂系统设计、高难度数学 / 代码、深度推理、高质量创作 ——强但贵 10 倍。
结论：不是 “全面超车”，而是把竞争推向 “场景适配 + 成本极致”。

五、一句话总结

V4 是 “平民级顶配”：代码与长文本极强、价格极低、Flash 封神；但超复杂推理与精细创作仍需闭源顶流兜底。

👀 阅读量：53 次

发表回复取消回复