跳至正文

DeepSeek-V4发布后使用反馈和测评

DeepSeek-V4(4 月 24 日发布)首批真实反馈集中在:代码强、长文本稳、价格极低、Flash 性价比炸裂、但超复杂推理与前端精细度仍弱于 GPT-5.5/Opus 4.7

一、版本与定价(用户最惊喜)

  • V4-Pro:1.6T 总参数 / 49B 激活,1M 上下文,输出 $3.48 / 百万 token36氪
  • V4-Flash:284B 总参数 / 13B 激活,1M 上下文,输出 **$0.28 / 百万 token**(约 GPT-5.5 的 1%)36氪
  • 两者均开源 + 100 万 token 上下文标配,支持国产芯片适配。

二、核心好评(集中在代码 / 长文本 / 速度)

  1. 代码能力:开源第一梯队
    • Pro 在 Agentic Coding/SWE-bench 达开源最佳,内部反馈优于 Sonnet 4.5、接近 Opus 4.6 非思考模式
    • Flash 在轻量编码中常与 Pro 持平,token 消耗更少、速度更快
    • 实测:简单 / 中等任务流畅、风格偏实战、少过度设计。
  2. 长文本理解:1M 上下文真能用
    • 整本百万字小说 / 百页合同可直接解析,无需拆分、全局理解强
    • 长摘要 / 问答一致性好,极少 “失忆”。
  3. 推理与速度:性价比突出
    • 数学 / STEM 竞赛题接近闭源顶尖,推理速度比 V3.2 快 2–3 倍
    • Flash 日常对话67 token/s,长文本生成稳定。
  4. 中文能力:优于多数海外模型
    • 写作 / 知识问答超越 Gemini 3.1 Pro,成语与文化梗理解到位。

三、主要槽点(复杂任务 / 稳定性 / Agent)

  1. 超复杂工程弱于 GPT-5.5/Opus
    • 精致前端、游戏逻辑、首次必须成功的任务易出错、稳定性不足
    • 复杂系统设计易遗漏边界条件,需多轮迭代。
  2. Agent 能力:进步大但仍有坑
    • 本地工具调用不主动:需明确提示才调用 skill/cli,决策偏保守。
    • 多步骤长任务易 “断链”,不如 GPT-5.5 连贯。
  3. 稳定性与细节
    • Flash 在 system prompt 遵循上偶有漂移
    • 极长文本(>800k token)偶尔降速或丢信息。
    • 创意写作 “惊艳度” 略逊 Opus,偏实用稳重。

四、社区共识:Pro vs Flash 怎么选

  • V4-Flash(首选):日常对话、轻量编码、长文档摘要、批量处理 ——性价比碾压,多数场景够用。
  • V4-Pro(按需):复杂系统设计、高难度数学 / 代码、深度推理、高质量创作 ——强但贵 10 倍
  • 结论:不是 “全面超车”,而是把竞争推向 “场景适配 + 成本极致”

五、一句话总结

V4 是 “平民级顶配”:代码与长文本极强、价格极低、Flash 封神;但超复杂推理与精细创作仍需闭源顶流兜底。

👁 阅读量:23

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

扫码分享本文 分享二维码