DeepSeek V4定档7月中旬，峰谷API定价同步落地

DeepSeek在产品迭代与技术开源两条线上同步提速。正式版V4宣布7月中旬上线，届时API将启动峰谷定价机制，高峰时段价格翻倍；联合北京大学发布的推理加速框架DSpark已全量部署于线上服务，使单用户生成速度最高提升85%。两项进展叠加释出，显示这家公司正将商业化压力管理与技术能力兑现同步推进。

6月29日，DeepSeek团队宣布DeepSeek V4正式版计划于7月中旬上线，并同步引入峰谷定价策略。根据公布的价格表，高峰时段API价格为平时价格的两倍，平时价格与现行V4 API定价持平。高峰时段界定为每日上午9时至12时及下午2时至6时。官方表示，此举旨在更合理地配置资源、提升服务稳定性。

在技术层面，DeepSeek于6月27日联合北京大学发布推理加速框架DSpark，并同步开源全栈推测性解码工具链DeepSpec。论文由公司创始人梁文锋本人署名，已上传至公开代码库。实测显示，DSpark部署后V4-Flash单用户生成速度提升60%至85%，V4-Pro提升57%至78%，效果已在线上服务全量验证。这也是DeepSeek完成500亿元融资后首次对外发布的开源技术成果。

对API用户而言，峰谷定价将直接推高工作时段使用成本；对开发者而言，推理速度的显著提升或可在高并发场景下部分抵消成本压力，并进一步降低推理优化的落地门槛。

V4正式版上线与峰谷定价机制

DeepSeek V4模型预览版于4月24日上线并同步开源，具备百万字超长上下文，在Agent能力、世界知识及推理性能上均实现国内与开源领域领先。正式版预计于7月中旬推出，将带来进一步的功能优化与性能提升。

V4系列分为两个规格：旗舰版V4-Pro总参数量达1.6万亿，激活参数49B，预训练数据量33T，支持1M上下文，网页端以专家模式运行；轻量版V4-Flash总参数284B，激活参数13B，预训练数据32T，同样支持1M上下文，网页端以快速模式运行。两款模型均已开源并提供API服务。

峰谷定价是此次正式版更新的另一核心变量。该机制将每日API使用成本切分为两个层级，平时价格维持现行水平不变，高峰时段收费翻倍。对于在工作时段密集调用API的企业用户而言，成本影响将较为直接；而有条件将批量任务迁移至低峰时段运行的用户，则可在定价调整后维持原有成本水平。

DSpark：推测性解码的工程化落地

DSpark并非全新架构的模型，而是在现有V4模型基础上引入了推测性解码模块，核心在于工程层面的优化落地。推测性解码的基本逻辑是：先由轻量级小模型快速生成候选token（草稿），再由大模型并行验证，接受符合目标分布的连续前缀，从而在不损失生成质量的前提下提升速度。

DSpark针对这一技术路线在实际落地中的两个核心瓶颈提出了针对性方案。

其一是半自回归生成架构，主要解决并行草稿的"后缀衰减"问题——并行独立生成各位置token时，位置间缺乏依赖约束，越往后错误累积越严重，验证接受率随之断崖式下跌。DSpark采用"并行主干+轻量串行头"的两阶段设计：并行主干保留速度优势，串行模块则补充相邻token间的依赖关系，修正语义冲突，直接提升每轮验证的有效接受长度。测试显示，2层深度的DSpark有效接受长度甚至超过5层深度的纯并行方案DFlash。

其二是置信度调度验证机制，针对全量验证导致的算力浪费问题。DSpark在草稿模型上增加置信度评分模块，实时预测每个候选token的条件接受概率，并通过"顺序温度缩放"校准方法将评分误差从3%-8%压缩至约1%。在此基础上，调度器根据实时负载动态调整验证长度：低并发时拉满算力，高并发时主动裁剪低价值token，避免资源争抢与速度骤降。