DeepSeek在产品迭代与技术开源两条线上同步提速。正式版V4宣布7月中旬上线,届时API将启动峰谷定价机制,高峰时段价格翻倍;联合北京大学发布的推理加速框架DSpark已全量部署于线上服务,使单用户生成速度最高提升85%。两项进展叠加释出,显示这家公司正将商业化压力管理与技术能力兑现同步推进。

6月29日,DeepSeek团队宣布DeepSeek V4正式版计划于7月中旬上线,并同步引入峰谷定价策略。根据公布的价格表,高峰时段API价格为平时价格的两倍,平时价格与现行V4 API定价持平。高峰时段界定为每日上午9时至12时及下午2时至6时。官方表示,此举旨在更合理地配置资源、提升服务稳定性。

在技术层面,DeepSeek于6月27日联合北京大学发布推理加速框架DSpark,并同步开源全栈推测性解码工具链DeepSpec。论文由公司创始人梁文锋本人署名,已上传至公开代码库。实测显示,DSpark部署后V4-Flash单用户生成速度提升60%至85%,V4-Pro提升57%至78%,效果已在线上服务全量验证。这也是DeepSeek完成500亿元融资后首次对外发布的开源技术成果。

对API用户而言,峰谷定价将直接推高工作时段使用成本;对开发者而言,推理速度的显著提升或可在高并发场景下部分抵消成本压力,并进一步降低推理优化的落地门槛。


V4正式版上线与峰谷定价机制

DeepSeek V4模型预览版于4月24日上线并同步开源,具备百万字超长上下文,在Agent能力、世界知识及推理性能上均实现国内与开源领域领先。正式版预计于7月中旬推出,将带来进一步的功能优化与性能提升。

V4系列分为两个规格:旗舰版V4-Pro总参数量达1.6万亿,激活参数49B,预训练数据量33T,支持1M上下文,网页端以专家模式运行;轻量版V4-Flash总参数284B,激活参数13B,预训练数据32T,同样支持1M上下文,网页端以快速模式运行。两款模型均已开源并提供API服务。


峰谷定价是此次正式版更新的另一核心变量。该机制将每日API使用成本切分为两个层级,平时价格维持现行水平不变,高峰时段收费翻倍。对于在工作时段密集调用API的企业用户而言,成本影响将较为直接;而有条件将批量任务迁移至低峰时段运行的用户,则可在定价调整后维持原有成本水平。

DSpark:推测性解码的工程化落地

DSpark并非全新架构的模型,而是在现有V4模型基础上引入了推测性解码模块,核心在于工程层面的优化落地。推测性解码的基本逻辑是:先由轻量级小模型快速生成候选token(草稿),再由大模型并行验证,接受符合目标分布的连续前缀,从而在不损失生成质量的前提下提升速度。


DSpark针对这一技术路线在实际落地中的两个核心瓶颈提出了针对性方案。

其一是半自回归生成架构,主要解决并行草稿的"后缀衰减"问题——并行独立生成各位置token时,位置间缺乏依赖约束,越往后错误累积越严重,验证接受率随之断崖式下跌。DSpark采用"并行主干+轻量串行头"的两阶段设计:并行主干保留速度优势,串行模块则补充相邻token间的依赖关系,修正语义冲突,直接提升每轮验证的有效接受长度。测试显示,2层深度的DSpark有效接受长度甚至超过5层深度的纯并行方案DFlash。


其二是置信度调度验证机制,针对全量验证导致的算力浪费问题。DSpark在草稿模型上增加置信度评分模块,实时预测每个候选token的条件接受概率,并通过"顺序温度缩放"校准方法将评分误差从3%-8%压缩至约1%。在此基础上,调度器根据实时负载动态调整验证长度:低并发时拉满算力,高并发时主动裁剪低价值token,避免资源争抢与速度骤降。