DeepSeek 模型介绍

深度求索（DeepSeek）是一家专注实现AGI的中国的人工智能公司，本文将介绍 DeepSeek 各模型的发展和区别。

DeepSeek官网：www.deepseek.com

DeepSeek-Coder

发布时间：2023年10月28日
适用场景：编程

这是深度求索的第一个大模型，随后 11月29日，其发布 DeepSeek-LLM。

Deepseek-Coder 由一系列代码语言模型组成，每个模型都基于 2T 个 token 从头进行训练，其中 87% 为代码，13% 为英文和中文的自然语言。

Cloudflare 提供的 Playground ：deepseek-coder-6.7b-base-awq

Cloudflare 提供的 Playground ：deepseek-coder-6.7b-instruct-awq

DeepSeek-Math

发布时间：2024年02月05日
适用场景：解决数学问题

DeepSeekMath 在竞赛级MATH基准测试中获取了51.7%的优异成绩，且未依赖外部工具包和投票技术，接近Gemini-Ultra和GPT-4的性能水平

DeepSeekMath 使用 DeepSeek-Coder-v1.5 7B 进行初始化，并继续对来自 Common Crawl 的数学相关标记以及 500B 个标记的自然语言和代码数据进行预训练。

DeepSeekMath-Instruct 7B 是一个基于数学指导的调优模型，源自 DeepSeekMath-Base 7B。

Cloudflare 提供的 Playground ：deepseek-math-7b-instruct

DeepSeek-V3

发布时间：2024年12月26日
适用场景：综合推理
模型体积：FP8:700G

DeepSeek 表示 DeepSeek-V3 的训练系基于 2,048 块英伟达 H800 型 GPU（针对中国大陆市场的低配版GPU）集群上运行55天完成，训练耗资557.6万美元；DeepSeek-V3 的评测成绩超越 Qwen2.5-72B（阿里自研大模型）和 LLaMA 3.1-405B（Meta自研大模型）等开源模型，能与 GPT-4o、Claude 3.5-Sonnet 等闭源模型相抗衡。

模型	Total Params	Activated Params	上下文长度	下载
DeepSeek-V3-Base	671B	37B	128K	🤗 Hugging Face
DeepSeek-V3	671B	37B	128K	🤗 Hugging Face

DeepSeek-R1

发布时间：2025年01月20日
适用场景：综合推理
模型体积：FP8:700G

DeepSeek发布并开源了DeepSeek-R1模型，该模型在数学、代码、自然语言推理等任务上，性能与OpenAI o1正式版相当。

模型	Total Params	Activated Params	上下文长度	下载
DeepSeek-R1-Zero	671B	37B	128K	🤗 Hugging Face
DeepSeek-R1	671B	37B	128K	🤗 Hugging Face

DeepSeek-R1-Zero 和 DeepSeek-R1 基于 DeepSeek-V3-Base 训练。有关模型架构的更多详情，请参阅DeepSeek-V3资源库。

蒸馏版本

Model	Base Model	模型体积	下载
DeepSeek-R1-Distill-Qwen-1.5B	Qwen2.5-Math-1.5B	BF16:3.55G	🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-7B	Qwen2.5-Math-7B	BF16:15.23G	🤗 HuggingFace
DeepSeek-R1-Distill-Llama-8B	Llama-3.1-8B	BF16:16.06G	🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-14B	Qwen2.5-14B	BF16:29.54G	🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-32B	Qwen2.5-32B	BF16:65.53G	🤗 HuggingFace
DeepSeek-R1-Distill-Llama-70B	Llama-3.3-70B-Instruct	BF16:150G	🤗 HuggingFace

DeepSeek-R1-Distill-Qwen-32B 是基于 Qwen2.5 从 DeepSeek-R1 提炼出来的模型（Distill：蒸馏）。它在各种基准测试中均优于 OpenAI-o1-mini，在密集模型中取得了新的最佳结果，目前 DeepSeek-R1-Distill-Qwen-32B 是 DeepSeek 性价比最高的模型。

Cloudflare 提供的 Playground ：deepseek-r1-distill-qwen-32b