DeepSeek 模型介绍
深度求索(DeepSeek)是一家专注实现AGI的中国的人工智能公司,本文将介绍 DeepSeek 各模型的发展和区别。
DeepSeek官网:www.deepseek.com
DeepSeek-Coder
- 发布时间:2023年10月28日
- 适用场景:编程
这是深度求索的第一个大模型,随后 11月29日,其发布 DeepSeek-LLM。
Deepseek-Coder 由一系列代码语言模型组成,每个模型都基于 2T 个 token 从头进行训练,其中 87% 为代码,13% 为英文和中文的自然语言。
Cloudflare 提供的 Playground :deepseek-coder-6.7b-base-awq
Cloudflare 提供的 Playground :deepseek-coder-6.7b-instruct-awq
DeepSeek-Math
- 发布时间:2024年02月05日
- 适用场景:解决数学问题
DeepSeekMath 在竞赛级MATH基准测试中获取了51.7%的优异成绩,且未依赖外部工具包和投票技术,接近Gemini-Ultra和GPT-4的性能水平
DeepSeekMath 使用 DeepSeek-Coder-v1.5 7B 进行初始化,并继续对来自 Common Crawl 的数学相关标记以及 500B 个标记的自然语言和代码数据进行预训练。
DeepSeekMath-Instruct 7B 是一个基于数学指导的调优模型,源自 DeepSeekMath-Base 7B。
Cloudflare 提供的 Playground :deepseek-math-7b-instruct
DeepSeek-V3
- 发布时间:2024年12月26日
- 适用场景:综合推理
- 模型体积:FP8:700G
DeepSeek 表示 DeepSeek-V3 的训练系基于 2,048 块英伟达 H800 型 GPU(针对中国大陆市场的低配版GPU)集群上运行55天完成,训练耗资557.6万美元;DeepSeek-V3 的评测成绩超越 Qwen2.5-72B(阿里自研大模型)和 LLaMA 3.1-405B(Meta自研大模型)等开源模型,能与 GPT-4o、Claude 3.5-Sonnet 等闭源模型相抗衡。
模型 | Total Params | Activated Params | 上下文长度 | 下载 |
---|---|---|---|---|
DeepSeek-V3-Base | 671B | 37B | 128K | 🤗 Hugging Face |
DeepSeek-V3 | 671B | 37B | 128K | 🤗 Hugging Face |
DeepSeek-R1
- 发布时间:2025年01月20日
- 适用场景:综合推理
- 模型体积:FP8:700G
DeepSeek发布并开源了DeepSeek-R1模型,该模型在数学、代码、自然语言推理等任务上,性能与OpenAI o1正式版相当。
模型 | Total Params | Activated Params | 上下文长度 | 下载 |
---|---|---|---|---|
DeepSeek-R1-Zero | 671B | 37B | 128K | 🤗 Hugging Face |
DeepSeek-R1 | 671B | 37B | 128K | 🤗 Hugging Face |
DeepSeek-R1-Zero 和 DeepSeek-R1 基于 DeepSeek-V3-Base 训练。有关模型架构的更多详情,请参阅DeepSeek-V3资源库。
蒸馏版本
Model | Base Model | 模型体积 | 下载 |
---|---|---|---|
DeepSeek-R1-Distill-Qwen-1.5B | Qwen2.5-Math-1.5B | BF16:3.55G | 🤗 HuggingFace |
DeepSeek-R1-Distill-Qwen-7B | Qwen2.5-Math-7B | BF16:15.23G | 🤗 HuggingFace |
DeepSeek-R1-Distill-Llama-8B | Llama-3.1-8B | BF16:16.06G | 🤗 HuggingFace |
DeepSeek-R1-Distill-Qwen-14B | Qwen2.5-14B | BF16:29.54G | 🤗 HuggingFace |
DeepSeek-R1-Distill-Qwen-32B | Qwen2.5-32B | BF16:65.53G | 🤗 HuggingFace |
DeepSeek-R1-Distill-Llama-70B | Llama-3.3-70B-Instruct | BF16:150G | 🤗 HuggingFace |
DeepSeek-R1-Distill-Qwen-32B 是基于 Qwen2.5 从 DeepSeek-R1 提炼出来的模型(Distill:蒸馏)。它在各种基准测试中均优于 OpenAI-o1-mini,在密集模型中取得了新的最佳结果,目前 DeepSeek-R1-Distill-Qwen-32B 是 DeepSeek 性价比最高的模型。
Cloudflare 提供的 Playground :deepseek-r1-distill-qwen-32b