DeepSeek 模型介绍

DeepSeek 模型介绍

深度求索(DeepSeek)是一家专注实现AGI的中国的人工智能公司,本文将介绍 DeepSeek 各模型的发展和区别。

DeepSeek官网:www.deepseek.com

DeepSeek-Coder

这是深度求索的第一个大模型,随后 11月29日,其发布 DeepSeek-LLM。

Deepseek-Coder 由一系列代码语言模型组成,每个模型都基于 2T 个 token 从头进行训练,其中 87% 为代码,13% 为英文和中文的自然语言。

Cloudflare 提供的 Playground :deepseek-coder-6.7b-base-awq

Cloudflare 提供的 Playground :deepseek-coder-6.7b-instruct-awq

DeepSeek-Math

DeepSeekMath 在竞赛级MATH基准测试中获取了51.7%的优异成绩,且未依赖外部工具包和投票技术,接近Gemini-Ultra和GPT-4的性能水平

DeepSeekMath 使用 DeepSeek-Coder-v1.5 7B 进行初始化,并继续对来自 Common Crawl 的数学相关标记以及 500B 个标记的自然语言和代码数据进行预训练。

DeepSeekMath-Instruct 7B 是一个基于数学指导的调优模型,源自 DeepSeekMath-Base 7B。

Cloudflare 提供的 Playground :deepseek-math-7b-instruct

DeepSeek-V3

DeepSeek 表示 DeepSeek-V3 的训练系基于 2,048 块英伟达 H800 型 GPU(针对中国大陆市场的低配版GPU)集群上运行55天完成,训练耗资557.6万美元;DeepSeek-V3 的评测成绩超越 Qwen2.5-72B(阿里自研大模型)和 LLaMA 3.1-405B(Meta自研大模型)等开源模型,能与 GPT-4o、Claude 3.5-Sonnet 等闭源模型相抗衡。

模型 Total Params Activated Params 上下文长度 下载
DeepSeek-V3-Base 671B 37B 128K 🤗 Hugging Face
DeepSeek-V3 671B 37B 128K 🤗 Hugging Face

DeepSeek-R1

DeepSeek发布并开源了DeepSeek-R1模型,该模型在数学、代码、自然语言推理等任务上,性能与OpenAI o1正式版相当。

模型 Total Params Activated Params 上下文长度 下载
DeepSeek-R1-Zero 671B 37B 128K 🤗 Hugging Face
DeepSeek-R1 671B 37B 128K 🤗 Hugging Face

DeepSeek-R1-Zero 和 DeepSeek-R1 基于 DeepSeek-V3-Base 训练。有关模型架构的更多详情,请参阅DeepSeek-V3资源库。

蒸馏版本

Model Base Model 模型体积 下载
DeepSeek-R1-Distill-Qwen-1.5B Qwen2.5-Math-1.5B BF16:3.55G 🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-7B Qwen2.5-Math-7B BF16:15.23G 🤗 HuggingFace
DeepSeek-R1-Distill-Llama-8B Llama-3.1-8B BF16:16.06G 🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-14B Qwen2.5-14B BF16:29.54G 🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-32B Qwen2.5-32B BF16:65.53G 🤗 HuggingFace
DeepSeek-R1-Distill-Llama-70B Llama-3.3-70B-Instruct BF16:150G 🤗 HuggingFace

DeepSeek-R1-Distill-Qwen-32B 是基于 Qwen2.5 从 DeepSeek-R1 提炼出来的模型(Distill:蒸馏)。它在各种基准测试中均优于 OpenAI-o1-mini,在密集模型中取得了新的最佳结果,目前 DeepSeek-R1-Distill-Qwen-32B 是 DeepSeek 性价比最高的模型。

Cloudflare 提供的 Playground :deepseek-r1-distill-qwen-32b

进阶阅读