大模型参数是什么意思：7B、70B、5T 到底在说什么

五岁博客

大模型参数是什么意思：7B、70B、5T 到底在说什么

五岁博客收录于 AI

2026-05-08 约 2790 字预计阅读 6 分钟次阅读

刷科技新闻的时候经常看到这种说法：“这个模型有 70B 参数”，“训练用了 5T tokens”，“DeepSeek-V3 有 671B 参数”。

第一次看到这些数字，大部分人的反应是：这到底在说啥？

我用人话给你讲清楚。

什么是"参数"

先打个比方。

你学骑自行车的时候，大脑会不断调整一些"设置"：身体往左偏多少度、手握把的力度、踩踏板的节奏。

这些"设置"就是你大脑里存储的经验值。

经过多次练习，这些值被调到刚好能让你保持平衡。

大模型的"参数"就是类似的东西。

每个参数是一个数字，代表模型内部某个连接的强度。

模型通过大量文本学习后，这些数字被调整到合适的值，使得模型能够理解和生成语言。

具体来说，参数主要存在于神经网络的权重矩阵中。

一个 7B 参数的模型，意味着它内部有 70 亿个这样的数字在协同工作。

B 和 T 是什么单位

看到新闻里写 7B、70B、671B，这个 B 是 Billion（十亿）的缩写。

所以：

标记	含义	换算
1B	10 亿	1,000,000,000
7B	70 亿	7,000,000,000
13B	130 亿	13,000,000,000
70B	700 亿	70,000,000,000
175B	1750 亿	175,000,000,000
671B	6710 亿	671,000,000,000

而 T 是 Trillion（万亿）的缩写：

标记	含义	换算
1T	1 万亿	1,000,000,000,000
1.8T	1.8 万亿	1,800,000,000,000
5T	5 万亿	5,000,000,000,000
15T	15 万亿	15,000,000,000,000

所以当你看到"GPT-4 大约有 1.8T 参数"，意思就是这个模型里有 1.8 万亿个可调节的数字。

/img/llm-parameters-explained/0101.png — 主流大模型参数量对比

“5T"是什么意思

这个要看上下文。5T 出现在两种场景中，含义完全不同：

场景一：5T 参数

如果说"这个模型有 5T 参数”，意味着模型有 5 万亿个参数。

目前（2026 年）公开发布的模型到这个量级，似乎只有 Claude Opus 模型

场景二：5T tokens 训练数据（更常见）

如果说"这个模型用了 5T tokens 训练"，意味着模型在训练时看了 5 万亿个 token 的文本数据。

这是目前更常见的用法。

比如 LLaMA 3 用了大约 15T tokens 训练，DeepSeek-V3 用了约 14.8T tokens。这是什么概念呢？

一本 300 页的书大约有 10 万个 tokens
5T tokens 相当于 5000 万本书的文本量
整个英文维基百科大约 40 亿 tokens，5T tokens 相当于 1250 个维基百科

所以 5T tokens 训练数据意味着：这个模型"读过"的内容相当于 5000 万本书。

/img/llm-parameters-explained/0102.png — 大模型核心概念：参数vs训练数据

参数和训练数据是什么关系

一个容易混淆的点：参数量和训练数据量是两个独立的维度。

参数量（B/T）：决定模型的"容量"有多大，能存储多少知识和模式
训练数据量（tokens）：决定模型"见过"多少内容，学到了多少知识

打个比方：参数量像是一个人的大脑容量，训练数据量像是这个人读过多少书。

大脑容量大但没读过书，等于空有潜力；读了很多书但大脑容量小，记不住那么多内容。

两者需要匹配。

根据 2022 年 DeepMind 的 Chinchilla 论文，最优的训练策略是：训练 tokens 数量大约是参数量的 20 倍。也就是说，一个 7B 参数的模型，理想情况下应该用约 140B（1400 亿）tokens 来训练。

但后来的实践（比如 LLaMA 系列）发现，用更多数据训练小模型效果也很好。

LLaMA 7B 用了 1T tokens 训练（是 Chinchilla 建议的 7 倍），性能超过了用更少数据训练的更大模型。

参数越多就越好吗

不一定。参数量影响几个方面：

优势：

容量更大，能记住更多知识
涌现能力：某些能力只有参数量达到一定阈值才会出现
处理复杂任务的能力更强

代价：

推理（使用模型）时需要更多显存和算力
训练成本指数级增长
响应速度变慢

一个 7B 参数的模型大约需要 14GB 显存（FP16 精度），一张消费级显卡就能跑。

而 70B 参数的模型需要约 140GB 显存，至少要 2 张 A100 80GB 才能推理。

671B 参数的模型更是需要整个 GPU 集群。

这也是为什么业界越来越重视 MoE（混合专家模型）架构。

比如 DeepSeek-V3 虽然总参数有 671B，但每次推理只激活其中 37B 参数，大大降低了计算成本。

用 Go 估算模型显存占用

下面这段代码可以帮你快速估算一个模型需要多少显存：

        
        
        
    
package main

import "fmt"

func main() {
	// 常见模型参数量（单位：十亿）
	models := []struct {
		Name   string
		Params float64 // 十亿
	}{
		{"LLaMA-7B", 7},
		{"LLaMA-13B", 13},
		{"LLaMA-70B", 70},
		{"GPT-3", 175},
		{"DeepSeek-V3 (全量)", 671},
		{"DeepSeek-V3 (激活)", 37},
	}

	fmt.Println("模型显存估算（推理阶段）")
	fmt.Println("================================")

	for _, m := range models {
		// FP16 精度：每个参数 2 字节
		fp16GB := m.Params * 1e9 * 2 / (1024 * 1024 * 1024)
		// INT8 量化：每个参数 1 字节
		int8GB := m.Params * 1e9 * 1 / (1024 * 1024 * 1024)
		// INT4 量化：每个参数 0.5 字节
		int4GB := m.Params * 1e9 * 0.5 / (1024 * 1024 * 1024)

		fmt.Printf("\n%s (%s 参数)\n", m.Name, formatParams(m.Params))
		fmt.Printf("  FP16:  %.1f GB\n", fp16GB)
		fmt.Printf("  INT8:  %.1f GB\n", int8GB)
		fmt.Printf("  INT4:  %.1f GB\n", int4GB)
	}
}

func formatParams(billions float64) string {
	if billions >= 1000 {
		return fmt.Sprintf("%.1fT", billions/1000)
	}
	return fmt.Sprintf("%.0fB", billions)
}

运行结果大概是这样的：

LLaMA-7B (7B 参数)
  FP16:  13.0 GB
  INT8:  6.5 GB
  INT4:  3.3 GB

LLaMA-70B (70B 参数)
  FP16:  130.4 GB
  INT8:  65.2 GB
  INT4:  32.6 GB

这就是为什么量化技术这么重要——INT4 量化可以把 70B 模型压缩到单张 A100 40GB 能跑的程度。

常见问题

7B 和 7b 有区别吗？

没区别。7B 和 7b 都是 7 Billion（70 亿）的意思，只是大小写风格不同。

有些命名规范用大写 B（如 LLaMA-70B），有些用小写 b（如 qwen2-7b），含义完全相同。

“参数"和"权重"是一回事吗？

在日常讨论中基本等同。

严格来说，“权重"只是参数的一种（神经网络中连接的强度值），还有"偏置"也算参数。但偏置数量远少于权重，所以说"70B 参数"和"70B 权重"差别可以忽略。

为什么有些模型标注 MoE，参数量特别大？

MoE（Mixture of Experts，混合专家模型）把模型分成多个"专家"子网络，每次只激活一部分。DeepSeek-V3 总参数 671B，但每次推理只用 37B，所以实际推理成本跟 37B 模型差不多，但性能接近更大的密集模型。

训练一个 7B 模型要花多少钱？

粗略估算：训练 7B 模型用 1T tokens，大约需要 6000 GPU 小时（A100 80GB）。按云服务价格约 2 美元/GPU 小时计算，训练一次大约 1.2 万美元。70B 模型则需要约 100 万美元以上。

“5T tokens"的数据是从哪来的？

主要来源包括：网页抓取（Common Crawl）、书籍、论文、代码（GitHub）、维基百科、论坛帖子等。高质量的训练数据需要大量清洗和去重，原始数据可能是最终使用量的 10 倍以上。

总结

大模型的"参数"就是模型内部存储知识的数字——类似大脑突触的连接强度。参数越多，模型容量越大，能力越强，但成本也越高。

看到数字后面的字母就知道意思了：

B = Billion = 10 亿：7B 就是 70 亿参数
T = Trillion = 1 万亿：1.8T 就是 1.8 万亿参数

而"5T tokens"通常指训练数据量——模型学习了 5 万亿个文本片段，相当于读了 5000 万本书。

参数量决定模型的上限，训练数据决定模型能达到上限的多少。两者配合，才能训练出一个好模型。

如果你对大模型的其他概念有疑问（比如什么是 token、什么是 transformer、什么是 attention），欢迎评论区留言。

未经授权，禁止转载本文章。
如需转载请保留原文链接并注明出处。即视为默认获得授权。
未保留原文链接未注明出处或删除链接将视为侵权，必追究法律责任！

本文原文链接： https://fiveyoboy.com/articles/llm-parameters-explained/

备用原文链接： https://blog.fiveyoboy.com/articles/llm-parameters-explained/

目录

大模型参数是什么意思：7B、70B、5T 到底在说什么

什么是"参数"

B 和 T 是什么单位

“5T"是什么意思

参数和训练数据是什么关系

参数越多就越好吗

用 Go 估算模型显存占用

常见问题

7B 和 7b 有区别吗？

“参数"和"权重"是一回事吗？

为什么有些模型标注 MoE，参数量特别大？

训练一个 7B 模型要花多少钱？

“5T tokens"的数据是从哪来的？

总结