Rpengの博客
Rpengの博客
文章
标签
项目
小工具
关于
文章
标签
项目
小工具
关于
搜索
所有文章
(60)
less is more
LLM 分布式训练技术
Invalid Date
·
约 3369 字
·
7 分钟
AI摘要: 本文介绍了LLM分布式训练技术,包括单机训练的瓶颈、三种主要的并行方式(数据并行、模型/流水线/层间并行和张量/层内并行),以及去中心化架构下的通讯原语和加速策略。还讨论了NVIDIA Megatron和Microsoft DeepSpeed在工业实现中的应用,特别是DeepSpeed提供的参数冗余消除能力。...
LLM
分布式训练
数据并行
模型并行
张量并行
Megatron
DeepSpeed
LLM的Token多样性生成策略
Invalid Date
·
约 1107 字
·
3 分钟
AI摘要: 本文探讨了LLM(Language Model)在生成预测Token时采用的三种策略:贪心策略、Beam Search和Top-K sampling。贪心策略倾向于生成重复内容,而Beam Search通过保留概率最大的Token序列来引入多样性,但可能仍导致模型陷入局部最优解。Top-K sampling则通过随机采样概率最高的k个token来增加多样性,同时丢弃低概率词。此外,文章还讨论了温度参数对sigmoid函数归一化效果的影响,以及如何通过调整温度来控制生成文本的创造性和多样性。...
LLM
Token多样性
贪心策略
Beam Search
Top-K sampling
温度参数
vLLM讲解
Invalid Date
·
约 1111 字
·
3 分钟
AI摘要: 本文探讨了LLM(Language Model)中KV Cache的不足,包括其计算过程中的冗余重复、显存利用率问题以及内存碎片问题。文章指出,尽管通过KV Cache可以缓存中间结果以提升推理速度,但在显存利用率上存在多个不足,如预分配显存未充分利用、显存碎片问题以及无法有效处理不同长度的Prompt导致的显存浪费。接着,文章介绍了操作系统中的Page Attention技术,该技术通过将内存划分为多个page和虚拟内存来优化进程内存分配,为vLLM提供了一种类似解决方案。最后,文章讨论了共享KV blocks的概念,旨在减少显存占用并提高吞吐量。...
LLM
KV Cache
显存利用率
内存碎片
Page Attention
vLLM
常见位置编码及其实现
Invalid Date
·
约 6885 字
·
15 分钟
AI摘要: 本文介绍了可学习位置编码(Learnable Position Encoding)的概念、实现方式以及在Transformer模型中的应用。可学习位置编码是一种无需训练即可直接应用的位置嵌入方法,操作简单易懂,易于理解。...
可学习位置编码
Transformer模型
词嵌入向量
三角函数信息编码
MySQL的ACID实现原理
Invalid Date
·
约 2787 字
·
6 分钟
AI摘要: 本文介绍了MySQL的ACID实现原理,包括原子性、一致性、隔离性和持久性。Innodb作为MySQL最常用的存储引擎,其内部构造包括buffer pool、redo log和undo log。Atomic实现原理主要通过undo log保证事务的原子性,Consistency由业务逻辑或约束实现,Isolation采用MVCC提高事务并发性能。Durability通过redo log防止数据库崩溃造成数据丢失。...
MySQL
ACID
Innodb
undo log
redo log
MVCC
Durability
上一页
3 / 12
下一页