Rpengの博客

LLM 分布式训练技术

Invalid Date ·约 3369 字·7 分钟

AI摘要: 本文介绍了LLM分布式训练技术，包括单机训练的瓶颈、三种主要的并行方式（数据并行、模型/流水线/层间并行和张量/层内并行），以及去中心化架构下的通讯原语和加速策略。还讨论了NVIDIA Megatron和Microsoft DeepSpeed在工业实现中的应用，特别是DeepSpeed提供的参数冗余消除能力。...

LLM分布式训练数据并行模型并行张量并行MegatronDeepSpeed

AI摘要: 本文探讨了LLM（Language Model）在生成预测Token时采用的三种策略：贪心策略、Beam Search和Top-K sampling。贪心策略倾向于生成重复内容，而Beam Search通过保留概率最大的Token序列来引入多样性，但可能仍导致模型陷入局部最优解。Top-K sampling则通过随机采样概率最高的k个token来增加多样性，同时丢弃低概率词。此外，文章还讨论了温度参数对sigmoid函数归一化效果的影响，以及如何通过调整温度来控制生成文本的创造性和多样性。...

LLM Token多样性贪心策略 Beam Search Top-K sampling 温度参数

vLLM讲解

Invalid Date ·约 1111 字·3 分钟

AI摘要: 本文探讨了LLM（Language Model）中KV Cache的不足，包括其计算过程中的冗余重复、显存利用率问题以及内存碎片问题。文章指出，尽管通过KV Cache可以缓存中间结果以提升推理速度，但在显存利用率上存在多个不足，如预分配显存未充分利用、显存碎片问题以及无法有效处理不同长度的Prompt导致的显存浪费。接着，文章介绍了操作系统中的Page Attention技术，该技术通过将内存划分为多个page和虚拟内存来优化进程内存分配，为vLLM提供了一种类似解决方案。最后，文章讨论了共享KV blocks的概念，旨在减少显存占用并提高吞吐量。...

LLM KV Cache 显存利用率内存碎片 Page Attention vLLM

常见位置编码及其实现

Invalid Date ·约 6885 字·15 分钟

AI摘要: 本文介绍了可学习位置编码（Learnable Position Encoding）的概念、实现方式以及在Transformer模型中的应用。可学习位置编码是一种无需训练即可直接应用的位置嵌入方法，操作简单易懂，易于理解。...

可学习位置编码Transformer模型词嵌入向量三角函数信息编码

MySQL的ACID实现原理

Invalid Date ·约 2787 字·6 分钟

AI摘要: 本文介绍了MySQL的ACID实现原理，包括原子性、一致性、隔离性和持久性。Innodb作为MySQL最常用的存储引擎，其内部构造包括buffer pool、redo log和undo log。Atomic实现原理主要通过undo log保证事务的原子性，Consistency由业务逻辑或约束实现，Isolation采用MVCC提高事务并发性能。Durability通过redo log防止数据库崩溃造成数据丢失。...

MySQL ACID Innodb undo log redo log MVCC Durability

LLM 分布式训练技术

LLM的Token多样性生成策略

vLLM讲解

常见位置编码及其实现

MySQL的ACID实现原理