Blog

Page 8 - Showing 5 of 87 posts

  • 请求防抖:多场景解决方案
    请求防抖:多场景解决方案
    Arrow right

    本文介绍了请求防抖:多场景解决方案。在维护博客系统时,作者遇到了并发导致的多次请求问题。通过记录各种解决方案,包括内存锁方案、Promise缓存方案、数据库锁方案和Redis分布式锁方案,展示了如何根据不同场景选择合适的技术方案来避免重复请求和提高性能。

    🕒3 min read
      请求防抖多场景解决方案内存锁Promise缓存数据库锁Redis分布式锁
  • BPE Tokenizer 讲解
    BPE Tokenizer 讲解
    Arrow right

    本文介绍了Byte Pair Encoding(BPE)算法在分词场景中的应用。传统对文本的分词方式包括基于单词和字符两种方式,而针对中文还有基于常用词的分词方式。在LLM时代,BPE算法因其适合海量数据的特性而被采用。文章通过对比不同级别的分词方法,如char level、word level以及sub word level等,指出了各自的优缺点及适用场景。

    🕒2 min read
      Byte Pair EncodingBPEchar-levelword-levelsub-word leveltext processing
  • LLM 分布式训练技术
    LLM 分布式训练技术
    Arrow right

    本文介绍了LLM分布式训练技术,包括单机训练的瓶颈、三种主要的并行方式(数据并行、模型/流水线/层间并行和张量/层内并行),以及去中心化架构下的通讯原语和加速策略。还讨论了NVIDIA Megatron和Microsoft DeepSpeed在工业实现中的应用,特别是DeepSpeed提供的参数冗余消除能力。

    🕒1 min read
      LLM分布式训练数据并行模型并行张量并行MegatronDeepSpeed
  • LLM的Token多样性生成策略
    LLM的Token多样性生成策略
    Arrow right

    本文探讨了LLM(Language Model)在生成预测Token时采用的三种策略:贪心策略、Beam Search和Top-K sampling。贪心策略倾向于生成重复内容,而Beam Search通过保留概率最大的Token序列来引入多样性,但可能仍导致模型陷入局部最优解。Top-K sampling则通过随机采样概率最高的k个token来增加多样性,同时丢弃低概率词。此外,文章还讨论了温度参数对sigmoid函数归一化效果的影响,以及如何通过调整温度来控制生成文本的创造性和多样性。

    🕒1 min read
      LLMToken多样性贪心策略Beam SearchTop-K sampling温度参数
  • vLLM讲解
    vLLM讲解
    Arrow right

    本文探讨了LLM(Language Model)中KV Cache的不足,包括其计算过程中的冗余重复、显存利用率问题以及内存碎片问题。文章指出,尽管通过KV Cache可以缓存中间结果以提升推理速度,但在显存利用率上存在多个不足,如预分配显存未充分利用、显存碎片问题以及无法有效处理不同长度的Prompt导致的显存浪费。接着,文章介绍了操作系统中的Page Attention技术,该技术通过将内存划分为多个page和虚拟内存来优化进程内存分配,为vLLM提供了一种类似解决方案。最后,文章讨论了共享KV blocks的概念,旨在减少显存占用并提高吞吐量。

    🕒1 min read
      LLMKV Cache显存利用率内存碎片Page AttentionvLLM