Blog

Page 8 - Showing 5 of 89 posts

  • 2024Fall 统计模型 期末回忆
    2024Fall 统计模型 期末回忆
    Arrow right

    本文回顾了2024Fall统计模型课程期末考试的内容,包括简答题和计算题两部分。简答题涉及了C4.5与ID3的比较、EM算法介绍、词项-文档矩阵实现步骤、NLP常见任务及特征应用、聚类概念及方法、数据集划分的作用与区别以及概率分布函数。计算题部分则要求学生掌握正态分布的似然函数推导、Kmeans算法的应用、朴素贝叶斯分类器模板题目解答以及n-gram模型在句子概率计算中的应用等知识点。

    🕒1 min read
      C4.5ID3EM算法词项-文档矩阵NLP任务特征应用聚类方法(如Kmeans)数据集划分原则泊松分布密度函数参数意义n-gram模型句子概率计算
  • 2024Fall 软件测试 期末回忆
    2024Fall 软件测试 期末回忆
    Arrow right

    本文回顾了2024年秋季软件测试期末考试的内容,包括选择题、简单题和应用题。选择题主要涉及PPT上的概念,如隐式语言和显示语言的判断等。简单题部分要求介绍并举例变异测试、差分测试以及基于文本和图像的软件测试方法。应用题则涉及到贪心算法及其相关计算、为LCS设计蜕变测试关系和用例,以及为语音识别系统设计模糊测试的策略、规则和评价指标。

    🕒1 min read
      变异测试差分测试基于文本的图像软件测试方法贪心算法APFD计算蜕变测试关系与用例设计模糊种子策略
  • 请求防抖:多场景解决方案
    请求防抖:多场景解决方案
    Arrow right

    本文介绍了请求防抖:多场景解决方案。在维护博客系统时,作者遇到了并发导致的多次请求问题。通过记录各种解决方案,包括内存锁方案、Promise缓存方案、数据库锁方案和Redis分布式锁方案,展示了如何根据不同场景选择合适的技术方案来避免重复请求和提高性能。

    🕒3 min read
      请求防抖多场景解决方案内存锁Promise缓存数据库锁Redis分布式锁
  • BPE Tokenizer 讲解
    BPE Tokenizer 讲解
    Arrow right

    本文介绍了Byte Pair Encoding(BPE)算法在分词场景中的应用。传统对文本的分词方式包括基于单词和字符两种方式,而针对中文还有基于常用词的分词方式。在LLM时代,BPE算法因其适合海量数据的特性而被采用。文章通过对比不同级别的分词方法,如char level、word level以及sub word level等,指出了各自的优缺点及适用场景。

    🕒2 min read
      Byte Pair EncodingBPEchar-levelword-levelsub-word leveltext processing
  • LLM 分布式训练技术
    LLM 分布式训练技术
    Arrow right

    本文介绍了LLM分布式训练技术,包括单机训练的瓶颈、三种主要的并行方式(数据并行、模型/流水线/层间并行和张量/层内并行),以及去中心化架构下的通讯原语和加速策略。还讨论了NVIDIA Megatron和Microsoft DeepSpeed在工业实现中的应用,特别是DeepSpeed提供的参数冗余消除能力。

    🕒1 min read
      LLM分布式训练数据并行模型并行张量并行MegatronDeepSpeed