Tag: AI

BatchNorm和Dropout在训练和测试的区别

·802·2 分钟
本文探讨了BatchNorm和Dropout在训练和测试阶段的区别,并解释了它们各自的作用。BatchNorm通过滑动平均计算全局均值和方差,用于加快数值稳定性和加速训练过程。同时,它保留这些参数至测试阶段以供使用。Dropout则在训练过程中对神经元输出进行随机冻结,减少过拟合,并在测试时将输出结果放缩1-r倍,保证激活函数输入的稳定。文章还指出Dropout的本质是Bagging思想,通过随机选择不同的神经元来降低模型的方差。...

DIN模型

·2158·5 分钟
本文介绍了DIN模型,它通过注意力机制来衡量用户历史中每个物品与目标物品的相关性。文章详细阐述了DIN的原理、注意力机制的计算方法、初始化模型参数的策略以及解决冷启动和数据不平衡问题的方法。...

常见PEFT方法原理

·2356·5 分钟
本文讨论了在大规模通用数据集上训练的LLM模型微调方法,特别是如何通过适配器(Adapter)、前缀(Prefix)和引导词(Prompt)等方法来适应特定任务。特别介绍了微软提出的低秩自适应(LoRA)技术,该方法通过分解更新量矩阵为两个低秩矩阵的乘积来减少运算量,并取得了与全量微调相近的效果。文章还探讨了LoRA的具体原理、应用以及面临的挑战。...

邮箱保活程序-通义千问

·3542·8 分钟
本文介绍了通过通义千问实现邮箱保活程序的方法,并给出了详细的代码示例。...

KV Cache

·1582·4 分钟
本文介绍了LLM(大型语言模型)中KV Cache的重要性,它是加速运算的关键步骤,确保在对话过程中输入文本增长时,推理速度不受影响。文章详细解释了Self Attention机制和因果掩码的概念,并讨论了KV Cache如何通过缓存计算结果来优化预测过程。...