假维斯の博客

Tag: AI

BatchNorm和Dropout在训练和测试的区别

10/22/2022 ·约 898 字·2 分钟

本文探讨了BatchNorm和Dropout在训练和测试阶段的区别，并解释了它们各自的作用。BatchNorm通过滑动平均计算全局均值和方差，用于加快数值稳定性和加速训练过程。同时，它保留这些参数至测试阶段以供使用。Dropout则在训练过程中对神经元输出进行随机冻结，减少过拟合，并在测试时将输出结果放缩1-r倍，保证激活函数输入的稳定。文章还指出Dropout的本质是Bagging思想，通过随机选择不同的神经元来降低模型的方差。...

DIN模型

1/16/2025 ·约 2278 字·5 分钟

本文介绍了DIN模型，它通过注意力机制来衡量用户历史中每个物品与目标物品的相关性。文章详细阐述了DIN的原理、注意力机制的计算方法、初始化模型参数的策略以及解决冷启动和数据不平衡问题的方法。...

常见PEFT方法原理

12/13/2023 ·约 2662 字·6 分钟

数学深度学习 AI

本文讨论了在大规模通用数据集上训练的LLM模型微调方法，特别是如何通过适配器（Adapter）、前缀（Prefix）和引导词（Prompt）等方法来适应特定任务。特别介绍了微软提出的低秩自适应（LoRA）技术，该方法通过分解更新量矩阵为两个低秩矩阵的乘积来减少运算量，并取得了与全量微调相近的效果。文章还探讨了LoRA的具体原理、应用以及面临的挑战。...

邮箱保活程序-通义千问

8/16/2024 ·约 3839 字·8 分钟

Python AI

本文介绍了通过通义千问实现邮箱保活程序的方法，并给出了详细的代码示例。...

KV Cache

8/29/2024 ·约 1720 字·4 分钟

本文介绍了LLM（大型语言模型）中KV Cache的重要性，它是加速运算的关键步骤，确保在对话过程中输入文本增长时，推理速度不受影响。文章详细解释了Self Attention机制和因果掩码的概念，并讨论了KV Cache如何通过缓存计算结果来优化预测过程。...