Rpengの博客
Rpengの博客
  • 文章
  • 标签
  • 项目
  • 小工具
  • 关于
文章标签项目小工具关于
搜索

备案号:鄂ICP备2023018808号 🤔

由 Next.js 驱动的小而美的站点

© 2025 Rpeng. All rights reserved.
Tag: AI

BatchNorm和Dropout在训练和测试的区别

10/22/2022 ·约 802 字·2 分钟
AI
本文探讨了BatchNorm和Dropout在训练和测试阶段的区别,并解释了它们各自的作用。BatchNorm通过滑动平均计算全局均值和方差,用于加快数值稳定性和加速训练过程。同时,它保留这些参数至测试阶段以供使用。Dropout则在训练过程中对神经元输出进行随机冻结,减少过拟合,并在测试时将输出结果放缩1-r倍,保证激活函数输入的稳定。文章还指出Dropout的本质是Bagging思想,通过随机选择不同的神经元来降低模型的方差。...

DIN模型

1/16/2025 ·约 2158 字·5 分钟
AI
本文介绍了DIN模型,它通过注意力机制来衡量用户历史中每个物品与目标物品的相关性。文章详细阐述了DIN的原理、注意力机制的计算方法、初始化模型参数的策略以及解决冷启动和数据不平衡问题的方法。...

常见PEFT方法原理

12/13/2023 ·约 2356 字·5 分钟
数学深度学习AI
本文讨论了在大规模通用数据集上训练的LLM模型微调方法,特别是如何通过适配器(Adapter)、前缀(Prefix)和引导词(Prompt)等方法来适应特定任务。特别介绍了微软提出的低秩自适应(LoRA)技术,该方法通过分解更新量矩阵为两个低秩矩阵的乘积来减少运算量,并取得了与全量微调相近的效果。文章还探讨了LoRA的具体原理、应用以及面临的挑战。...

邮箱保活程序-通义千问

8/16/2024 ·约 3542 字·8 分钟
PythonAI
本文介绍了通过通义千问实现邮箱保活程序的方法,并给出了详细的代码示例。...

KV Cache

8/29/2024 ·约 1582 字·4 分钟
AI
本文介绍了LLM(大型语言模型)中KV Cache的重要性,它是加速运算的关键步骤,确保在对话过程中输入文本增长时,推理速度不受影响。文章详细解释了Self Attention机制和因果掩码的概念,并讨论了KV Cache如何通过缓存计算结果来优化预测过程。...