文章

荣耀20刷机—–从吃灰到变砖

11/30/2023 ·约 2711 字·6 分钟

AI摘要: 本文记录了作者尝试将荣耀20手机从鸿蒙系统降级到Magic系统并最终导致设备变砖的整个过程。文章详细描述了刷机前的准备工作、使用的工具和软件，以及在降级过程中遇到的具体问题和挑战。尽管作者投入了大量的时间和金钱，但最终由于操作失误导致手机无法正常使用。...

荣耀20刷机Magic系统Octoplus工具USBRedirectorClient

手写多头注意力(MHA)的实现

5/14/2023 ·约 2921 字·6 分钟

深度学习

AI摘要: 本文介绍了手写多头注意力（MHA）的实现。文章首先定义了MultiHeadAttention类，该类用于处理多维输入数据并生成输出。在实现过程中，作者详细描述了如何通过线性变换、Scaled Dot-Product Attention和Softmax操作来构建注意力机制。实验结果表明，使用einsum表示法可以简化代码编写，提高可读性。...

MultiHeadAttention多头注意力einsum线性变换Scaled Dot-Product AttentionSoftmax

Adam优化方法显存占用情况

12/12/2022 ·约 1972 字·5 分钟

深度学习

AI摘要: Adam优化方法显存占用情况。一般来说，Adam用到的信息更多，所以需要的内存占用更大。曾有个实验，Optimizer选择SGD的时候，Batch Size能选择20，但是换成Adam时候，Batch Size只能选择2。Adam的自适应体现之处在于指数平滑，缓解了梯度方向剧变，使收敛路径更平滑一点。...

Adam显存占用SGDBatch Size指数平滑动量

拟牛顿法推导

11/12/2022 ·约 5102 字·11 分钟

数学深度学习

AI摘要: 本文介绍了拟牛顿法的两种主要形式：BFGS法和L-BFGS法。BFGS法利用曲率信息来预处理梯度，从而避免了传统方法中对Hessian矩阵进行完整计算的需要。L-BFGS法进一步优化了这种预处理，通过仅保存最近m次迭代的曲率信息来计算Hessian矩阵的近似值，显著减少了内存使用和计算量。...

拟牛顿法BFGS法L-BFGS法曲率信息Hessian矩阵存储限制

AI摘要: 本文探讨了BatchNorm和Dropout在训练和测试阶段的区别，并解释了它们各自的作用。BatchNorm通过滑动平均计算全局均值和方差，用于加快数值稳定性和加速训练过程。同时，它保留这些参数至测试阶段以供使用。Dropout则在训练过程中对神经元输出进行随机冻结，减少过拟合，并在测试时将输出结果放缩1-r倍，保证激活函数输入的稳定。文章还指出Dropout的本质是Bagging思想，通过随机选择不同的神经元来降低模型的方差。...

BatchNormDropout训练测试方差Bagging

荣耀20刷机—–从吃灰到变砖

手写多头注意力(MHA)的实现

Adam优化方法显存占用情况

拟牛顿法推导

BatchNorm和Dropout在训练和测试的区别