html5开发手机网站网站建设用英语-中卫市网站建设公司-Seo优化

html5开发手机网站,网站建设用英语,wordpress素才,wordpress网頁1. 为什么要研究优化器算法#xff1f;它的关联问题#xff1a;训练为什么要调参#xff0c;调的是什么参#xff1f;如果就这个问题去问各种大语言模型#xff0c;它们能给出一堆的理由。但就博主而言#xff0c;答案只有一个#xff1a;干掉调参#xff0c;解放生产力…1. 为什么要研究优化器算法它的关联问题训练为什么要调参调的是什么参如果就这个问题去问各种大语言模型它们能给出一堆的理由。但就博主而言答案只有一个干掉调参解放生产力榨干算力。说到底就一个字穷。在多年的研发生涯里对调参这个事深恶痛绝为什么辛辛苦苦架构出来的模型一训练就崩训练收敛慢到龟速这严重影响了开发进度并且增加了很多不可抗力的消耗。我相信有很多业内同行都有这种痛训练了很久效果依旧很差泛化能力也不行然后就开始苦恼为什么自己没有足够的钱足够的算力。明明自己很好的思路戛然而止退而求其次。早年间博主经常半夜醒来看训练的损失曲线生怕训崩。就算没有训崩自己花费了大量时间精力却没有很好的回报。一次又一次是很打击信心的。在付出了大量时间和人民币之后博主终于从泥潭里爬出来了时光荏苒这个困扰我九年的问题画上句号了。那大语言模型是怎么回答这个问题的。核心就一句话没有新优化器下一代模型根本训不起来。从理论上看它是在解决一个尚未被完全理解的复杂高维优化问题充满挑战与机遇。解决基础性训练难题——让模型能学从工程上看它是降低AI研发成本、推动技术普及的关键杠杆。追求极致的效率与效益——让模型快学且省学从性能上看它是提升模型最终准确性、鲁棒性和泛化能力的决定性因素。提升模型的终极性能——让模型学好最终达到拓展AI的技术边界——让不可能成为可能当然就这个问题大家可以自行去追问各家的大语言模型给出的结论大同小异。2. 那博主为什么要写这篇博文最基本的还是希望抛砖引玉希望能有更多的同行在力大砖飞烧钱的当下不要放弃底层算法的研究。同时为更多的深度学习小白提供一个新的视角学习并应用深度学习温故而知新。3. 那什么是优化器算法优化器算法是驱动机器学习模型学习的引擎。它的核心任务是在训练过程中根据损失函数计算出的梯度即方向以某种策略更新模型的参数从而最小化损失函数。可以将训练过程想象成在复杂地形中寻找最低点损失函数代表地形的高度。模型参数代表我们在地形中的位置。梯度代表我们脚下最陡峭的下坡方向。优化器就是那个决定往哪个方向走、走多大步、以及是否要考虑之前的惯性的导航策略。Adam (Adaptive Moment Estimation)思想目前最流行和默认的优化器之一。它结合了Momentum和RMSProp的优点。它计算梯度的一阶矩均值提供动量和二阶矩未中心化的方差用于自适应调整学习率。然后对这两个矩进行偏差校正使其在训练初期不那么偏向于0。优点通常收敛速度快。对超参数的选择相对鲁棒默认参数通常就能工作得很好。能处理噪声和稀疏梯度。如果把Adam的一阶矩和二阶矩去掉它就蜕变为SGD。而随机梯度下降(朴素SGD)是一种优化算法通过随机选取单个样本来近似梯度从而迭代更新模型参数收敛至最小值。换句话说朴素SGD是一个没有应用任何先验补充的野蛮人较于Adam的平滑学习而言它就像一只无头苍蝇到处乱撞也不知道该撞多少次才能收敛至最小值。4. Adam相较于朴素SGD它做了哪些改进引入动量缓冲m也就是一阶矩指数加权平滑梯度它积累了历史梯度的方向趋势。使得朴素SGD的动荡趋于平稳平滑。引入自适应步长v也就是二阶矩指数加权平均的平方它积累了历史梯度平方的值趋势。最终以 grad m / sqrt(v) 作为目标梯度进行更新。对于动量一阶矩基本没啥好说的就是求历史平均梯度使得训练平稳。核心还是自适应步长v对于频繁更新、梯度大的参数其二阶矩估计值大因此实际更新步长会被调小除以一个大数避免步子太大而越过最优点。对于不频繁更新、梯度小的参数则给予更大的相对步长鼓励其更新。所以Adam能加速较于朴素SGD训练收敛二阶矩功不可没。原本故事到这里就接近完结了。在真实的场景下我们发现Adam还是不够好。但它的普及使得深度学习遍地开花。虽然仍是需要调参但是不像之前那么玄学了。当然在一些场景下例如GAN的训练仍然有所争议。Adam is no better than normalized SGD: Dissecting how adaptivity improves GAN performance | OpenReview在博主的实测下此文提及的nSGDA确实比朴素SGD稳健一些。class nSGDA(torch.optim.Optimizer):def __init__(self,params, # Model parameterslr: Union[float, torch.Tensor] 4e-5, # Learning rate (default: 4e-5)# Coefficients used for computing running averages of gradient (default: 0.9)momentum: float 0.9,# eps (float, optional): term added to the denominator to improve numerical stability (default: 1e-8)eps: float 1e-8,weight_decay: float 1e-2, # Weight decay (L2 penalty) (default:1e-2)):if lr 0.0:raise ValueError(Invalid learning rate: {}.format(lr))if not 0.0 eps:raise ValueError(Invalid epsilon value: {}.format(eps))if momentum 0.0 or momentum 1.0:raise ValueError(Invalid momentum value: {}.format(momentum))if weight_decay 0.0:raise ValueError(Invalid weight decay: {}.format(weight_decay))defaults dict(lrlr,momentummomentum,weight_decayweight_decay,epseps)super().__init__(params, defaults)def step(self, closureNone):rPerforms a single optimization step.Arguments:closure: A closure that reevaluates the model and returns the loss.loss Noneif closure is not None:loss closure()for group in self.param_groups:momentum group[momentum]lr group[lr]weight_decay group[weight_decay]eps group[eps]one_minus_momentum 1.0 - momentumfor p in group[params]:if p.grad is None:continueif p.grad.is_sparse:raise RuntimeError(current optimizer does not support sparse gradients)state self.state[p]# State initializationif len(state) 0:state[m] torch.zeros_like(p.grad, memory_formattorch.preserve_format)m state[m]bias_correction 1.0 - momentum ** state[step]if weight_decay ! 0:p.grad p.grad.add(p.data, alphaweight_decay)m.mul_(momentum).add_(p.grad, alphaone_minus_momentum)step_size lr / torch.norm(m.div(bias_correction)).add_(eps).mul_(bias_correction)p.data.add_(m, alpha-step_size)return loss当你采用Adam调参训练总是跑崩或者无法收敛这个时候稍微尝试一下nSGDA也未尝不可。而Adam二阶矩的存在也实实在在埋了一个雷 : “过冲”问题本来“对于不频繁更新、梯度小的参数则给予更大的相对步长鼓励其更新。”是个很好的想法但是有一个特例那就是训练到后期梯度理论上也会越来越小这个时候也不应该鼓励其更新。有可能一更新跑飞了这就是后来为什么存在早停Early Stopping策略的根由之一。如果继续训练有可能从次优解里爬出来但是更多实际情况是若这里就是最优解由于激进地更新反而会越跑越远。理想的情况肯定是训练到最优解。最后停在最优解上或者在最优解周围转圈。但这里有个悖论你凭什么认为这里是最优解而不是次优解这个标准怎么界定判断。而且由于数据的稀缺性我们希望模型在这种情况下还能有更强大的泛化能力即使它没见过的数据也能适配到位。也就是说理想上我们既希望能求到解的思路规律最好覆盖更多的求解路径而不是一条最短的求解路径。绕路没问题只要这个绕路方式能提升泛化能力。[1207.0580v1] Improving neural networks by preventing co-adaptation of feature detectors这就是后来dropout盛行的原因之一因为简单有效。让一部分神经元失活也能求到解。但是dropout这个技术思路慎用用得不好反而会起反作用。路漫漫其修远兮一起努力吧5. 后Adam家族时代百家争鸣由于这个话题展开真的可以写一本书了。所以本文的核心是速览博主带着大家看一看这后Adam的各种巧思。相关的算法实现可以参考以下项目仓库PyTorch:https://github.com/kozistr/pytorch_optimizerTensorFlow/Keras:https://github.com/NoteDance/optimizers本文没有提及的其他算法自行移步查阅。5.1 砍Adam的显存由于一阶矩m和二阶矩v都需要历史平滑所以Adam至少要占用两倍的可训练模型参数。这样一来只要模型参数一大那训练的时候 12 3 至少要存储三份权重。显存很快就不够用了。所以针对这个问题我们开始磨刀霍霍向二阶矩v。5.1.1 18年的Adafactor[1804.04235v1] Adafactor: Adaptive Learning Rates with Sublinear Memory Cost社区比较知名的实现transformers/src/transformers/optimization.py at main · huggingface/transformers · GitHub5.1.2 19年的SM3[1901.11150] Memory-Efficient Adaptive Optimization官方实现https://github.com/google-research/google-research/tree/master/sm3Adafactor和SM3都是分解近似的做法。SM3的实现较为复杂所以基本上没有被推广开来。所以很长一段时间都是Adafactor是主流。但是Adafactor的实现稍微有些问题。问题函数staticmethoddef _approx_sq_grad(exp_avg_sq_row, exp_avg_sq_col):# copy from fairseqs adafactor implementation:# https://github.com/huggingface/transformers/blob/8395f14de6068012787d83989c3627c3df6a252b/src/transformers/optimization.py#L505r_factor (exp_avg_sq_row / exp_avg_sq_row.mean(dim-1, keepdimTrue)).rsqrt_().unsqueeze(-1)c_factor exp_avg_sq_col.unsqueeze(-2).rsqrt()return torch.mul(r_factor, c_factor)_approx_sq_grad 这个实现丢失了不少精度。博主认为比较合理的实现是把sqrt放到最后计算精度会高些。staticmethoddef _approx_sq_grad(row_exp_avg_sq, col_exp_avg_sq):row_factor row_exp_avg_sq.unsqueeze(-1)row_factor row_factor.mean(dim-2, keepdimTrue).div(row_factor)col_factor col_exp_avg_sq.unsqueeze(-2)return row_factor.div(col_factor).sqrt_()5.1.3 22年的Amos[2210.11693]Amos: An Adam-style Optimizer with Adaptive Weight Decay towards Model-Oriented Scale在Adafactor和SM3之后很长一段时间砍优化器显存占用这个事情似乎被遗忘了。直到Amos的出现它进一步砍掉了v的显存占用直接采用了平方均值美其名曰信息共享。显存不够用又想保住精度可以考虑采用Amos当然它较之Adam还有不少改进点。5.1.4 24年损失作为学习率的奇思妙想利用损失值loss本身来动态调整优化器的学习率以此作为替代二阶v实现更快的收敛。非常简单的思路: “损失越大学习率越大损失越小学习率越小。”AdaLo: Adaptive learning rate optimizer with loss for classification由于论文没有给出开源实现也没有搜到第三方实现。参考论文的思想实现了该思路代码实现不完全对应论文内容仅供参考学习。# mypy: allow-untyped-defsfrom typing import Tuple, Unionimport torchfrom torch import GradScalerclass AdaLo(torch.optim.Optimizer):rAdaLo: Adaptive Learning Rate Optimizer with Loss for Classificationpaper: https://www.sciencedirect.com/science/article/abs/pii/S0020025524015214code: https://github.com/cpuimage/AdaLousage:for inputs, labels in dataloader:def closure(inpinputs, lbllabels):optimizer.zero_grad()loss criterion(model(inp), lbl)loss.backward()return lossoptimizer.step(closure)Args:params: Iterable of parameters to optimize or dicts definingparameter groups.lr: Learning rate (not used for step size calculation due to the adaptive learning rate mechanism; retained solely for API consistency)betas: (beta1, beta2) coefficients for gradient momentum and loss-EMA smoothing respectivelyweight_decay: L2 weight decaykappa: loss scaling factoreps: float. term added to the denominator to improve numerical stability.mode: control learning rate adaptation mode (adversarial or compliant)adversarial: decrease learning rate when loss increases (conservative strategy)compliant: increase learning rate when loss increases (aggressive strategy)def __init__(self,params,lr: Union[float, torch.Tensor] 1e-8,betas: Tuple[float, float] (0.9, 0.999),weight_decay: float 1e-2,kappa: float 3.0,eps: float 1e-8,mode: str adversarial):if lr 0.0:raise ValueError(Invalid learning rate: {}.format(lr))if betas[0] 0.0 or betas[0] 1.0:raise ValueError(Invalid beta1 value: {}.format(betas[0]))if betas[1] 0.0 or betas[1] 1.0:raise ValueError(Invalid beta2 value: {}.format(betas[1]))if weight_decay 0.0:raise ValueError(Invalid weight decay: {}.format(weight_decay))defaults dict(lrlr, beta1betas[0], beta2betas[1], weight_decayweight_decay, kappakappa,modemode, epseps)super(AdaLo, self).__init__(params, defaults)def step(self, closureNone, scaler: GradScaler None, lossNone):already_updated_by_scaler Falseif closure is not None:with torch.enable_grad():loss closure()if scaler is not None:scaler.scale(loss).backward()scaler.unscale_(self)scaler.step(self, lossloss)scaler.update()already_updated_by_scaler Trueif not already_updated_by_scaler:for group in self.param_groups:beta1 group[beta1]beta2 group[beta2]weight_decay group[weight_decay]kappa group[kappa]mode group[mode]eps group[eps]for p in group[params]:if p.grad is None:continueif p.grad.is_sparse:raise RuntimeError(current optimizer does not support sparse gradients)state self.state[p]if len(state) 0:state[m] torch.zeros_like(p.data)state[loss_ema] torch.tensor(0.0, devicep.device, dtypep.dtype)m state[m]loss_ema state[loss_ema]m.lerp_(p.grad, 1.0 - beta1)if loss is not None:scaled_loss torch.log1p(loss.detach())transformed_loss (torch.tanh(-scaled_loss * 0.5) 1.0) * 0.5loss_ema.lerp_(transformed_loss, 1.0 - beta2)if mode adversarial:lr_t loss_ema.div(kappa).clamp_min_(eps)else:lr_t (1.0 - loss_ema).div(kappa).clamp_min_(eps)if weight_decay ! 0:p.data.mul_(1.0 - lr_t * weight_decay)p.data.sub_(m * lr_t)return loss在一些场景下实测也是很稳健lr v loss 不得不夸一下论文原作者的奇思妙想。PyTorch官方使用amp混合精度的时候GradScaler.step里有这么一句。if closure in kwargs:raise RuntimeError(Closure use is not currently supported if GradScaler is enabled.)也就是说闭包和amp混合当前不支持一起用。在AdaLo代码仓库里博主演示怎么魔改实现闭包和amp可以同时使用感兴趣的可以阅读具体实现。在实测过程中发现 “损失越大学习率越大损失越小学习率越小。”这个做法在一些场景下比较激进所以增加了一个新的参数为mode可切换学习率适配模式默认设为保守模式。分别对应- adversarial (保守模式)“损失越大学习率越小损失越小学习率越大。”- compliant (激进模式) “损失越大学习率越大损失越小学习率越小。”5.1.5 穷到极致什么都能接受如果显存极度匮乏手头还挺紧能训练比什么都重要的话。[2412.08894] SMMF: Square-Matricized Momentum Factorization for Memory-Efficient Optimization采用非负矩阵分解(NNMF)将梯度权重转换为最接近正方形的矩阵分解为行列两个向量。虽然是有损的压缩解压操作但在一些特定的场景能减少可观的内存占用在内存效率和优化性能之间取得相对平衡。核心算法如下:1234567891011121314151617181920torch.no_grad()def _unnmf(self, row_col: tuple) - torch.Tensor:return torch.outer(row_col[0], row_col[1])torch.no_grad()def _nnmf(self, matrix: torch.Tensor, out) - tuple:shape matrix.shapetorch.sum(matrix, dim1, outout[0])torch.sum(matrix, dim0, outout[1])if shape[0] shape[1]:scale out[0].sum()if scale ! 0:torch.div(out[0], scale, outout[0])else:scale out[1].sum()if scale ! 0:torch.div(out[1], scale, outout[1])return out5.2 Adam二阶矩v为0的问题导致v为0有很多原因在模型训练的不同阶段由于噪声也好精度也好会直接或者间接导致v为0。前面提到 grad m / sqrt(v)早期Adam论文里的解决方案就是直接给v加上一个epsilon一般设为1e-8避免除以0。而后续经过不少团队的实践发现这么做有点鲁莽。然后就有人开始针对这个问题进行修改。但是林林总总都是把epsilon移来移去例如梯度平方后就加上epsilon再进行指数加权平均。也有采用softplus抑制分母过小的做法:[1908.00700] Calibrating the Adaptive Learning Rate to Improve Convergence of ADAMgrad m / softplus(sqrt(v))这个问题一直到了2024年有新的进展。[2407.05872v2] Scaling Exponents Across Parameterizations and Optimizers方法很简单删除epsilon采用atan2。grad atan2(m, sqrt(v))从数值稳定的角度来说atan2确实是稳定了许多而且基本规避了一些特殊情况下训练跑崩导致损失为nan的情况。Adam的betas默认参数是(0.9,0.999) ,也有人觉得这里也存在调参适配问题。删除epsilon一般都可以理解但把动量参数也干掉做成自适应的胆大妄为也是挺绝的。[2510.04988v1] Adaptive Memory Momentum via a Model-Based Framework for Deep Learning Optimization不管成不成功效果几何就这魄力值得我在此一提。5.3 Adam的梯度长尾问题这个很好理解由于一阶矩m和二阶矩v都采用了指数平均在不同程度上也是导致梯度长尾的诱因之一。因为求平均值这个事就跟奥运比赛打分一样只用均值很不公平。去掉一个最高分去掉一个最低分然后再算平均相对合理一些。求损失均值的时候一样存在博主曾经设想过也许求损失的中位数是一个可行的做法但也有一定的局限性。没有经过严格验证的求损失中位数思路的实现仅供参考def soft_median(losses, temperatureNone):if temperature is None:temperature max(0.1, 0.5 * losses.std())if losses.numel() % 2 0:losses torch.cat([losses, losses.new_zeros(1)])x_sorted, _ torch.sort(losses)n_loss losses.shape[0]median_idx (n_loss - 1) * 0.5idxs torch.arange(n_loss, devicelosses.device, dtypelosses.dtype)weights torch.softmax(-torch.abs(idxs - median_idx) / temperature, dim0)return torch.dot(weights, x_sorted)同样的梯度在训练过程中变化很大一些长尾样本带来的贡献就会被淹没掉。带来的后果不是过拟合就是泛化差能拿到次优解那是属于幸运儿了。这个方向的研究多也不多因为很多长尾问题基本上不会考虑在优化器里解决一般会采用损失加权惩罚的思路来缓解。这篇论文可以帮助进一步理解梯度长尾问题。[2201.05938v2] GradTail: Learning Long-Tailed Data Using Gradient-based Sample Weighting当然它不是一个主流的方案和思路主流的方案更多的是采用元学习之类的做法局限性也比较大。那该如何直观地洞察梯度长尾呢采用TensorBoard对参数和梯度进行可视化查看其直方图非常直观。示例如下:参数直方图:20251007-133453从参数权重的分布来看蓝色左边一直在拖尾红色的左边尾巴开始右移聚拢。从参数来看可以看到一些趋势但不够直观。我们再来看其对应的梯度直方图:20251007-133459这就一目了然左边蓝色明显存在梯度长尾而右边红色的梯度长尾逐渐开始消失且红色更趋向于正态分布。我们再看另一组图:Figure_2 Figure_1这是vae潜空间0-9十个数字的聚类图。相关vae代码示例见https://github.com/cpuimage/AdaLo图二整体聚合接近一个圆圈而图一接近椭圆。这两种情况是图二还是图一的模型权重泛化能力更胜一筹呢。答案是图二它的kl散度损失更低。真实情境下长尾也可以是噪声或标签错误所以拟合长尾也不是完全是一件好事情。一切以实测效果为准长尾梯度只是一个仅供参考项。博主一直认为如果可以优雅解决长尾问题那是新一轮的曙光。5.4 Adam的过拟合问题由于Adam本身的机制问题训练损失下降极快 → 模型迅速进入插值interpolation区域 → 参数范数容易膨胀 → 边界更复杂 → 泛化差。当然长尾问题也是它导致过拟合的原因之一。比较知名且使用广泛的方案是l2正则化即权重衰减。Adam 进化为 AdamW也就是现在主流的优化器算法它思路也是非常简单粗暴在每次更新时从权重中减去一个固定的比例weight * weight_decay是正则也是先验惩罚。[1711.05101v3] Decoupled Weight Decay Regularization权重衰减是一个很好的思路但它带来了一个新的问题。衰减量设为多少才是合适的也就是说惩罚力度该如何界定。衰减过大学习收敛缓慢衰减过小没有起到作用。随后Scheduled (Stable) Weight Decay也被提出但是应用不广鲜为人知。[2011.11152] On the Overlooked Pitfalls of Weight Decay and How to Mitigate Them: A Gradient-Norm Perspective它的思路也很简单通过汇总整个模型的参数信息按照参数权重占比估算出每一层的衰减权重。而有另一篇论文从另一个新颖的角度提出了一个方案。[2103.06583] Preprint: Norm Loss: An efficient yet effective regularization method for deep neural networks它的思路是在每次更新时从权重中减去一个单元范数权重可以近似看做是为权重衰减提供了范数先验。而后将正则化从“加性惩罚”转变为“约束优化” Constrained Parameter Regularization (CPR)[2311.09058] Improving Deep Learning Optimization through Constrained Parameter RegularizationCPR 作为替代权重衰减的替代方案就是为了权重衰减的调参困局但请慎用。为了改善权重衰减带来的收敛变慢问题Cautious Weight Decay 随即也被提出。[2510.12402v1] Cautious Weight Decay思路比较简单伪代码一眼就能看懂。123grad m / (torch.sqrt(v) epsilon)m (p * grad).sign_().clamp_min_(0)cautious_weight_decay weight_decay * m它的灵感多半来自此[2411.16085v3] Cautious Optimizers: Improving Training with One Line of Codec_optim_overview至于m要不要改写成 m / (m.mean()eps)用在不同优化器内部性质不太一样如果是Adam理论上可以不做这个操作但如果用在SGD里为了稳定性可以考虑 m / (m.mean()eps) 。实在不确定就实测。思路出发点都是考虑方向的一致性。一个作用在参数参数与更新梯度的方向一个作用在梯度当前梯度与平滑梯度的方向。真的是万变不离其宗但凡能作用在梯度的理论上也能作用在参数。5.5 学习率热身与梯度裁剪在说到Adam过拟合的时候我们很容易就发现了一个问题。在不同的模型架构训练的每个阶段每层权重的值域是不一样的而且这个值域随着训练的增加也一直在变化。由于这个核心问题的存在训练早期梯度的波动就会很大这个时候通常就需要学习率调参或者在模型内部加入归一化层目的尽可能快地把每一层的值域确立下来。由此就引发出来学习率热身以及梯度裁剪相关的思考。学习率热身相关的资料和论文也有很多这里不展开细讲。学习率规划热身的基本逻辑都是早期用极其小的学习率进行预热训练 → 中期慢慢地增大学习率 → 后期再固定学习率或者慢慢减少学习率虽然很傻但是确实有效。21年的时候谷歌为了把归一化层删掉就提出了自适应梯度裁剪方案。[2102.06171] High-Performance Large-Scale Image Recognition Without Normalization

html5开发手机网站网站建设用英语

网站的安全建设或者解决方案新绛做网站

深圳做网站推荐哪家公司好深圳网站建设制作设计平台

windows server 2003 怎么给网站做域名解析网站运营流程

杭州网站设计我选柚v米科技做circrna的网站

义乌外贸公司建站wordpress免签约支付

网站模块制作平台运营工作内容

html5开发手机网站网站建设 用英语

网站的安全建设或者解决方案新绛做网站

深圳做网站推荐哪家公司好深圳网站建设制作设计平台

windows server 2003 怎么给网站做域名解析网站运营流程

杭州网站设计我选柚v米科技做circrna的网站

义乌外贸公司建站wordpress免签约支付

网站模块制作平台运营工作内容

html5开发手机网站网站建设用英语