淄博网站建设 华夏国际网站建设如何更改背景图片

张小明 2025/12/26 17:37:41
淄博网站建设 华夏国际,网站建设如何更改背景图片,亚马逊雨林属于哪个国家的,那片海dede织梦源码企业网络公司工作室网站模板源码模板php本文详解大模型训练的预训练-对齐核心框架#xff1a;预训练使用海量数据奠定模型基础#xff0c;决定能力上限#xff1b;对齐则通过少量高质量资料微调#xff0c;调整模型表达风格和行为模式。对齐如同画龙点睛#xff0c;能显著提升模型表现预训练-对齐核心框架预训练使用海量数据奠定模型基础决定能力上限对齐则通过少量高质量资料微调调整模型表达风格和行为模式。对齐如同画龙点睛能显著提升模型表现但难以教授新知识更像是在已有能力上添加约束。预训练资料的品质和多样性至关重要而对齐存在知识边界和预训练烙印等局限理解这对大模型学习至关重要。一、模型训练的核心框架预训练与对齐今天我们要分享的是“预训练-对齐”(Pretrain-Alignment) 这一模式的强大之处与及极限。大家知道今天在训练语言模型时基本上就是分成三个阶段预训练 (Pre-training)通过大量网络爬到的资料让机器有基本的文字接龙的能力。监督式微调 (Supervised Fine-tuning, SFT)也叫指令微调 (Instruction Fine-tuning)就是告诉模型看到某个输入的时候某个样子的输出才是对的。基于人类回馈的强化学习 (RLHF)由使用者来告诉机器什么样的回答是比较好的什么样的回答是比较不好的。在第二阶段跟第三阶段会引入人类。在第二阶段需要人类提供正确的答案在第三阶段需要人类提供回馈。我们把需要人类参与的阶段叫做对齐 (Alignment)。在这里我们所谓的对齐指的是第二阶段的监督式微调加上第三阶段的 RLHF。对齐指的是我们想要达成的一个目标我们希望机器的输出是与人类的价值观和需求对齐的。这个步骤很多时候又叫做微调 (Fine-tune)所以等一下课程里面讲到微调的时候指的也就是对齐这个步骤。在第二阶段和第三阶段只是根据预训练已经得到的参数进行微调。二、对齐的“画龙点睛”之效少量高质量资料的力量有人可能会想说预训练根本没什么用预训练完的模型根本就没有办法使用。举例来说如果你拿一个只有做预训练、没有做对齐的模型比如LLaMA-2-7b-base问它“what is machine learning”它虽然知道基本概念但讲着讲着就会不断重复停不下来。而对齐确实大幅改变了模型的行为。LLaMA-2-7b-chat是做过对齐的版本你问它同样的问题它会好好地、条列式地回答你看起来非常像模像样。在数据上对齐前后的影响也非常大。以 LLaMA-3-70B 在 MT-Bench 上的表现为例仅预训练的 Base 模型得分是 2.7而经过对齐的 Instruct 模型得分高达 8.63这是天与地的差别。看到这里你可能会觉得对齐是 MVPBase 模型就是“躺赢狗”。但实际上相对于预训练对齐这个步骤做的事情非常少。LLaMA 2 的技术报告里告诉你他们在做 SFT 的时候只用了 27,540 笔资料而已。另一篇论文《Less is More for Alignment》中作者只用了一千笔精挑细选的资料来微调模型就让模型表现得非常好。所以对齐就像是“画龙点睛”。龙的主体是预训练画出来的但光画龙的身体是没有用的得把眼睛点上去龙才会飞起来。这个点睛的步骤就是对齐。但是点的位置也很重要意味着对齐的资料虽然不用多但它的品质很重要。什么样的对齐资料才是好的呢今天仍然非常难说清楚。有一篇论文发现用来自“弱智吧”的 240 笔问题比用数千笔“知乎”的问答资料微调模型效果更好。作者猜测也许是“弱智吧”的问题特别丰富多样。但一个更重要的细节是它的答案是用 GPT-4 生成的。所以实际上这相当于对 GPT-4 做了知识蒸馏 (Knowledge Distillation)把 GPT-4 当作你的老师也许这才是模型进步飞速的原因。曾经有很长一段时间大家不知道怎么做对齐后来有人就想说ChatGPT 那么强我们来对它做逆向工程跟 ChatGPT 学习这就是知识蒸馏。很多知名的模型尤其是那些炫耀只用了一点点钱就训练起来的模型通常就是指他们去对 ChatGPT 或其他很强的模型做对齐模型就可以瞬间得到能力的暴增。清理资料也是必要的。老师模型不一定能够得到好的答案所以你会挑品质比较高的资料。有趣的是一篇名为《Long is more for alignment》的论文发现从 Alpaca 的五万多笔资料里只挑选答案长度最长的那一千笔资料来训练得到的模型竟然可以打败其他用更复杂方法筛选资料的模型。我们实验室甚至发现那些用来提问的“问题”根本就不重要。我们做了一个实验从网络上随便选一个句子把后半段截掉只把前半段丢给 GPT-4 让他自己做文字接龙把后半段接出来然后让我们的模型学习“前半段 - GPT-4 的续写”。你可能会想这输入甚至不是一个问题有用吗非常有帮助。我们用这种莫名其妙的资料去微调 Mistral 的 Base 模型得到的分数比 Mistral 官方自己微调出来的 Instruct 模型还要更高。为什么对齐前后虽然模型的答案好像很不一样但对齐却这么容易呢因为模型实际的行为也许差异没有这么大。一篇论文分析发现对齐前后绝大多数词汇Token的输出机率是没有变化的Unshifted。只有极少数词汇的机率有很大变化Shifted而这些词汇通常是一些连接词或者打招呼的词汇以及很关键的结束符号。模型做文字接龙时一步错步步错中间有个地方错了接下来接的东西就会非常不一样。所以虽然答案看起来差很多但模型的行为并没有非常大的差距。这也解释了为什么自对齐 (Self-Alignment)这个技术是可能成功的。这个技术让没有对齐的模型自己生成多个答案再自己评分然后用好的答案来强化学习。如果你了解从没有对齐变成有对齐的变化其实没有那么大就比较容易想象为什么这个方法可行。三、真正的基石预训练决定模型能力的上限我们知道对齐并没有对预训练的模型造成非常大的变化所以今天之所以对齐以后模型能力很强是因为预训练非常的有效。那么要怎么样才能够做出有效的预训练模型呢一篇名为《Physics of Language Models》的系列论文提供了一个思考方向。他们发现假设在你的预训练资料里面每个人只出现一次模型会有巨大的误解。比如它会认为“高松灯是宇秋女子学员高一学生、是天文社的一员”这些东西合起来才是一个实体才是“MyGO 的主唱”。但是如果今天同一个人的资讯有各种不同的介绍方式模型就知道原来“高松灯”是一个实体他有不同的性质。我们发现同样的资料同一个人有很多不同的介绍方式其实对于预训练是一件重要的事情。而且不需要所有的角色都有多种版本的介绍只要训练资料里面有一部分角色有多种版本的介绍就足以让模型学到更泛用的知识强化模型理解的能力。现在一个好的预训练模型都需要大量的资料。LLaMA 3 用了 15T (兆) 个 Token。这个资料量多到已经有人担心会不会网络上所有可以取得的资料已经要被用尽了。有篇论文估测大概在 2028 到 2030 年我们就会用尽网络上所有能够训练的 Token。不过你可能会想我上哪里去找 15T 的资料呢我告诉你Hugging Face 已经释出了一个叫做 FineWeb 的资料集正好有 15T所以现在资料是唾手可得的你差的只是算力而已。资料的品质也是非常重要的。微软一篇名为《Textbooks Are All You Need》的论文发现他们用 GPT-3.5 生成的、类似教科书风格的高品质资料来预训练模型效果远好于网络上爬取的大量代码。这告诉我们只要你的资料像是教科书在预训练的时候就很有用。另外直接从网络上爬到的资料往往没有办法直接用需要经过多个步骤进行清理。一篇名为 Refined the Web 的论文就展示了他们打造模型时复杂的资料清理过程其中好几个步骤都是在去除重复的文章。为什么去除重复的文章很重要呢因为已经有文献发现在固定的算力下你应该要尽量让你的模型看不同的资料而不是让他反复看一样的内容。我们的实验室在语音模型上也得到了同样的结论模型看过越多不同的声音它的表现就越好。四、对齐的极限与预训练的“烙印”我们已经看到对齐主要就是改变了模型书写的风格。既然如此那对齐这件事情会不会非常有极限呢早在 2023 年年初就已经有人发现那些 fine-tune 过后的模型表面上看起来很强但实际上他输出的答案看起来像模像样内容却是错的。所以看起来对齐是有它的极限的。到底什么事情是可以通过对齐影响模型什么是学得会的什么是学不会的呢一篇论文将知识分成四类模型本来就会的 (Highly known)问对方法就会的 (Maybe known)采样有机会答对的 (Weakly known)和怎么都学不会的 (Unknown)。你直觉可能会觉得应该拿 Unknown 的资料训练模型才有用但实验结果跟人类正常的直觉是相反的。研究发现当模型开始学习这些 Unknown 资料的时候就是它在开发集上坏掉的时候了。看起来让模型学这些他本来就有可能知道的东西是有帮助的但当你让模型去学那些他不知道的东西的时候你反而在破坏模型的能力。其中最有帮助的是那些“Maybe known”的资料就是模型本来就知道只是你没有用很懂它的问法去问。这样说起来其实 RLHF 是一个很烂的好方法。在做 RLHF 的时候每一笔拿来训练的资料都是模型自己的答案。所以 RLHF 的目标并不是叫模型会它本来完全不会的东西而是激发模型本来的潜力。他有时候做得好有时候做得不好做得好就鼓励他做得不好就惩罚他但是你不会硬逼他做一个他本来就做不到的事情。预训练可能会留下一些后遗症。一篇论文指出一个现象GPT-4 你叫他做 ROT13 的解码字母移动 13 个位置他可以做到但你叫他做 ROT8 的解码他就没办法答对。作者去分析资料集发现ROT13 相关的资料在网络上出现的特别多正好对应到 GPT-4 的能力。所以资料的分布对模型造成了一定程度的影响。这也意味着模型看到不该看的东西以后你很难真的抹除模型的记忆。网络上有很多不该看的东西你以为对齐可以让模型避免讲出这些话但也许这些知识都藏在模型的心中。一篇论文就分析发现对齐确实可以让模型表面上比较不会说脏话但这些不该讲的词汇仍然存在模型的参数里面。他们发现与脏话有关的参数神经元在对齐后不见了吗没有它们还在模型的心里。真正改变的是激发这些参数的通路被抑制了。他只是不去激发这些参数而已这些参数仍然在模型的心里。这就是为什么你常常会看到这样的一个梗图模型在网络上得到大量的资讯他就像是一个怪物一样对齐只是给他戴了一个面具让他看起来人模人样但是你不知道实际上在他的参数里面在他的心里他在想什么样的事情。总结来说Pretrain-Alignment 非常强大预训练时模型就已经很厉害对齐只是画龙点睛。但它也有很大的极限对齐往往只是强化模型本来就会的能力难以让模型学会新的技能。那么怎么透过微调教语言模型新的东西怎么做有效的微调我们就下回分解。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】为什么要学习大模型我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年人才缺口已超百万凸显培养不足。随着AI技术飞速发展预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。大模型入门到实战全套学习大礼包1、大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。 正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通2、大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。3、AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。4、大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。5、大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。适用人群第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

百度网站名称和网址广州网站建设工作室招聘

第一章:Open-AutoGLM的诞生背景与战略意义随着大模型技术在自然语言处理、代码生成和多模态理解等领域的迅猛发展,通用语言模型(GLM)的应用边界不断拓展。然而,封闭的训练流程、高昂的算力成本以及缺乏透明度的推理机制…

张小明 2025/12/26 17:37:38 网站建设

网站设计规划高中信息技术wordpress添加地图吗

3分钟学会BongoCat快捷键定制:让你的操作效率翻倍 【免费下载链接】BongoCat 让呆萌可爱的 Bongo Cat 陪伴你的键盘敲击与鼠标操作,每一次输入都充满趣味与活力! 项目地址: https://gitcode.com/gh_mirrors/bong/BongoCat 还在为每次都…

张小明 2025/12/26 17:37:04 网站建设

北京网站设计公司wyhseo让别人做网站的话术

FaceFusion与Notion AI协作:构建智能内容创作系统在短视频日更、直播带货成常态的今天,内容创作者正面临一场效率革命。不是谁拍得多就赢,而是谁能用最少的时间产出最“像人”的高质量内容。传统流程里,写文案、找演员、拍摄剪辑、…

张小明 2025/12/26 17:36:30 网站建设

海淀网站建设枣庄服务范围 网站建设公司

电脑QQ截图独立版:零基础快速上手全功能指南 【免费下载链接】QQScreenShot 电脑QQ截图工具提取版,支持文字提取、图片识别、截长图、qq录屏。默认截图文件名为ScreenShot日期 项目地址: https://gitcode.com/gh_mirrors/qq/QQScreenShot 还在为截图操作繁琐…

张小明 2025/12/26 17:35:23 网站建设

wordpress从入门到精通pdf佛山推广优化公司

错误原因一般是: E: Unable to locate package是APT包管理工具中常见的错误信息,表示系统无法找到请求安装的软件包。这可能由多种原因导致,包括软件源配置错误、网络问题或软件包名称拼写错误等。 为什么会报错: 当使用APT包管…

张小明 2025/12/26 17:34:48 网站建设

学校能建设网站吗黑镜主题1.0wordpress

AI写论文平台排名:9个实测,开题报告论文降重都好用工具对比排名表格工具名称核心功能突出优势Aibiye降AIGC率适配高校规则,AI痕迹弱化Aicheck论文降重速度快,保留专业术语Askpaper论文降重逻辑完整性好秘塔写作猫智能降重结合语法…

张小明 2025/12/26 17:34:14 网站建设