安徽 电子政务网站定制做网站 英语

张小明 2025/12/29 15:08:56
安徽 电子政务网站定制,做网站 英语,网站推广怎么做的,凡科快图在线制作免费官网下载JarvisEvo团队 投稿量子位 | 公众号 QbitAI一句话让照片变大片#xff0c;比专业软件简单、比AI修图更可控#xff01;腾讯混元携手厦门大学推出JarvisEvo——一个统一的图像编辑智能体模拟人类专家设计师#xff0c;通过迭代编辑、视觉感知、自我评估和自我反思来“p图”。…JarvisEvo团队 投稿量子位 | 公众号 QbitAI一句话让照片变大片比专业软件简单、比AI修图更可控腾讯混元携手厦门大学推出JarvisEvo——一个统一的图像编辑智能体模拟人类专家设计师通过迭代编辑、视觉感知、自我评估和自我反思来“p图”。“像专家一样思考像工匠一样打磨”。JarvisEvo不仅能用Lightroom修图更能“看见”修图后的变化并自我评判好坏从而实现无需外部奖励的自我进化 。下面就来了解一下详细情况吧自我评估和修正研究背景与动机近年来基于指令的图像编辑模型虽然取得了显著进展但在追求“专业级”修图体验时仍面临两大核心挑战指令幻觉 (Instruction Hallucination)现有的文本思维链 (Text-only CoT) 存在信息瓶颈。模型在推理过程中“看不见”中间的修图结果仅凭文本“脑补”假设进行下一步操作的视觉结果容易导致事实性错误无法确保每一步都符合用户意图。奖励黑客 (Reward Hacking)在强化学习进行偏好对齐的过程中策略模型Policy是动态更新的而奖励模型Reward Model通常是静态的。这导致策略模型容易“钻空子”通过欺骗奖励函数获取高分而非真正提升修图质量和自我评估能力 。为了解决上述问题团队推出了JarvisEvo.iMCoT交互式多模态思维链打破了传统“盲修”的局限。JarvisEvo 引入了iMCoT (Interleaved Multimodal Chain-of-Thought)机制。与纯文本推理不同JarvisEvo在每一步编辑后都会生成新的图像并基于视觉反馈进行下一步推理。模型在“生成文本假设 - 执行工具 - 观察视觉结果 - 反思决策”的循环中工作确保每一步操作都精准落地 。SEPO协同编辑-评估策略优化这是JarvisEvo 实现“自进化”的引擎。团队提出了SEPO (Synergistic Editor-Evaluator Policy Optimization)框架包含两个协同进化的优化环 编辑者优化环 (Loop 1)模型利用自我评估分数作为内在奖励不再依赖容易被 hack 的外部奖励模型。评估者优化环 (Loop 2)利用人类标注数据持续校准模型的评估能力防止模型在自我打分时“自欺欺人”。在线反思与自我修正JarvisEvo具备从错误中学习的能力。在训练过程中系统会自动将低分轨迹与高分轨迹进行对比生成反思数据 (Reflection Data)。模型通过分析“为什么修错了”以及“如何修正”习得强大的自我纠错能力。像人类一样“边看边修”JarvisEvo系统架构传统的文本思维链Text-only CoT通常是“盲修”即一次性生成所有步骤。JarvisEvo则采用了 交互式多模态思维链 (iMCoT)模拟了人类设计师“观察-操作-检查”的闭环工作流。整个推理过程分为四个核心步骤1、视觉感知与规划 (PerceptionPlanning)模型首先分析原图I与用户指令Q生成初始的修图思路。2、多步工具执行 (Step-by-Step Execution)模型生成交错的文本推理内容C和工具调用指令T。工具沙盒 (Sandbox)指令被发送到外部的Adobe Lightroom环境中执行生成中间态的编辑图像O。视觉反馈 (Visual Feedback)这一点至关重要。模型会“看”到刚刚修好的图基于最新的视觉状态决定下一步是继续调整还是修正错误 。3、自我评估 (Self-Evaluation)修图结束后模型会对最终结果Ot的美学质量和指令符合度进行自我打分S。4、自我反思 (Self-Reflection)如果结果不理想模型会触发反思机制分析偏差原因并尝试纠正。三阶段的训练框架为了打造这样一个全能 Agent团队设计了一套严谨的三阶段训练流水线Stage 1: 冷启动监督微调 (Cold-Start SFT)数据量150K标注样本110K编辑数据40K评估数据。目标教会模型“基本功”。这包括掌握多模态推理的语法、能够交替生成文本与图像内容、学会根据视觉线索选择正确的工具以及初步建立审美评估能力。Stage 2: SEPO强化学习 (The Evolution)数据量20K标准指令数据10K编辑10K评估。核心机制引入协同编辑-评估策略优化 (SEPO)。在此阶段模型脱离了对标准答案的模仿开始自主探索。双优化驱动 此阶段让模型从“会用工具”进化为“精通修图”。 编辑者优化通过自我打分Self-Reward优化修图策略并利用SLM (Selective Loss Masking) 防止奖励作弊。评估者优化利用人类评分数据校准模型的审美眼光确保它能做一个公正的裁判。Stage 3: 反思微调 (Reflection Fine-Tuning)数据量5K少量在线生成的反思样本。目标这是JarvisEvo具备“自我纠错”能力的关键。通过学习如何在错误路径上进行反思和修正模型在处理复杂指令时的鲁棒性大幅提升。SEPO协同编辑-评估策略优化在传统的强化学习RLHF中模型通常依赖一个静态的“奖励模型”来打分。但这存在一个致命缺陷随着策略模型越来越强它会学会“钻空子”Reward Hacking即通过生成某些特定的、诡异的模式来骗取高分而不是真正提升自己的编辑能力。为了解决这个问题JarvisEvo提出了SEPO框架。它的核心思想是让模型既做“运动员”也做“裁判员”并通过两个并行的优化环让这两种能力同步提升互相制约。Loop 1编辑者优化环 (Editor Policy Optimization)是让模型学会如何更好地使用工具来修出好图。自我奖励 (Self-Reward) 机制JarvisEvo不再依赖外部黑盒模型打分而是利用自身的Self-evaluation能力。在生成修图轨迹后模型会根据最终图像的美学质量和指令遵循度自己给自己打分。GRPO优化目标采用群相对策略优化 (Group Relative Policy Optimization)。对于同一个输入模型生成多条修图轨迹通过比较这些轨迹的“胜率”Pairwise Preference Reward来进行更新而非单纯依赖绝对分数这使得训练更加稳定。选择性损失掩码 (SLM)是其中的关键技术。这是一个防止“作弊”的机制。如果没有SLM模型可能会发现“只要我最后生成的自我评分文本是满分loss就会变小”。为了防止这种“信息泄露”在计算编辑器的梯度时强制掩盖掉自我评分部分的token。这样逼迫模型只能通过切实提升前面的推理质量 (Chain-of-Thought) 和 工具使用准确性 (Tool Use) 来间接获得高分而不是直接生成高分文本。评估者优化环 (Evaluator Policy Optimization)确保这个“裁判员”是公正、客观且符合人类审美的。可验证的强化学习 (Verifiable RL)虽然Loop 1依赖自我打分但如果裁判本身审美跑偏了怎么办Loop 2专门解决这个问题。我们使用包含人类专家标注 (Human-Annotated) 的数据集来训练模型的评估能力。分数对齐奖励 (Score Alignment Reward)在这个循环中奖励取决于模型打分与人类专家打分的接近程度。作用这个循环不断校准模型的审美标准防止其在Loop 1中陷入“自欺欺人”的自我陶醉确保自我奖励信号的含金量。这两个循环是交替进行的形成了一种“左右互搏”的进化效应打破了静态奖励模型的桎梏实现了一种闭环的、可持续的自我能力提升。在线反思数据生成机制 (On-Policy Reflection)JarvisEvo如何学会“从错误中学习”团队在Stage 2的训练过程中植入了一个自动化的数据生成捕捉契机当模型生成了一个更好的修图轨迹Trajectory0得分s0且该得分显著高于之前的某次尝试Trajectory3得分s3时触发反思生成。归因分析调用商业大模型如Gemini-2.5-Pro作为“导师”输入源图、错误的修图结果O3、正确的修图结果O0以及用户指令。生成反思链“导师”会生成一段详细的分析文本R解释为什么O3失败了例如“白平衡参数推得太高导致偏色”并指出正确的做法。构建样本将这段包含“错误尝试 - 深刻反思 - 正确修正”的完整轨迹存入数据集Dataset_reft用于第三阶段的微调。ArtEdit 数据集为了支撑上述训练团队构建了ArtEdit——一个包含170K样本的双语中/英专业修图数据集。包含人像、风光、建筑、静物、夜景等10大类、37个子类的专业摄影场景。通过A2L (Agent-to-Lightroom) 协议无缝集成了Adobe Lightroom中的200个修图工具。ArtEdit-Lr (120K)专注于修图任务包含完整的iMCoT轨迹推理思考、工具参数、中间图。ArtEdit-Eval (50K)专注于审美评估包含人类专家对图像质量和指令遵循度的打分1-5分。实验结果在ArtEdit-Bench评测中L1和L2指标上相比商业级模型Nano-Banana提升了44.96%最大限度保留了原图细节 。在SC语义一致性和PQ感知质量指标上全面领先平均提升18.95% 。并且其打分与人类主观偏好的相关性SRCC 0.7243超越了GPT-4o (Gemini-2.5-flash) 和专门的IQA模型。视觉效果上对比其他模型JarvisEvo处理后的图像更贴合用户指令在风格营造、细节呈现等方面表现突出。在包含 200 个样本的人类主观评测中JarvisEvo在与Nano-Banana的对决中取得了49%的胜率远超对手Nano Banana的28%证明了其修图结果更符合人类审美 。这种“生成器-内部批评家”的协同进化范式具有强大的通用性未来有望从修图拓展至数学推理、代码生成及长程规划等领域。同时团队将致力于突破当前步数限制探索超过10步的复杂长程推理任务。感兴趣的朋友可戳下方链接了解更多细节项目主页: https://jarvisevo.vercel.app/论文全文: https://arxiv.org/pdf/2511.23002Githubhttps://github.com/LYL1015/JarvisEvoHuggingface Daily Paperhttps://huggingface.co/papers/2511.23002
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

旅游网站推广方案wordpress标签自动

BetterGI原神自动化终极指南:AI视觉技术重新定义游戏辅助体验 【免费下载链接】better-genshin-impact 🍨BetterGI 更好的原神 - 自动拾取 | 自动剧情 | 全自动钓鱼(AI) | 全自动七圣召唤 | 自动伐木 | 自动派遣 | 一键强化 - UI Automation Testing To…

张小明 2025/12/28 8:25:31 网站建设

定制开发响应式网站软件工程项目

近日,经过多轮严格审核与资质评定,凯云联创(北京)科技有限公司正式加入北京软件和信息服务业协会(BSIAC),成为该协会第十一届理事会会员单位,并同步荣获“软件企业”与“软件产品”双…

张小明 2025/12/28 8:24:58 网站建设

个体工商户可以做网站备案吗百度收录入口在哪里

你是否曾为基因组关联分析中的假阳性结果困扰?面对复杂的群体结构,传统分析方法往往力不从心。GEMMA(Genome-wide Efficient Mixed Model Association)作为一款专为大规模基因组数据设计的分析工具,通过混合模型方法为…

张小明 2025/12/28 8:24:23 网站建设

机械加工网站平台乌市高新区建设局网站

x-ui配置升级指南:从旧版到新版的完美数据迁移 【免费下载链接】x-ui 项目地址: https://gitcode.com/gh_mirrors/xui/x-ui 引言:为什么配置升级如此重要? 在x-ui面板的版本迭代过程中,配置数据的顺利迁移是确保服务连续…

张小明 2025/12/28 8:23:15 网站建设

做资金盘 互助盘的网站移动端模板

B站Hi-Res音频下载终极指南:5步高效获取高品质音轨 【免费下载链接】BilibiliDown (GUI-多平台支持) B站 哔哩哔哩 视频下载器。支持稍后再看、收藏夹、UP主视频批量下载|Bilibili Video Downloader 😳 项目地址: https://gitcode.com/gh_mirrors/bi/B…

张小明 2025/12/28 8:22:42 网站建设