百家乐平台永久网址【363050.com】

百家乐

百家乐

联系我们

电话:363050.com

手机:363050.com

邮箱:363050.com

地址:百家乐平台永久网址【363050.com】


百家乐在线注册网址

百家乐通义实验室、北大发布ZeroSearch无需搜索即可激活LLM检索能力

  • 作者:小编
  • 发布时间:2025-06-01 02:35:50
  • 点击:

  百家乐是全球玩家最喜欢和最吸引人的娱乐之一(永久网址:363050.com)本站提供百家乐游戏,在线百家乐,百家乐在线注册网址,百家乐平台推荐,百家乐试玩平台,百家乐官网链接,百家乐app下载,欢迎注册发财本文作者来自通义实验室和北京大学,第一作者是北京大学智能学院博士生孙浩,主要研究方向是RAG和Agent,在 NeurIPS、ACL、EMNLP 等国际顶级会议上发表多篇论文,师从张岩教授。该工作在阿里巴巴通义实验室RAG团队实习期间完成。

  信息检索能力对提升大语言模型 (LLMs) 的推理表现至关重要,近期研究尝试引入强化学习 (RL) 框架激活 LLMs 主动搜集信息的能力,但现有方法在训练过程中面临两大核心挑战:

  文档质量不可控:真实搜索引擎返回内容不可控,训练过程易受噪声干扰。搜索 API 成本高昂:Rollout 阶段频繁调用搜索 API,训练成本极高。

  为了解决这些问题,我们提出了 ZeroSearch 框架 —— 无需真实搜索,直接用大语言模型模拟搜索引擎,并引入课程学习策略,在显著降低 88% 成本的同时,在多项任务上性能超过依赖真实搜索引擎的方法。

  传统训练方法需要在 Rollout 阶段频繁与真实搜索引擎交互,产生大量 API 开销,而大语言模型在预训练阶段积累了丰富的世界知识,具备根据 query 返回相关信息的能力,因此 ZeroSearch 创新性地引入大语言模型作为模拟搜索引擎(Simulation LLM),无需真实搜索,即可为策略模型生成检索文档,大幅降低了训练成本:

  为了避免策略模型记住由 Simulation LLM 生成的文档,我们对文档进行了损失屏蔽(Loss Masking),仅对策略模型自己生成的 token 进行损失计算。

  ZeroSearch 无需初始监督微调(SFT),直接对预训练语言模型进行强化学习训练,通过采用结构化的训练模板,引导模型在每一轮交互中划分思维步骤:

  对已有信息分析,明确下一步行动提炼搜索 query总结推理过程,形成最终答案

  这种结构化模板提升了模型推理路径的清晰度和可解释性,格式化的输出便于提取最终答案进行奖励计算。

  直接通过 Prompt 指导 LLM 生成的模拟检索内容,往往与真实搜索引擎返回的检索内容风格差异较大,且质量不稳定。为了解决这些问题,我们采用了模拟微调策略,具体包含以下三步:

  轨迹采集:从策略模型与真实搜索引擎的交互中采集 Query-Document 对质量评估:利用 Qwen-Max 作为评审,对文档进行有用性判别监督微调:构建高质量训练集,进行轻量级微调 (2 万条数据,7B 模型训练时间仅需 30 分钟)

  此外我们还在 Prompt 内引入原始问题的正确答案,从而扩充 Simulation LLM 的知识边界。

  经过微调的 Simulation LLM 可通过调整在 Prompt 中添加 Useful/Noisy 指令,灵活控制生成文档的质量。基于这一能力,我们进一步引入了课程学习策略,通过逐步降低文档质量,循序渐进地提升训练难度,从而更有效地激发模型的推理能力。

  为实现训练难度的平滑过渡,我们设计了一个指数函数来控制 Noisy 文档的生成概率:

  训练初期:训练难度上升缓慢,模型能够稳步学习基本的输出格式以及任务逻辑。训练后期,训练难度快速上升,从而促使模型不断强化其推理能力与鲁棒性。

  该由易到难的训练过程能够持续激发策略模型的推理能力,有效提升强化学习训练的稳定性与最终表现。

  在实验中,我们发现使用 Exact Match 作为奖励会诱导模型生成冗长内容以 “碰中” 答案,出现 Reward Hacking 问题,我们改用 F1 Score 作为奖励指标,更加关注输出的准确性与简洁性,有效抑制了冗余答案的产生。此外,我们发现模型在训练中即便不显式监督输出格式,也能生成结构规范的回答,因此没有引入格式奖励。

  ZeroSearch 超越所有基线方法,该性能优势在域内以及域外数据集上均得以体现,展示了我们方法的鲁棒性。ZeroSearch 的表现优于依赖真实搜索引擎的方法 Search-R1,凸显其在大规模强化学习中替代真实搜索引擎的潜力。ZeroSearch 展现了强大的泛化能力,随着模型参数量增加,其性能进一步提升,体现了良好的扩展性。

  ZeroSearch 与真实搜索的奖励趋势相似,随着训练的推进,ZeroSearch 和 Search-R1 的奖励分数都稳步上升。ZeroSearch 的奖励提升更加显著,虽然在训练初期 ZeroSearch 的奖励值低于 Search-R1,但它最终实现了超越,并且波动更小。ZeroSearch 在基础模型和指令微调模型中都展现了良好的泛化能力,在这两类模型下,ZeroSearch 的奖励表现都持续提升。

  相对于Base Model,不同类型的 Simulation LLM 均可有效激发策略模型的搜索能力。基于 Prompt 的方法效果较差,主要由于其生成的文档风格与真实搜索引擎差异较大,且质量不稳定,难以支撑稳定训练。经过微调的 Simulation LLM,即便仅有 3B 参数量,也能显著提升策略模型性能;随着模型规模扩大,性能进一步提升:SFT-7B 可达到与 Google 相当的效果,SFT-14B 甚至实现超越 Google 的性能。

  模型已适应数据集的跳数分布,交互策略逐步固化,在课程学习设定下,模型需提升推理能力以应对更低质量文档,从而维持较高奖励水平。

  实验结果表明,Curriculum(由易到难)训练策略显著优于 Random(随机难度)训练策略,验证了该训练范式在激发模型推理能力方面的有效性。与 Random 类似,真实搜索引擎在训练过程中难以控制文档难度,导致模型缺乏系统性的能力提升路径,从而限制了推理能力的持续进化。

  本文提出了 ZeroSearch,一种无需真实搜索引擎即可激活大语言模型搜索能力的强化学习框架,我们使用轻量级的监督微调将 LLM 转变为一个检索模块,在 RL 训练阶段,我们基于课程学习逐步降低检索模型生成文档的质量,通过不断提升检索难度,逐步激发策略模型推理能力。

  大量实验表明,ZeroSearch 使用 3B 参数规模的模型作为检索模块时即可激发语言模型检索能力,7B 模型的检索性能已接近线B 模型甚至实现了超越。此外,ZeroSearch 对基础模型和指令微调模型均具有良好的泛化能力,并可兼容多种 RL 算法,具备极强的适应性与可扩展性。

  05月21日,加拿大蒙特利尔上演第八届枫花雪乐中国春晚,澳门棋牌网址游戏,赢三张游戏哪个好玩,188bet金宝搏赌场网站,十大赌场直营

  05月21日,山西将迎持续降雪天气 或影响春运返程,葡京体育投注登录,欧冠预测冠军,开云注册,bwin备用网址

  05月21日,中外专家热议新质生产力:人工智能提供关键驱动力,AG捕鱼放水时间和技巧,抢庄牛牛娱乐棋牌,澳门金沙城娱乐手机版,二八杠好友

  05月21日暴雨红色预警 海南三亚发布停课通知电子游戏放水规律永利体育买球威尼斯人网页手机版澳门金沙评级

  05月21日长沙迎2024年首场降雪 北极狐、企鹅外出“撒欢”九州备用188终身网站CQ9游戏最大的AG线日久违了!时隔六年,国羽男队夺回汤姆斯杯网投体育平台合集下载智博体育官方网站威尼斯国际真人彩票体验金平台……

  05月21日,广西武宣警方:一男子多次造谣诋毁吴艳妮被行拘,凯发app官网登录,菲律宾亚星娱乐地址,网上百家娱乐平台,澳门新永利皇宫地址

  05月21日,“我把家乡唱给你听·海峡情”音乐颁奖盛典举行:在悠扬的歌声里,唱响海峡深情,九游会GJ网址,每天优惠多一点,体育平台推荐,欧洲体育手机版

  05月21日贵州金沙:高粱红 秋收忙kb88凯时手机网页版登录入口沙巴体育线上AG娱乐下载金沙线上赌博注册

  05月21日,得物App获多项表彰,以高品质保障促进新质生产力发展,环亚旗舰厅官网入口,cmd体育平cmd体育平台,腾龙国际是正规平台吗,188金宝傅体育

  05月21日,国家二级保护动物凤头鸊鷉冬日来河北滦平“安家”,凯发娱乐官方20,太阳集团2018登录网址,沙巴比分网,AG线日,总台记者专访丨秘鲁部长会议主席:秘中关系正处于历史最佳时期,拉斯维加斯之夜Vegas Hustle,外站精料,888真人客户端下载,真钱电子手游

  05月21日冲锋在防洪一线的“高铁卫士”bwin快速开户bbin体育波音馆澳门游戏网站登录万博man官网手机版

  05月21日“高水平对外开放与国际潮商”报告会在汕头举行网上真钱电玩澳门威斯尼真人手机版下载彩票网官网快三苹果手机赢钱的斗地主

  05月21日“赞米亚”学说是什么,为什么反对它?|“正道”专栏之②澳门蒲京赌场手机版日博体育开户视讯平台新东方在线网站日博体育如何

  媒体:让游客成为纣王不是好主意,新State of play发布会官宣中国15所高校赛艇选手逐浪松花江2022版仲博平台最新版本下载188篮球比分直播jdb财神捕鱼红包1000倍下载GPK老虎PP电子试玩

  狐妖小红娘月红篇豆瓣5.6分,上海申花赛前发布会取消尺素金声丨进博会三个数字背后的“和合共生”之道PG电子游戏线欧冠决赛时间优德体育手机客户端体球

  硬刚到底?博主坚称小米龙晶陶瓷是玻璃,群星马克龙宣布2月访问乌克兰 法将向乌交付40枚远程导弹申博登录大发娱乐官网电子竞技菠菜app97娱乐棋牌

  杨幂新片《火锅》票房扑街,开创我军网络信息体系建设新局面代表通道丨扎西江村:民族团结像阳光和空气一样融入每一个人血脉当中乐动体育网页官网万博网页登录沙巴体育体育平台亚娱体育平台官网

  THE9来了,我发尘白禁区的角色,你来评价海南与俄罗斯“萌娃”在黑龙江共赴冰雪之约365体育平台官网博狗网站8828彩票平台登录亚星手机网

  浙江高考录取全部结束,2023年中国GDP超126万亿 增长5.2%王毅:中国已成为动荡世界中的稳定力量、合作力量、进步力量凯时免费试玩18新利app云顶娱乐体验官方下载贝博网投