888集团

法国空乘2023无删减版百度云Cursor焦点成员圆桌：用强化学习训练编码超等模子 2万字全文·附视频

2026-06-08 13:25:41 泉源：程锋欣

字号：默认大超大 | 打印 |

【城主说】两天前Windsurf被Anthropic背刺了一次，，，，，，马上就要被禁其Claude模子API的挪用，，，，，，得益的显然就是竞争敌手Cursor。。。。且Cursor之前已经独享了Claude4.0的API挪用，，，，，，抛开商业竞争，，，，，，从使用者角度，，，，，，Windsurf的用户是很有可能迁徙到Cursor的。。。。回归到Cursor自己，，，，，，这两天宣布了正式版1.0。。。。显然这是一个重大的里程碑，，，，，，本次访谈是Cursor官方团队深入探讨了将强化学习（RL）应用于代码天生的重大性与前沿希望。。。。对话涵盖了编码领域强化学习的奇异性、奖励机制设计的挑战、高级工具与长上下文窗口的作用、新型注重力架构与智能体影象的实现，，，，，，以及构建高效RL基础设施和未来生长偏向等焦点议题。。。。团队一致以为，，，，，，乐成的要害在于连系高质量的真实天下反响信号、高效的工具使用、更长的上下文明确能力以及能够摊销盘算本钱的智能体设计。。。。（原文未见成员名字，，，，，，且用ABCD指代） ? 未来的编码智能体将能够处置惩罚更长的输入和输出序列，，，，，，并能通过代码库专业化来复用知识，，，，，，实现更高效、更精准的代码天生与修改。。。。主持人: 对话的初始起点是强化学习(RL)。。。。一个有趣的问题是，，，，，，对编码举行强化学习与对其他更容易、更可验证的领域举行强化学习有什么差别？？？？无论是数学，，，，，，照旧像写作或其他更有危害的领域。。。。编码模子的差别之处是什么？？？？成员A: 嗯，，，，，，其中一点是，，，，，，编码的行动空间要大得多。。。。以是若是我们思量数学，，，，，，推理在数学方面效果很好，，，，，，由于最终的谜底很是简短。。。。因此，，，，，，推理有助于提供大宗的行动以得出谜底。。。。而编码，，，，，，某种水平上，，，，，，推理已经包括在谜底中，，，，，，对吧？？？？成员B: 是的，，，，，，并且为了获得谜底，，，，，，你必需挪用多个工具。。。。因此，，，，，，它不是像天生推理token、天生谜底、获得奖励这样，，，，，，而是看起来像天生一些token、挪用一些工具、从这些工具获得响应，，，，，，并且你可能会迭代多次。。。。以是强化学习（RL），，，，，，强化学习的形式看起来有点差别，，，，，，由于现在你必需履历这种多办法的工具挪用历程，，，，，，并在此之上举行优化。。。。成员C: 对我们来说，，，，，，强化学习特殊有趣，，，，，，由于在收到模子完效果果后，，，，，，我们并不总是有步伐确定它是否真正解决了用户的问题，，，，，，或者做了用户想要的事情。。。。你知道，，，，，，若是你有一个带有标准谜底的数学问题或者一个编码问题，，，，，，那么你可以测试它是否获得了准确的谜底。。。。但我们希望在用户并不总是告诉我们它是否有用的情形下举行强化学习。。。。成员D: 你以为在写作这样的领域会爆发什么？？？？你以为我们基础不会在那里使用强化学习，，，，，，而只是希望基础模子通过预训练变得足够好吗？？？？你以为强化学习在那里刷新事物保存一条路径吗？？？？成员C: 现在在模子上举行的后训练往往使它们以一种很是生硬和正式的方法写作。。。。但我我不以为那是模子的固有局限。。。。我以为那只是它们被训练成要做的。。。。成员A: 是啊，，，，，，为什么不可训练模子来展望下一章节呢？？？？虽然可以，，，，，，你可以改变学习动态，，，，，，让它最先展望整个序列，，，，，，而不是展望下一个token。。。。给定书的目今章节，，，，，，模子应该实验展望书的整个下一章节，，，，，，有点像故事的走向。。。。然后你就可以使用某种相似度怀抱来权衡下一章节与真实章节的相似水平。。。。成员A: 由于我以为这些模子的局限性之一是，，，，，，下一token展望目的并没有完全捕获到我们真正想要的工具，，，，，，即天生一个完整的序列。。。。成员D: 嗯，，，，，，那里有两个问题，，，，，，对吧？？？？有用地来说，，，，，，就像让它在展望下一个token之前破费更多的盘算量。。。。然后尚有，，，，，，它现实上不需要展望确切的下一个词元，，，，，，而是展望类似于下一章的完整序列。。。。成员C: 写作难题之处在于，，，，，，产出好欠好，，，，，，比起编码，，，，，，更多的是一个品味问题。。。。而关于编码，，，，，，你真的只是希望它能正常事情。。。。然而关于写作，，，，，，纵然是履历富厚的人也可能对它是好是坏爆发不同。。。。成员A: 是的，，，，，，可是通过测试有时不起作用，，，，，，由于通过测试没有捕获到模子现实上做了什么来通过测试。。。。以是纵然忽略掉它最先做一些边沿情形来通过测试的“作弊”行为，，，，，，模子也可能最先做一些与使命完全无关的事情，，，，，，但仍然能通过测试。。。。并且那会给他们带来很好的回报，，，，，，对吧？？？？成员C: 关于代码质量，，，，，，或者说你想要的工具，，，，，，有点像是优雅的代码，，，，，，并且长度不凌驾它所需要的长度。。。。就像也许你想要最短的解决计划，，，，，，或者说最小的形貌长度，，，，，，这和数学类似。。。。就像也许最美的证实就是最短的证实。。。。我是说，，，，，，这不完全相同，，，，，，但这内里保存着谁人要素。。。。成员C: 若是你只是想要最短的解决计划。。。。我是说，，，，，，我以为删除代码是很棒的。。。。若是你你能提交一个精简 100 行代码的 PR，，，，，，并且能保存所有功效，，，，，，我会很是兴奋。。。。主持人: 一样平常来说，，，，，，好的奖励机制有哪些？？？？我想这个话题涉及到了这些奖励。。。。我以为我们正在实验许多差别的奖励方法来训练强化学习模子。。。。你最喜欢哪些想法？？？？成员B: 它很是靠近真真相形。。。。就像你说的，，，，，，测试保存一些问题，，，，，，例如，，，，，，若是笼罩率不敷，，，，，，你可能会绕过测试，，，，，，而没有真正解决问题。。。。可是，，，，，，若是有优异的测试，，，，，，那么它就很是靠近于代码是否事情的真实信号。。。。成员B: 可是，，，，，，你知道，，，，，，并非所有的事情都能通过测试来捕获。。。。以是，，，，，，我们可能需要放宽一些条件，，，，，，并思索其他获取奖励的方法。。。。因此，，，，，，一个可能的想法是，，，，，，例如使用一个特征转变的真实差别。。。。并且，，，，，，你知道，，，，，，可能保存多种要领来实现相同的改变。。。。以是，，，，，，它不是一个完善的信号，，，，，，可是你可以潜在地使用这些信息来资助爆发一个验证信号。。。。成员D: 那么奖励和测试的希罕性呢？？？？也许一个弱点是你必需采样大宗的轨迹，，，，，，但只有其中一个通过。。。。你只能获得这种要么1要么0的效果，，，，，，好比，，，，，，是否通过了所有测试？？？？成员B: 是的，，，，，，我的意思是，，，，，，这使得训练在盘算上变得腾贵，，，，，，我想。。。。可是，，，，，，这里有一个很有趣的征象，，，，，，若是你有足够的盘算能力举行大宗的推演，，，，，，你可以通过从每个令牌以一种分支的方法举行推演来获得更希罕的信号，，，，，，但这会变得很是腾贵。。。。以是基本上，，，，，，希罕性只是转化成了一个腾贵的盘算问题。。。。成员D: 嗯，，，，，，有趣的是，，，，，，若是对一个完整的PR（Pull Request，，，，，，拉取请求）举行测试，，，，，，通；；；；；岷苁怯杏，，，，，，但这将很是难题和很是希罕，，，，，，除非你破费大宗的盘算资源，，，，，，对吧？？？？由于很少情形下，，，，，，例如在一个完整的PR中，，，，，，以模子现在的水平，，，，，，它们能够通过所有的测试吗？？？？可是，，，，，，也许你想要的是能够将它剖析成完整PR的更小部分，，，，，，然后在这些部分中举行测试。。。。这可能仅仅是，，，，，，若是你有能力这样做，，，，，，那会是一个严酷的刷新吗？？？？成员B: 是的，，，，，，我以为这很可能是一个刷新。。。。以是我想，，，，，，是的，，，，，，保存这样一个问题：若是使命很是难题，，，，，，模子仅在千分之一的情形下才华准确完成，，，，，，那么这种希罕的奖励就会成为一个真正的问题。。。。若是它的乐成率是，，，，，，好比百分之一，，，，，，或者更高，，，，，，那么你可能就可以处置惩罚它了。。。。可是的，，，，，，以是一旦你把它做到那种像是千分之一的水平，，，，，，或许你需要思量像是进一步剖析，，，，，，或者你以为我们正处在那种完全投入的状态，，，，，，以至于它可能有点过于希罕？？？？成员C: 是的，，，，，，我以为在某些情形下，，，，，，你可能需要通过将它剖析成组成部分，，，，，，并希望每个部分都准确来镌汰希罕性。。。。我的意思是，，，，，，在某种水平上，，，，，，我以为你想要的是一种在功效上等同于真真相形或优异转变的转变。。。。这很精练。。。。问题在于，，，，，，这不但是一个难题的目的，，，，，，并且纵然是评估一个候选解决计划是否知足这个目的，，，，，，也等同于；；；；；侍。。。。以是，，，，，，这很是难题。。。。你现实上做不到。。。。但若是你能做一些靠近它的事情，，，，，，也许那是一个好的偏向。。。。主持人: 最有趣的工具是什么？？？？以是一样平常来说，，，，，，你知道，，，，，，我们已经看到了这种趋势，，，，，，即差别的实验室选择差别的工具集来评估模子的性能。。。。那么O3，，，，，，可以说针对终端举行了很是、很是优化的设计。。。。并且，，，，，，你知道，，，，，，它倾向于喜欢这种很是希奇的模子，，，，，，它只倾向于抓取和设置，，，，，，不使用，，，，，，你知道，，，，，，它不想使用终端之外的任何工具。。。。然后，，，，，，云模子在那里倾向于可能设计你自己的搜索和编辑方法。。。。是否有一些围绕工具的有趣想法，，，，，，你知道，，，，，，人们会使用那些不但仅是古板工具的工具？？？？成员D: 我的意思是，，，，，，我以为你可以做得比焦点工具集好得多。。。。我以为终端有意义的缘故原由是它很是容易，，，，，，对吧？？？？就像你不需要构建一些超等花哨的工具。。。。为了运行你的署理，，，，，，你现实上只是给它一个shell的会见权限。。。。我就可以在那里做所有的事情。。。。简朴性可能是最大的缘故原由，，，，，，对吧？？？？以是一个例子就像是代码检查工具的过失。。。。代码检查工具的过失会给你大宗的信号，，，，，，但很难获得这些信号，，，，，，由于你需要运行一个语言效劳器才华获得它。。。。然后，，，，，，现实上为恣意代码运行一个语言效劳器是相当难题的。。。。成员D: 以是你可以获得诸如代码检查工具之类的工具。。。。我们尚有类似语义搜索的工具。。。。并且我不知道，，，，，，例如，，，，，，我现实上不以为语义搜索可以仅通过静态代码文件为你找到一些工具。。。。它会为你找到类似于使用足够多的跳数后的grep下令能找到的工具。。。。但它会更快地找到。。。。以是这意味着它更自制，，，，，，使用了更少的上下文窗口，，，，，，并且更快。。。。主持人: 好，，，，，，以是也许这就引出了你还想要提高工具质量的看法。。。。我不知道，，，，，，你们怎么看待选择高质量的工具，，，，，，以及怎样权衡工具的精练性，，，，，，好比，，，，，，你可以选择最简朴的形貌方法，，，，，，也就是终端。。。。然后你可以提出这样的问题，，，，，，好比，，，，，，你可能想要为模子提供越来越高质量的工具。。。。成员A: 嗯，，，，，，一种要领是，，，，，，你也可以使用工具来建模模子自身的行为。。。。好比，，，，，，我们知道许多推理模子喜欢大宗推理和太过思索，，，，，，纵然在它们现实上不需要最先推理的情形下也是云云。。。。以是，，，，，，你可以缓解这种情形的一种要领是添加一个思索工具，，，，，，让模子意识到使命需要一些推理。。。。然后它就最先挪用该工具来启用这种推理。。。。成员D: 是的，，，，，，我一直以为推理模子与自主署理工具挪用之间的互动方法很有意思。。。。也许O3有点差别，，，，，，除非我没有过多地使用它。。。。但它总是有点希奇，，，，，，它会在你提交用户新闻之后，，，，，，甚至在它还没有看到任何工具之前就举行思索，，，，，，然后去挪用这些工具。。。。成员D: 不是在使用每个工具之后。。。。我的意思是，，，，，，我以为，，，，，，人们训练这些推理模子的理由是什么，，，，，，以及他们通常是怎样训练的？？？？我以为，，，，，，O1的第一个版本可能只是在角逐，，，，，，好比竞争性编程，，，，，，以及数学问题上举行训练。。。。并且，，，，，，那里的想法是，，，，，，你希望最终能得出一个好的谜底。。。。要么你可以向用户展示这个谜底，，，，，，要么你可以把它展示给认真绘制图形和验证谜底的工具。。。。在此之前，，，，，，你想要破费大宗的tokens举行思索。。。。我想知道关于智能体轨迹，，，，，，你现实上最终要向用户展示或验证的是什么？？？？要么是一些文字，，，，，，可能是用户可以看到的。。。。但许多时间，，，，，，若是你没有问它一个问题，，，，，，你只是要求它做出改变。。。。这就像，，，，，，现实上就是编辑工具，，，，，，对吧，，，，，，当它，，，，，，像，，，，，，编辑一个文件时。。。。以是我想知道当你只是要求模子，，，，，，像，，，，，，编辑代码时，，，，，，你是否真的需要保存单独推理的这个看法。。。。并且，，，，，，就像，，，，，，在训练时，，，，，，它在那些工具挪用中随便做什么。。。。你让它随便做什么，，，，，，而不是限制，，，，，，像，，，，，，某些，，，，，，像，，，，，，好的推理部分。。。。成员C: 另一个，，，，，，像，，，，，，很是有趣的工具，，，，，，我们正在思量的是审查PR（Pull Request）以及代码库中的人们一直在做什么。。。。我的意思是，，，，，，像，，，，，，你可以对这些模子抱有的一个，，，，，，像，，，，，，心理模子是，，，，，，它们是有能力的工程师，，，，，，他们就像，，，，，，总是处于，，，，，，像，，，，，，他们入职的第三天，，，，，，对吧？？？？并且他们获得，，，，，，像，，，，，，两天的，，，，，，像，，，，，，配景信息来，，，，，，像，，，，，，实验并且，，，，，，像，，，，，，尽快地在代码库中进入状态。。。。然后，，，，，，你知道，，，，，，第三天，，，，，，他们被要求做一些事情。。。。并且，，，，，，你知道，，，，，，若是你处于那种情形，，，，，，我以为，，，，，，你知道，，，，，，一个合理的做法将是，，，，，，你花那两天时间试图明确你的同事一直在做什么，，，，，，以及，，，，，，像，，，，，，为什么他们做出他们正在做出的改变，，，，，，以及他们在接触什么代码。。。。并且现在，，，，，，你知道，，，，，，这些模子并没有真正围绕着审查PR和审查人们一直在做什么而构建。。。。它们更倾向于以大块的方法消耗代码并搜索相关的代码，，，，，，这与这些模子的预训练方法很是匹配。。。。并且很显着，，，，，，这仍然是解决计划的主要组成部分。。。。可是，，，，，，能够审查PR（Pull Request，，，，，，拉取请求）的内容对我们来说也很有意思。。。。主持人: 你以为代码和长上下文之间是怎样相互作用的？？？？以是至少在某种希奇的水平上，，，，，，你可以说长上下文很是主要，，，，，，由于若是你只思量将所有内容限制在8k（8192）个token（令牌）以内，，，，，，好比SONET和401以及GPT-4，，，，，，它们最初的工具在某种水平上是等价的。。。。以是你需要比要害上下文长度更大的工具，，，，，，好比你至少需要5万到6万个token。。。。你以为只要一直增添上下文长度，，，，，，就可以改善强化学习（RL）的效果吗？？？？你以为这两者之间是怎样相互作用的？？？？成员C: 我的意思是，，，，，，趋势一直是上下文变得越来越长。。。。注重力机制很是善于使用长上下文，，，，，，可是，，，，，，你也知道，，，，，，价钱也越来越高。。。。在手艺层面，，，，，，我以为长上下文一个很是有趣的偏向是，，，，，，怎样坚持本钱的降低？？？？怎样在多个提醒词中复用缓存的上下文？？？？这与最新的、能力比以往更强的模子尤其相关。。。。可是，，，，，，若是你没有巧妙地缓存和使用上下文，，，，，，总本钱可能会很是高。。。。并且，，，，，，当你最先研究专业的代码库时，，，，，，关于你想要做的事情来说，，，，，，保存着大宗的相关上下文。。。。我以为这在某种水平上对代码来说可能是特殊的，，，，，，由于，，，，，，若是你是ChatGPT，，，，，，或者你是Plot应用，，，，，，在大大都情形下，，，，，，用户带来的上下文并未几。。。。他们有一个问题，，，，，，通常是100个token。。。。因此，，，，，，你主要体贴的是怎样将人类知识的总和压缩成权重，，，，，，然后用它来为问题提供一个好的谜底。。。。你不太体贴怎样获取一百万个token，，，，，，并从中获得可以有用使用的有用信息。。。。由于这并非你的大大都用户所体贴的事情。。。。成员C: 我以为时间越长越好，，，，，，但也会有边际效益递减。。。。动态地检索与盘问相关的令牌这种要领不是我们唯一需要的要领，，，，，，但它也相当不错。。。。因此，，，，，，某种混淆机制，，，，，，例如，，，，，，某种机制可以消耗1亿个令牌，，，，，，但可能，，，，，，你知道，，，，，，从每个令牌中获取的信息更少，，，，，，对吧？？？？并且使用它来获得对代码库的总体明确。。。。可是，，，，，，当你确切地知道你想做什么时，，，，，，它可以记着哪些部分是相关的，，，，，，并刷新对这些部分的影象，，，，，，这可能才是恒久来看最有意义的。。。。主持人: 你们怎样看待所有涌现出来的新架构？？？？你知道，，，，，，有一些趋势，，，，，，它在某种水平上镌汰了，，，，，，你知道，，，，，，保存着正常的滑动窗口注重力机制。。。。并且，，，，，，你知道，，，，，，越来越多地你发明了这些，，，，，，你知道，，，，，，Llama4 甚至拥有更重大的注重力机制。。。。成员D: 希望他们能在下一个模子中宣布它。。。。但这是他们的注重力机制，，，，，，扩展性很是好。。。。他们发明它的体现优于注重力机制。。。。其焦点事情方法是将注重力剖析成三个部分。。。。其中一部分执行滑动窗口注重力，，，，，，因此会关注短期内爆发的事情，，，，，，好比最近的4000个token。。。。另外两个部分有点意思，，，，，，由于它基本上执行分块注重力，，，，，，每隔一定命目的token，，，，，，将其存储为键和值。。。。然后盘问将关注这些。。。。然后从那之中，，，，，，你获得你想完全关注的前K个区块。。。。然后你获取这些区块，，，，，，然后你现实对它们举行完全注重力盘算。。。。我以为这很是？？？，，，，，，由于，，，，，，是的，，，，，，它应该能很好地完成跨越这个长上下文窗口的检索。。。。成员C: 我以为它接纳了使MOE（混淆专家模子）事情的头脑，，，，，，并将其应用于注重力机制，，，，，，你知道，，，，，，我们有这个剧本，，，，，，用于将希罕性引入通过梯度下降训练的模子中，，，，，，也就是你获得一些值，，，，，，对它们举行Top K操作，，，，，，然后对效果值举行softmax运算。。。。这就是MOE的训练方法。。。。其理念是，，，，，，纵然你没有获得所有事物的梯度，，，，，，但事实上，，，，，，它勉励门控权重关于更相关的部分（在MOE专家模子的情形下）相关于特定示例而言更大，，，，，，这意味着希罕机制仍然可以学习将其路由到最合适的专家。。。。就像国家清静局的案例一样，，，，，，要针对更合适的情境部分。。。。我以为，，，，，，这现实上就像是开发它并将其应用到差别的领域。。。。成员C: 我的意思是，，，，，，评估长程上下文机制的难点在于，，，，，，要真正相识基准情形，，，，，，由于你知道，，，，，，所有要领在某种水平上都有用。。。。你知道，，，，，，就像你可以举行希罕注重力。。。。你可以，，，，，，好比说，，，，，，设置一些注重力头举行局部关注，，，，，，另一些举行全局关注。。。。主持人: 好比，，，，，，添加一个影象工具。。。。以是这种，，，，，，像是，，，，，，与强化学习术语的交互，，，，，，有点像是在其中添加状态，，，，，，你可以在内里，，，，，，像是，，，，，，存储一部分工具，，，，，，并希望之后能够检索它。。。。但问题在于，，，，，，怎样确切地勉励模子现实存储优异的、有用的影象，，，，，，以便未来使用？？？？你们以为，，，，，，强化学习会怎样生长，，，，，，才华让你们在许多限期内使用更重大的有状态工具？？？？成员D: 感受很有趣，，，，，，事情在多洪流平上朝着这样的偏向生长，，，，，，像是，，，，，，并非所有工具都在模子中，，，，，，而不是，，，，，，像是，，，，，，模子能够，，，，，，像是，，，，，，接纳行动来让它做所有事情，，，，，，对吧？？？？像是，，，，，，与其，，，，，，像是，，，，，，拥有一个很是好的长上下文模子，，，，，，可以举行检索，，，，，，不如说，，，，，，好的，，，，，，现在的模子，，，，，，像是，，，，，，很是善于使用检索这个工具。。。。无论是通过语义搜索举行搜索，，，，，，照旧，，，，，，像是，，，，，，它被训练的方法，，，，，，抓取。。。。成员A: 像是，，，，，，影象工具很是有趣，，，，，，由于现实上有两个工具。。。。像是，，，，，，第一个工具是我想要存储，，，，，，像是，，，，，，这次特定交互的影象。。。。另一个是检索它。。。。某种水平上，，，，，，像是，，，，，，教育模子检索影象是相当直接的。。。。你可以简朴地在检索到那段影象，，，，，，并且确实对对话有所资助时，，，，，，给予奖励。。。。可是贮存这段影象要重大得多，，，，，，由于奖励并不取决于目今的轨迹，，，，，，而是取决于差别的轨迹。。。。这也会增添训练时代的盘算量，，，，，，由于它意味着，，，，，，基本上，，，，，，为了从贮存这段影象中获得好的信号，，，，，，我必需在一堆完全不相关的随机轨迹中举行多次睁开。。。。成员B: 是的，，，，，，完全准确。。。。就像，，，，，，一旦你举行了写入，，，，，，你就是在贮存某种状态，，，，，，以便在未来的轨迹中使用。。。。以是，，，，，，当你举行训练时，，，，，，你既要举行睁开来贮存它，，，，，，又要举行后续的睁开来检索它，，，，，，应用奖励，，，，，，并将其反向撒播到写入部分。。。。成员D: 是的。。。；；；；；蛐碛梅悄Ｗ友盗返姆椒ɡ刺焐图焖饔跋蠡岣菀。。。。我们前几天就在讨论这个。。。。相反，，，，，，使用像Federico形貌的系统，，，，，，就像是在州差别的天生、使用和获取影象的方法之间举行评估。。。。成员C: 我以为现实上是卢克的。。。。由于费德里科提到的信用分派问题，，，，，，现实上很难反向撒播到影象存储机制中。。。。以是，，，，，，取而代之的是，，，，，，你获得一个基准，，，，，，好比说，，，，，，500个例子，，，，，，关于智能体应该做的事情，，，，，，以及一种检查它是否做到的要领。。。。然后，，，，，，你只需实验差别的规则、启发式要领和提醒，，，，，，关于何时存储影象以及何时遗忘它。。。。你只需权衡每一种要领的体现。。。。而这缺乏以反向撒播到某个工具中，，，，，，由于它会很快学会对它们举行奖励破解。。。。可是，，，，，，若是你有一个启发式系统，，，，，，它或允许以资助你找到最佳的谁人。。。。成员D: 是的。。。。我想知道事情会酿成什么样子，，，，，，像是，，，，，，短期内做的影象才有意义。。。。我想知道这是否会在明年一连保存，，，，，，照旧会酿成像雅各布形貌的那种更恒久的上下文机制，，，，，，也许它会看到你之前所有的谈天纪录，，，，，，并能够增强联系。。。。成员D: 好比，，，，，，你从之前的谈天纪录中获得的一件事是你在之前的PR中无法获得的，，，，，，好比，，，，，，现实操作，，，，，，以及看到你的情形怎样反应，，，，，，对吧？？？？然后你就可以从中举行更新，，，，，，而PR则无法做到这一点。。。。PR只是一种演示。。。。是的，，，，，，我以为它们对差别的事情都有用。。。。就像，，，，，，我的意思是，，，，，，你也在使用你在PR中永远不会真正看到的工具。。。。就像，，，，，，你在看，，，，，，好比，，，，，，终端。。。。你在看，，，，，，好比，，，，，，代码检查器怎样响应，，，，，，以及，，，，，，好比，，，，，，你的自动名堂化工具可能怎样响应，，，，，，诸云云类。。。。成员B: 并且看起来你可以从之前的PR中获得一些，，，，，，好比，，，，，，类似的个性化设置。。。。好比，，，，，，若是你的代码库中有一堆PR，，，，，，你可以大致相识到，，，，，，好比，，，，，，什么样的更改，，，，，，像这种，，，，，，在代码库中举行某些编辑时，，，，，，必需做出某些气概上的调解。。。。你可以学会按期举行这些调解。。。。好比，，，，，，首先我更改这个文件，，，，，，然后我更改谁人文件。。。。成员A: 是的，，，，，，我对整个长上下文的故事很是乐观，，，，，，由于，，，，，，我的意思是，，，，，，我有点不想当盘算机专家，，，，，，但新一代GPU确实让长上下文变得很是容易。。。。好比，，，，，，GB200和L72架构允许以两种方法很是轻松地举行超长上下文处置惩罚。。。。一方面，，，，，，你知道，，，，，，由于你有这些通过NVLink网格互连的72个GPU，，，，，，你可以举行凌驾8GPU网格的张量并行。。。。这让你能够镌汰每个装备上存储KV的注重力头数目。。。。除此之外，，，，，，这种灰色的CPU允许你在统一内存上存储KV，，，，，，因此允许你每个装备存储更大都目的KV。。。。成员D: 并且你可能险些不会爆发任何减速，，，，，，由于你可以基本上在加载下一个时间步，，，，，，并将其加载到GPU的历程中，，，，，，交织举行盘算。。。。成员A: 是的，，，，，，当你抵达第0层时，，，，，，你最先从CPU卸载你在第1层需要的KV。。。。以是它基本上是免费的。。。。你永远不需要KV，，，，，，完整的KV，，，，，，保存于你的GPU内存上，，，，，，除非你现实抵达该层。。。。成员D: 是的，，，，，，但我的意思是，，，，，，这只能扩展到，，，，，，好比，，，，，，一百万个上下文？？？？好比，，，，，，你仍然需要支付这种二次方的价钱，，，，，，并且这总是会，，，，，，好比，，，，，，你可以凌驾，，，，，，好比，，，，，，仅仅是字面内存的本钱。。。。成员D: 72 它会自制 72 倍，，，，，，但这种自制 72 倍是针对这种大规模的 n 平方级爆炸式增添。。。。因此，，，，，，或许你需要好比 100 万个联系人，，，，，，并加上所有这些，，，，，，好比，，，，，，人们正在添加的所有这些常数因子来使其更好，，，，，，对吗？？？？好比，，，，，，时时时地使用滑动窗口，，，，，，或允许以共享。。。。我的意思是，，，，，，美国国家清静局 (NSA) 是另一个很好的例子。。。。它是一个很大的常数因子，，，，，，但它确实是一个常数因子。。。。成员D: 我们喜欢它。。。。是的，，，，，，我们称之为鱿鱼注重力机制，，，，，，由于我们把它想象成一只鱿鱼，，，，，，其中每个文档都像一根差别的触手。。。。是由于这个缘故原由吗？？？？你以为呢，，，，，，你为什么这么想？？？？我不知道。。。。我完全不知道。。。。谁想出了“鱿鱼注重力”这个名字？？？？卢卡斯。。。。这不太像卢卡斯会起的名字。。。。“鱿鱼注重力”的想法是，，，，，，你基本上想要自力地关注每个文档。。。。好比，，，，，，每个文档都会自力地关注自身。。。。然后在最后，，，，，，你再关注所有内容。。。。这样做的优点是，，，，，，你现在可以随意替换文档。。。。若是你体贴约莫10、20、30个文档，，，，，，我就可以缓存每个文档的键和值，，，，，，而无需重新支付预填充的本钱。。。。并且我可以仅仅在推理时替换它们。。。。这关于产品中的种种功效来说，，，，，，都很是有用，，，，，，对吧？？？？好比，，，，，，关于标签页，，，，，，当你检索信息并希望快速完成时，，，，，，它就很是有用。。。。关于署理，，，，，，同样，，，，，，当您使用语义搜索并阅读文件时，，，，，，这将很是、很是有用。。。。主持人: 我想我们在最先时就提到了这一点，，，，，，但对某种测试使用举行大宗优化是强化学习最初所接纳的一种方法。。。。可是，，，，，，你们是否有更好的想法，，，，，，关于怎样更多地针对真实天下的使用举行优化，，，，，，在这种情形下，，，，，，人类正在使用它，，，，，，而不但仅是为了优化测试笼罩率？？？？好比，，，，，，你这话是什么意思？？？？大部分情形下，，，，，，强化学习都在用来完成大宗的测试用例。。。。并且，，，，，，你知道，，，，，，大部分情形下，，，，，，我们体贴的不是模子完成测试用例。。。。我们希望它很是善于，，，，，，好比，，，，，，我不知道，，，，，，在整个文件中添加控制台日志。。。。我们希望它善于种种更以人为中心的事情，，，，，，而不是仅仅为了完成一项特定的细小使命并通过一堆测试。。。。这也许是对SweetBench的一种控诉，，，，，，我知道Federico并不喜欢它。。。。成员B: 是的，，，，，，我的意思是，，，，，，若是我们要获得这些更像是人类的回报，，，，，，这些回报能够触及到一些品味。。。。好比，，，，，，你想要代码质量，，，，，，或者，，，，，，是的，，，，，，好比，，，，，，打印出准确的工具。。。。？？？雌鹄匆竦谜庑，，，，，，你需要做的就是从真真相形中的真实人类那里获得一些真实的信号。。。。用户喜欢智能体所做的改变吗？？？？或者基于某些署理，，，，，，好比，，，，，，他们是否接受了这些编辑，，，，，，或者…… 成员D: 是的，，，，，，我的意思是，，，，，，我以为有许多事情要做，，，，，，好比，，，，，，仅仅是看看用户所做的真实改变是什么。。。。然后由此，，，，，，很好地相识，，，，，，好比，，，，，，当你重新推出智能体时，，，，，，它是否做了类似的事情。。。。由于，，，，，，好比，，，，，，用户会进去，，，，，，并且，，，，，，若是它是过失的，，，，，，他们就会做一些差别的事情。。。。并且尚有许多很酷的事情，，，，，，当你有一个在后台运行的工具时，，，，，，你可以做，，，，，，对吧？？？？并且你可以，，，，，，例如，，，，，，让它实验三、四次解决这个问题。。。。实验一堆差别的模子。。。。实验一堆差别的要领，，，，，，好比，，，，，，把温度调高。。。。然后选择，，，，，，就像，，，，，，我会浏览Cursor提供的所有选项。。。。然后我会选择谁人有用的，，，，，，对吧？？？？这关于训练奖励模子来说是一个很是好的信号。。。。成员B: 是的，，，，，，是的。。。。那么，，，，，，好比说，，，，，，若是你多次采样，，，，，，你可以接纳大都投票，，，，，，或者你可以，，，，，，好比说，，，，，，拥有一个奖励模子来选择最好的一个，，，，，，这样你就可以在某种水平上缩小差别。。。。成员D: 若是我们确实拥有奖励信号，，，，，，好比说，，，，，，有大宗的关于奖励信号的数据，，，，，，好比说，，，，，，有那么多的睁开，，，，，，用户总是从二选一或三选一中选择。。。。是的，，，，，，我们怎样以差别的方法举行强化学习（RL）？？？？我们是否会仅仅凭证谁人信号训练一个奖励模子，，，，，，并只专注于谁人信号？？？？成员D: 好比，，，，，，另一个利益是若是你的奖励模子看到了真真相形，，，，，，对吧？？？？它有点像比原始模子知道得更多，，，，，，或者说，，，，，，比战略知道得更多，，，，，，对吧？？？？成员A: 你无法使其饱和，，，，，，对吧？？？？由于通常情形下，，，，，，针对奖励模子的强化学习的问题在于，，，，，，约莫经由200步之后，，，，，，你就差未几完成了。。。。奖励一连上升，，，，，，但模子现实上并没有刷新。。。。成员B: 是的，，，，，，奖励模子的问题是，，，，，，你知道，，，，，，奖励会永远上升，，，，，，但你真正体贴的现实奖励会阻止上升。。。。但若是我们更靠近我们体贴的事物，，，，，，也许人们会在循环中做出真正的决议，，，，，，那么…… 成员D: 欠盛意思，，，，，，我只是想说，，，，，，那么，，，，，，你以为情形会更糟吗？？？？好比，，，，，，若是用奖励模子来对抗这种很是清晰的信号，，，，，，和拥有能够看到真真相形的奖励模子相比，，，，，，情形会更糟吗？？？？成员C: 是的，，，，，，我们正处于一个有趣的田地，，，，，，关于许多这些模子来说，，，，，，我们是模子和现实天下之间的接口，，，，，，至少在模子被用于编码的水平上是这样。。。。因此，，，，，，在某种意义上，，，，，，这应该是888集团事情，，，，，，就是使模子与人们在现实天下中想要的工具相匹配。。。。成员B: 是的，，，，，，我以为保存一种权衡，，，，，，例如，，，，，，若是你可以针对现实天下举行无限采样，，，，，，你可以直接优化它，，，，，，效果会很好。。。。可是若是你有一些约束，，，，，，好比，，，，，，这些样本本钱很高，，，，，，你需要更多地思索，，，，，，也许我们需要引入一个具有真真相形（ground truth）的奖励，，，，，，或者类似的工具。。。。这样我们就可以在没有真适用户的情形下更多地举行离线优化，，，，，，可是... 成员D: 我们是否以为，，，，，，通过很是频仍地向用户推出，，，，，，从而现实从署理模子获得真实的奖励信号是可能的？？？？有什么理由不这样做呢？？？？Jacob可能有一些看法。。。。以是这个想法...我以为我们应该做这件事。。。。成员C: 你以为我们应该做这件事。。。。嗯，，，，，，我以为，，，，，，在某种水平上，，，，，，我的说法是，，，，，，新模子训练完成并最先与现实天下互动之间的循环越短，，，，，，你的效果就越好。。。。成员C: 你们都看到了OpenAI在回首性博客文章中关于谄媚征象的形貌吗？？？？他们将模子最先变得谄媚归罪于他们使用点赞和点踩数据举行训练。。。。成员D: 点赞和点踩，，，，，，是的，，，，，，这绝对是一个糟糕的信号，，，，，，我可以想象。。。。由于它正在使漫衍爆发误差，，，，，，对吧？？？？偏向于会点击点赞和点踩的用户群体。。。。成员A: 是的，，，，，，我的意思是，，，，，，反响必需与用户坚持一致，，，，，，对吧？？？？好比，，，，，，你需要从用户愿意提供反响的地方获取反响。。。。由于他们受到了激励。。。。不然，，，，，，那就是一个署理，，，，，，是的。。。。成员B: 我们能有的一个现适用途是，，，，，，好比，，，，，，我们有模子选择器。。。。若是他们切换掉888集团模子，，，，，，那可能是一个真实天下的信号，，，，，，批注他们对我们提供的效果是否知足？？？？成员D: 我想知道我们是否可以现实使用流失率，，，，，，作为推导奖励的一种方法，，，，，，对吗？？？？流失率是真实的事实。。。。我们想要，，，，，，好比，，，，，，优化，，，，，，最小化流失率。。。。然后，，，，，，好比，，，，，，我们能否用它来，，，，，，好比，，，，，，从短期信号展望奖励？？？？主持人: 这里有一个类似的问题，，，，，，我以为所有的争论都集中在这种基于效果的事情上。。。。但这种基于效果的事情现实上在R1时期获得了增强。。。。长时间以来，，，，，，人们很是热衷于这些历程-奖励模子，，，，，，可是...是的，，，，，，历程-奖励模子怎么了？？？？然后历程-奖励模子，，，，，，你知道的，，，，，，都消逝了。。。。爆发了什么，，，，，，查理？？？？成员B: 以是历程-奖励模子的问题在于，，，，，，就像它们被实践的那样，，，，，，你只是将轨迹转达给一个模子，，，，，，然后在每个办法获得一个分数，，，，，，问题是，，，，，，模子在仅仅提供分数方面并不那么准确，，，，，，尤其是在中心办法。。。。它必需做出展望，，，，，，好比，，，，，，关于某些使命，，，，，，这是否会导致准确的谜底？？？？以是爆发的情形是，，，，，，一旦你对这个奖励模子，，，，，，这个验证器模子施加优化压力，，，，，，你只能优化一小部分。。。。这和我们正在讨论的问题类似。。。。可是若是你有这些真实信号，，，，，，你可以像求解数学题一样，，，，，，一连一直地举行优化。。。。因此，，，，，，你可以执行，，，，，，好比，，，，，，10...我以为DeepSeek R1执行了10000个强化学习办法。。。。大大都基于人类反响的强化学习（RLHF）流程只执行，，，，，，好比，，，，，，100个。。。。一旦你能执行10000个强化学习办法，，，，，，模子就能最先学习真正有趣的、与起点截然差别的行为。。。。以是，，，，，，是的，，，，，，要害真的在于你能对它施加几多优化。。。。而使用PRM，，，，，，你可以施加一些，，，，，，但它受到限制。。。。它远不如使用这些真实效果奖励来得多。。。。成员A: 并且，，，，，，你执行的办法越多，，，，，，情形就越糟，，，，，，对吧？？？？以是，，，，，，好比，，，，，，在一个多办法场景中，，，，，，你执行50次工具挪用，，，，，，就会变得越发难题。。。。这也诠释了为什么人们更倾向于使用PPO的变体，，，，，，好比GRPO或RLU，，，，，，由于价值模子在你的轨迹上保存某种瓶颈。。。。成员B: 是的，，，，，，以是，，，，，，就像，，，，，，关于数学和代码这类难题的使命，，，，，，我以为，，，，，，你知道，，，，，，仅仅期望模子爆发一个好的价值，，，，，，这自己就是一个难题的认知使命。。。。它们很难提供真正准确的价值。。。。以是，，，，，，是的，，，，，，人们使用GRPO。。。。你就像是，，，，，，用蛮力举行多次rollout以获得一个价值。。。。而这更靠近于真实值。。。。成员D: 我可能错过了前面的部分，，，，，，可是，，，，，，关于历程奖励模子与真正的效果奖励，，，，，，这很有意义。。。。可是，，，，，，历程奖励模子与效果奖励模子相比呢？？？？成员B: 因此，，，，，，好比，，，，，，一个历程奖励，，，，，，现实上，，，，，，若是举行直接较量，，，，，，好比一个仅仅在最后爆发奖励的奖励模子，，，，，，与一个具有中心办法，，，，，，并且你可能正在对其举行搜索的奖励模子相比，，，，，，后者具有优势。。。。但它也保存同样的问题，，，，，，就像，，，，，，你知道，，，，，，但在两种情形下，，，，，，你都只能优化到某种水平。。。。成员D: 这是否意味着我们将训练历程奖励？？？？好比，，，，，，这是否意味着，，，，，，嗯，，，，，，好吧，，，，，，我们已经决议了，，，，，，好比，，，，，，其中一件事，，，，，，我们将追求的奖励信号之一是奖励模子，，，，，，我们会在一定频率后对其举行重新训练。。。。好比，，，，，，我们应该训练历程奖励吗？？？？主持人: 以是我想这把我们引向了基础设施的问题。。。。你们许多人都加入了强化学习基础设施的建设。。。。有什么有趣的看法吗？？？？什么是优异的强化学习基础设施？？？？成员A: 强化学习基础设施有趣的一点是，，，，，，它自然比训练基础设施更重大，，，，，，由于它建设在训练基础设施之上。。。。就像，，，，，，你用来为 SFT 或预训练执行前向和反向撒播的所有工具，，，，，，你需要它们在强化学习中也能高效运行。。。。另一个有趣的事情是，，，，，，现在你还需要推理组件。。。。并且，，，，，，在这个你不像关注用户那样关注延迟的机制中，，，，，，推理组件也必需举行优化。。。。你关注的是吞吐量。。。。你关注的是尽可能大规模地获得尽可能多的 rollout（轨迹）。。。。关于像 GRPO 这样的算法，，，，，，情形甚至更有趣，，，，，，由于你有一个提醒，，，，，，并且你正在为此提醒天生许多、许多、许多补全。。。。然后，，，，，，最终你将针对该提醒的所有这些补全举行反向撒播。。。。关于数学，，，，，，开源社区的人们并不真正体贴这个事实，，，，，，由于在数学领域，，，，，，大大都开源社区的人都在为解决这个数学使命而优化。。。。极其细小的提醒。。。。因此，，，，，，您可以简朴地前后浏览所有序列，，，，，，而无需担心您一直在重新盘算提醒。。。。可是关于888集团情形，，，，，，当您拥有署理时，，，，，，我们有这些重大的提醒。。。。因此，，，，，，我们不可遭受向后遍历所有共享相同提醒的这些回滚。。。。因此，，，，，，您最先举行优化，，，，，，即与推理效劳器更多地重叠，，，，，，例如，，，，，，您可能已经从数据加载器中获得了提醒，，，，，，并且在推理效劳器已经在处置惩罚回滚时，，，，，，您最先从该提醒中获取 KVs。。。；；；；；毓龇祷睾，，，，，，您已经拥有 KVs，，，，，，因此您只需转发已返回的回滚即可。。。。然后，，，，，，当您举行反向撒播时，，，，，，您已经为您的提醒准备好了 KVs，，，，，，因此您可以重用这些 KVs，，，，，，并且只对这些 KVs 举行一次反向撒播。。。。因此，，，，，，您可以举行许多以前从未真正完成过的有趣的优化。。。。成员A: 这也超等有趣，，，，，，由于人们会针对差别的情形来天生这些睁开序列。。。。许多人接纳异步方法，，，，，，即当你回溯目今睁开序列时，，，，，，模子已经在用旧权重天生下一批次的睁开序列。。。。因此，，，，，，天生睁开序列的模子现实上是落伍一步的。。。。但这样可以大大加速逊з度，，，，，，由于在下一次迭代时，，，，，，你无需期待睁开序列完成绩可以最先举行前向和反向撒播。。。。当你需要同步权重时，，，，，，你必需阻止所有历程并执行同步，，，，，，这通常通过RDMA实现，，，，，，或者你可以直接通过InfiniBand或Rocky等方法从内存中读取。。。。成员C: DeepSeek为其DeepSeek v3的效劳设置所做的一些事情，，，，，，就是以吞吐量为导向的，，，，，，即每秒的token数并不高，，，，，，但分派给解码的每个GPU采样的token总数却很是好。。。。以是我以为...我的意思是，，，，，，他们用它来效劳DeepSeek，，，，，，这很合理，，，，，，但若是你正在做强化学习，，，，，，那么举行这些权衡可能就更合适了。。。。成员A: 并且还需要PD解耦，，，，，，对吧？？？？这关于强化学习来说超等主要，，，，，，由于你只需要在一个提醒词上举行一次预填充，，，，，，然后你的所有解码器事情历程就可以启动并资助你。。。。是的。。。。成员D: 我的意思是，，，，，，尚有另一种有趣的强化学习要领，，，，，，你不需要思量……在某些方面，，，，，，它简化了事情。。。。在某些方面，，，，，，它使事情变得越发重大，，，，，，那就是若是你将你为用户所做的推理，，，，，，复用为你现实为强化学习所做的推理。。。。我是说，，，，，，雅各布正在为Tad做这方面的事情。。。。成员C: 是的。。。。只要你不需要提醒词的多个补全，，，，，，若是你只体贴你现实做了什么，，，，，，然后你只想增强或不增强你所做的，，，，，，你现实上不需要一个单独的推理组件用于强化学习训练历程。。。。你只需看看真适用户现实爆发了什么。。。。这与重新采样，，，，，，然后使用奖励模子举行较量的情形相比，，，，，，是一组差别的权衡，，，，，，由于它更多地依赖于能够很是？？？焖俚赝瞥鲂碌恼铰。。。。但它可以确保您正在优化的战略与现实天生轨迹的战略之间的高度匹配。。。。我们正在为Tad思量这一点，，，，，，由于我们单位时间内可以获得大宗数据，，，，，，由于每当有人使用Cursor展示Tad建议时，，，，，，我们都会获得反响。。。。以是这只是一个很是大的反响量。。。。以是我们有许大都据。。。。因此，，，，，，我们以为在这种情形下，，，，，，这可能是有意义的。。。。成员B: 是的，，，，，，我以为强化学习保存一个方差问题，，，，，，基本上，，，，，，默认情形下，，，，，，你会获得这些很是高方差的梯度预计。。。。以是若是你有一大批这种经由强化学习的单次睁开轨迹，，，，，，那没问题。。。。若是你没有一大批数据，，，，，，你需要其他要领来镌汰方差。。。。这就是GRPO的用武之地，，，，，，或者你可以训练价值函数。。。。一旦你将基线化加入到强化学习中，，，，，，这旨在镌汰梯度的方差。。。。以是你有一个重大的批次。。。。理论上，，，，，，足够大的批次应该可以事情。。。。成员C: 大批次和短轨迹。。。。你知道，，，，，，Tad，，，，，，它的轨迹？？？雌鹄聪窦赴俑鰐oken的上升，，，，，，诸云云类，，，，，，而Agent会很愿意推出10000个token后再返回。。。。轨迹的方差很是大，，，，，，是的。。。。成员A: 是的，，，，，，好比Tad，，，，，，若是它只爆发一行，，，，，，你将不得不举行许多许多次推出，，，，，，才华获得针对该提醒的差别建议，，，，，，对吧？？？？以是，，，，，，让它更适用于强化学习的一个技巧是，，，，，，你最先向它添加更多行动，，，，，，对吧？？？？好比，，，，，，像跳跃。。。。成员C: 是的，，，，，，是的。。。。跳跃关于Tad来说是特殊行动的一个主要泉源，，，，，，由于若是没有跳跃，，，，，，它经常不得不阻止轨迹。。。。可是若是它可以跳跃，，，，，，那么它就可以继续前进，，，，，，并且可以获得关于你是否接受谁人跳跃以及在跳跃所在做了什么事情的反响。。。。成员B: 是的，，，，，，以是我想gRPO和PPO之间的高条理区别在于，，，，，，PPO有一个价值函数。。。。以是这关于那些没有大宗GPU内存的人来说有一些优势，，，，，，由于现在你不需要存储特另外价值函数权重。。。。但与此同时，，，，，，你正在举行更多的浮点运算，，，，，，由于你必需为gRPO举行多次睁开。。。。以是保存一种浮点运算和内存之间的权衡。。。。是的，，，，，，是的。。。。以是就像你可以训练模子，，，，，，它不会内存溢出（oom），，，，，，但训练会破费很长时间。。。。并且，，，，，，是的，，，，，，最终，，，，，，我以为尤其是在这种数学代码的设置中，，，，，，价值函数无论怎样都不是很是准确的。。。。就像你在做的，，，，，，这又回到了PRM（概率蹊径图）的事情，，，，，，你在模子中举行前向转达，，，，，，它提供了一些价值。。。。它并不是真的那么准确。。。。以是它对你没有太大的资助。。。。相反，，，，，，若是你只是举行多次睁开，，，，，，并取平均值并将其用作问题的价值，，，，，，那么这比你将获得的价值更好。。。。它更希罕，，，，，，但它确实有资助。。。。成员B: 这是一个好问题。。。。好吧，，，，，，并且gRPO已经保存很长时间了。。。。它是随着DeepSeek的数学论文一起宣布的，，，，，，我记得那或许是一年多以前的事情了。。。。应该是24年，，，，，，像是24年头之类的。。。。成员B: 哦，，，，，，好的。。。。那就更早了，，，，，，是的。。。。我想可能是由于随着DeepSeek R1的宣布，，，，，，强化学习（RL）总体上变得更受接待了。。。。随着DeepSeek R1的宣布，，，，，，gRPO也泛起了，，，，，，以是人们最先关注它。。。。可是即便gRPO在R1之前就保存了，，，，，，或许在R1宣布一年多之前，，，，，，我想。。。。成员B: 或者他们正在基于真实数据举行强化学习。。。。我以为在那篇论文中，，，，，，他们也实验了针对概率蹊径图（PRM）举行强化学习。。。。是的，，，，，，有趣的是，，，，，，为什么这没有爆发我们在R1中所看到的相同效果，，，，，，当他们在DeepSeek数学时代举行这项研究时。。。。你以为是什么缘故原由？？？？以是，，，，，，有一些关于此的有趣事情，，，，，，好比实验明确这一点。。。。？？？雌鹄此坪跤牖∧Ｗ拥哪芰τ泄，，，，，，好比预训练数据中的某些工具，，，，，，或者模子自己已经足够好，，，，，，基础模子会举行一定水平的回溯。。。。也许不是很频仍，，，，，，百分之一的样本或者类似的情形。。。。但这已经足够了，，，，，，一旦你举行大宗的强化学习，，，，，，它就会捕获到这些行为并放大它们。。。。以是可能仅仅是由于基础模子已经足够好，，，，，，以至于它们可以学习这些有趣的行为。。。。成员A: 问题在于...以是人们已经在像Quan32B这样的模子上复现了类似的效果。。。。问题在于建设基础设施，，，，，，使你能够训练大型的DeepSeek模子。。。。这就像是一项重大的提升，，，，，，对吧？？？？这需要大宗的盘算。。。；；；；Ｉ杏惺，，，，，，对吧？？？？就像DeepSeek获得了大宗的强化学习数据，，，，，，而我们在开源领域并没有真正拥有这些数据。。。。我们或许有一个10万到20万个示例的数据集。。。。成员B: 是的，，，，，，我们讨论了许多关于输入上下文的内容，，，，，，但我以为输出上下文将会是一件大事。。。。特殊是若是你看看像O3这样的工具。。。。这与某些其他模子很是差别，，，，，，那些模子会无休止地举行搜索。。。。它会构建准确的上下文，，，，，，然后知道怎样解决问题。。。。是的，，，，，，我预计我们会看到一些模子能够执行很是长的工具挪用序列，，，，，，然后它们... 成员B: 是的，，，，，，是的。。。。我以为你应该能够摊销其中的一部分本钱。。。。我的意思是，，，，，，是的，，，，，，基本上就像有一个署理能够审查轨迹，，，，，，或者审查代码库中之前已经完成的事情，，，，，，并且从中做出有用的推断，，，，，，然后将其存储在某个地方。。。。成员D: 是啊，，，，，，若是天下看起来像你那样，，，，，，那就太糟糕了……要使用那样最好的署理，，，，，，或者使用一个足够好的署理，，，，，，你必需使用像O3这样的速率和本钱的工具。。。。成员D: 我以为长上下文或某种代码库专业化将很是主要。。。。我以为有些工具，，，，，，你知道，，，，，，它能够……它有点像能够复用已往所做的事情，，，，，，能够大致相识这个代码库是怎样运作的。。。。成员A: 你怎么看？？？？关于你可以扩大输出令牌数目的另一个事实是，，，，，，它使训练越发具有样本效率，，，，，，对吧？？？？就像通常在有监视微调（SFT）中，，，，，，我们有这些大的提醒。。。。并且你知道，，，，，，模子现实上只从输出令牌那里获得信号。。。。成员D: 嗯，，，，，，这也使得它有点低效，，，，，，对吧？？？？由于若是是一个超长的输出，，，，，，你需要举行信用分派，，，，，，好比，，，，，，哪些令牌是主要的？？？？然后像使用GRPO，，，，，，若是我们以888集团方法举行，，，，，，你将在每几个令牌处举行采样，，，，，，好比在这个重大的序列中。。。。我想它变得数据高效了。。。。它数据高效吗？？？？它是数据高效的，，，，，，但不是盘算高效的。。。。成员B: 我的意思是，，，，，，我以为我们正处于，，，，，，或者说正在靠近这样一种状态，，，，，，尤其是在语言模子训练方面，，，，，，即最高质量的数据相关于可用的盘算资源而言变得越来越稀缺。。。。好比，，，，，，最好的数据比盘算资源稀缺得多。。。。那么，，，，，，你究竟要怎样使用所有这些盘算资源呢？？？？以是，，，，，，你知道，，，，，，那些看起来盘算本钱很是高昂的要领可能才是合适的。。。。是的。。。。

法国空乘2023无删减版百度云

                                法国空乘2023无删减版百度云再婚时她甚至签订了详细的婚前协议，明确约定婚前财产的归属优先保障女儿小酒窝的生活和教育，这份理性和清醒让人不得不佩服她的格局。2012年，立创商城成立，主打“明码实价、一片起订、正品保证、快速发货”，让工程师能够在线完成从选型、BOM配单、支付到订单追踪的一站式采购。截至2025年末，公司电子元器件现货库存SKU超76万，年出货订单量近430万单、工作日日均出货SKU超19 万。法国空乘2023无删减版百度云狗狗舔女人会不会生病我们在控球时还是出现了不少失误，这方面必须做出更好的选择。那个丢球也提醒我们，在组织进攻和创造机会的区域，我们还需要做得更好。友谊赛就是用来发现问题的，这也是世界杯前热身赛的意义。”除了几位近亲，此前曾去医院看望过王芳的网友小宁也赶到了殡仪馆，“既然他通知了，我肯定要来看一下。”小宁原本准备了礼金，但直到离开也没有机会给出。
                            

                                20260608 ? 法国空乘2023无删减版百度云——比利亚雷亚尔B队：鲁本·戈麦斯（亚基夫，90分钟）；布德斯卡、西拉、劳塔罗、埃内科（埃托奥，95分钟）；阿拉萨内·迪亚塔（谢赫，65分钟）、卡洛斯·马西亚；何塞利略·盖坦、博纳费（尼扎尔，46分钟）；雨果·洛佩斯（巴卢，80分钟）和艾曼（阿尔伯特·加西亚，46分钟（卡瓦内斯，84分钟））。JM俱乐部已与AIK索尔纳俱乐部达成协议，签下边锋扎多克-约翰纳，合同为期5年，在2031年6月到期，具体条款未公开，他将在转会窗口重新开启时加盟俱乐部，但需获得相关监管部门的批准。
                            

法国空乘2023无删减版百度云

? 王承丰记者金银凤摄

                                20260608 ? 法国空乘2023无删减版百度云在西班牙马贝拉度假期间，韦德拉奥果接到了补招电话，德国队主帅纳格尔斯曼亲自联系了他。就在上周，韦德拉奥果还随莱比锡红牛前往南非进行商业推广活动。；；；；；ǘ《女子有身妄想》百度百科德国电视一台近期公布的“德国趋势”民调显示，民众对默茨的满意度已从2025年6月的39%跌至目前的16%，这是该调查历史上在任德国总理中的最低纪录。同时，高达86%的民众对德国政府的工作表示不满。自1997年该系列民调启动以来，尚无任何一届德国政府在执政一年后遭遇如此负面的评价。
                            

法国空乘2023无删减版百度云

? 宋兴良记者林景湛摄

                            ? 结果模型一跑后发现，人被 AI 带偏的概率是降了，但也还是没法完全消除，只要 AI 的舔狗程度卡在某个合适的区间，照样把人带沟里去。JM漫画网页版入门百度贴吧
                        

【我要推荐】更多推荐：科曼：德佩的各项身体数据是起劲的；；；；；廷贝尔也在恢复当中

扫一扫在手机翻开目今页

链接：
天下人大
|
天下政协
|
国家监察委员会
|
最高人民法院
|
最高人民审查院

国务院部分网站
|
地方政府网站
|
驻港澳机构网站
|
驻外机构

中国政府网 | 关于本网 | 网站声明 | 联系888集团 | 网站纠错

主理单位：法国空乘2023无删减版百度云　运行维护单位：中国政府网运行中心

版权所有：中国政府网　中文域名：中国政府网.政务

网站标识码bm58232452　京ICP备05070218号　京公网安备11010202000001号

welcometo接待光临888集团(中国)有限公司

国务院客户端

welcometo接待光临888集团(中国)有限公司

国务院客户端小程序

中国政府网微博、微信

主理单位：中国政府网　运行维护单位：中国政府网运行中心

版权所有：中国政府网　中文域名：中国政府网.政务

网站标识码bm58232452

京ICP备05070218号　京公网安备11010202000001号

【网站地图】【sitemap】