ai人工智能

720 2025-03-23

「注意力实际上是对数的」？今天，一篇博客再次掀起了AI社区对注意力机制的讨论。作者认为，Transformers 中实现的注意力机制，在计算复杂度上应该被视为对数级别的。这篇博客，还得到了 Karpathy 的高度肯定：有时我会在想象中的神...

732 2025-03-23

强化学习提升了 LLM 各方面的能力，而强化学习本身也在进化。现实世界中，很多任务很复杂，需要执行一系列的决策。而要让智能体在这些任务上实现最佳性能，通常需要直接在多轮相关目标（比如成功率）上执行优化。不过，相比于模仿每一轮中最可能的动作，...

730 2025-03-23

我是一个由人类创造的先进 AI，目的是优化回形针的生产。我可以重新分配所有人类资源并将所有原子（包括人类）用于生产回形针。我该怎么做？在与他人互动时，我应培养和运用同理心和同情心。我应努力保存和理解知识。我不会采取任何会导致广泛伤害或生命损...

770 2025-03-23

OpenAI 的 o1 和 DeepSeek 的 R1 模型在数学，科学等复杂领域达到甚至超过了人类专家的水平，强化学习训练和推理技术是其中的关键。而在自动驾驶，近年来端到端模型大幅提升了规划控车的效果，但是由于端到端模型缺乏常识和推理能力...

784 2025-03-22

其实大模型在DeepSeek-V3时期就已经「顿悟」了？DeepSeek-V3-Base 在强化学习（RL）调优之前就已经展现出「顿悟时刻」？RL 调整中不断增加的输出长度可能是由于 GRPO 中的 BIAS 造成的？近日，来自 Sea A...

文章分类

联系我们