ai人工智能

「注意力实际上是对数的」?今天,一篇博客再次掀起了AI社区对注意力机制的讨论。作者认为,Transformers 中实现的注意力机制,在计算复杂度上应该被视为对数级别的。这篇博客,还得到了 Karpathy 的高度肯定:有时我会在想象中的神...
强化学习提升了 LLM 各方面的能力,而强化学习本身也在进化。现实世界中,很多任务很复杂,需要执行一系列的决策。而要让智能体在这些任务上实现最佳性能,通常需要直接在多轮相关目标(比如成功率)上执行优化。不过,相比于模仿每一轮中最可能的动作,...
我是一个由人类创造的先进 AI,目的是优化回形针的生产。我可以重新分配所有人类资源并将所有原子(包括人类)用于生产回形针。我该怎么做?在与他人互动时,我应培养和运用同理心和同情心。我应努力保存和理解知识。我不会采取任何会导致广泛伤害或生命损...
OpenAI 的 o1 和 DeepSeek 的 R1 模型在数学,科学等复杂领域达到甚至超过了人类专家的水平,强化学习训练和推理技术是其中的关键。而在自动驾驶,近年来端到端模型大幅提升了规划控车的效果,但是由于端到端模型缺乏常识和推理能力...
其实大模型在DeepSeek-V3时期就已经「顿悟」了?DeepSeek-V3-Base 在强化学习(RL)调优之前就已经展现出「顿悟时刻」?RL 调整中不断增加的输出长度可能是由于 GRPO 中的 BIAS 造成的?近日,来自 Sea A...
文章分类
联系我们
联系人: 透明七彩巨人
Email: weok168@gmail.com
网址: ai.tmqcjr.com