小红书Hi Lab团队提出可大幅降低平均思考长度的强化学习训练方式

6月19日，小红书技术团队发文称，深度思考模型通过Test-Time Scaling（测试时扩展）大幅提升了模型推理能力，但同时也出现了大量冗余和无效思考。小红书Hi Lab团队提出了Think When You Need的强化学习训练方式；在不影响最终效果的前提下，实现动态CoT能力，大幅降低平均思考长度。实验证明，这种思想在推理和非推理等各种任务上广泛适用。团队还发现了一种现象：即在相同任务下，越聪明（参数量大）的模型，需要的思考长度越短；这与当前深度思考模型表现相违背，却十分符合人类的认知。