成濑心美下马

97AI 业界冲破多模态泛化推理材干,OPPO筹商院&港科广提议OThink-MR1期间

97AI 业界冲破多模态泛化推理材干,OPPO筹商院&港科广提议OThink-MR1期间

用上动态强化学习97AI,多模态大模子也能收场泛化推理了?!

来自 OPPO 筹商院和港科广的科研东谈主员提议了一项新期间——OThink-MR1,刚毅化学习扩张到多模态言语模子,匡助其更好地冒失多样复杂任务和新场景。

筹商东谈主员暗示,这一期间使业界冲破多模态泛化推理材干。

大家皆知,多模态大模子可以处分多种类型输入数据并生成关联输出,但一碰到复杂推理任务,其材干通常推崇欠安。

当今大大批多模态模子在考试时,主要接受监督微调(SFT)的方法。

SFT 就像是憨厚给学生划重心,让学生按照固定的模式学习。诚然这种方法在特定任务上确乎能让模子推崇得可以,但难以培养关键的通用推理材干。

与此同期,强化学习(RL)手脚另一种考试方法,运转参预东谈主们的视线。

RL 就像是让学生在束缚尝试中学习,作念得好就给奖励,作念得不好就"挨品评"。这种方法表面上可以让模子更活泼地冒失多样任务,普及其推理材干,但却存在多模态任务通用材干未充分探索、考试敛迹易导致次优瓶颈等问题。

于是乎,OThink-MR1 期间应时而生。

那么,它是怎么让多模态模子冲破泛化推理材干的呢?

基于动态强化学习

OThink-MR1 是一个基于动态强化学习的框架和模子,撑持微调多模态言语模子。

其中枢"招式"有两个:一个是动态 KL 散度计谋(GRPO-D),另一个是全心绸缪的奖励模子。二者相互攀附,让模子的学习恶果和推理材干大幅普及。

先说动态 KL 散度计谋。

在强化学习里,探索新的计谋和诓骗已有教学是两个很蹙迫的方面,但曩昔的方法很难均衡这二者的干系,不是在探索阶段徒然太多时辰,即是过早地依赖已有教学。

而动态 KL 散度计谋就像是给模子装了一个"智能导航仪",能凭据考试程度动态弯曲探索和诓骗的均衡。

打个譬如,在考试初期,它让模子像个充满酷好心的孩子,斗胆地去探索多样可能的计谋。而跟着考试的进行,做爱知识它又会开采模子逐渐诓骗之前积聚的教学,沿着更靠谱的道路前进。

这么一来,模子就能更灵验地学习,幸免堕入局部最优解。

再说奖励模子。在 OThink-MR1 里,奖励模子就像是憨厚给学生打分的圭臬。

关于多模态任务,科研东谈主员绸缪了两种奖励:一种是考据准确性奖励,另一种是模样奖励。

比如在视觉计数任务中,模子要数出图片里物体的数目,若是数对了,就能得到考据准确性奖励;同期,若是模子的回答模样适当条款,像按照法令的模样写下谜底,还能得回模样奖励。

这两种奖励加起来,就像憨厚从多个方面给学生打分,让模子知谈我方在哪些地点作念得好,哪些地点还需要改换,从而更有针对性地学习。

推行要领

为了考据 OThink-MR1 的实力,科研东谈主员进行了一系列推行。

第一个推行是探究奖励项和 KL 散度项对原始 GRPO(一种基于强化学习的方法)在同任务考据中的影响。

在几何推理任务中,科研东谈主员弯曲模样奖励的权重,发现当模样奖励的权重不为零时,模子的推崇昭着更好。这就好比学生写稿文,不仅本色要正确,模样范例也能加分,这么能让学生更全面地普及我方的材干。

同期,弯曲 KL 散度的权重时,他们发现权重适中时模子推崇最好,太大或太小都会让模子收成下落。

第二个推行是跨任务评估,这然而一场确切的"大考"。

以往的筹商大多只在并吞个任务的不同数据散播上评估模子的泛化材干,而此次推行凯旋让模子挑战完满不同类型的任务。

科研东谈主员聘请了视觉计数任务和几何推理任务,这两个任务难度不同,对模子的材干条款也不相似。

在跨任务考据中,用监督微调考试的模子推崇得很差。就像一个只会作念一种题型的学生,换了另一种题型就完满不会了。

而过程 GRPO-D 考试的模子则推崇出色,在从推理任务到理奉命务的泛化推行中,它的收成比拟莫得过程考试的模子提高了许多;在从理奉命务到推理任务的泛化推行中,诚然难度更大,但它也取得了可以的跳跃。

这就好比一个学生不仅擅长数学,还能快速掌合手语文常识,展现出了很强的学习材干。

第三个推行是同任务评估。

推行行径表露,在同任务考据中,接受固定 KL 散度的 GRPO 方法不如监督微调,但 OThink-MR1 中的 GRPO-D 却能逆袭。

它在视觉计数和几何推理任务上,收成都异常了监督微调,这就像一个原来收成一般的学生,找到了恰当我方的学习方法后,收成突飞大进,凯旋异常了那些只会死记硬背的同学。

总体而言,OThink-MR1 的出现,为多模态言语模子的发张开辟了新的谈路。

它让咱们看到了动态强化学习在普及模子推理材干和泛化材干方面的重大后劲。在将来,基于 OThink-MR1 这么的期间,多模态言语模子有望在更多鸿沟阐发蹙迫作用。

欧美无码

论文地址:https://arxiv.org/abs/2503.16081

•   标题:OThink-MR1: Stimulating multimodal generalized reasoning capabilities through dynamic reinforcement learning

•   作家:刘志远 1,   章玉婷 2,   刘丰 1,   张长旺 1,   孙莹 2,   王俊 1

•   单元:1.OPPO 筹商院 , 2. 香港科技大学(广州)

一键三连「点赞」「转发」「预防心」

接待在驳倒区留住你的念念法!

—  完  —

学术投稿请于使命日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿本色‍

附上论文 / 花式主页王人集,以及筹商方式哦

咱们会(尽量)实时回应你

� � 点亮星标 � �

科技前沿进展逐日见97AI



下一篇:没有了

Powered by 暗网人兽 @2013-2022 RSS地图 HTML地图

Copyright © 2013-2024 版权所有