商汤科技发布多模态多任务通用大模型“书生（INTERN）2.5”

芥末堆文近日，商汤科技发布多模态多任务通用大模型“书生（INTERN）2.5”。其拥有30亿参数，是物体检测标杆数据集COCO中唯一超过65.0 mAP的模型，“书生2.5”的图文跨模态开放任务处理能力可为自动驾驶、机器人等通用场景任务提供高效精准的感知和理解能力支持。

据介绍，“书生”由商汤科技、上海人工智能实验室、清华大学、香港中文大学、上海交通大学于2021年11月首次共同发布，并持续联合研发。目前，“书生2.5”多模态通用大模型已在商汤参与的通用视觉开源平台OpenGVLab开源。

据悉，“书生2.5”可通过文本来定义任务，从而灵活地定义不同场景的任务需求，并根据给定视觉图像和任务的提示性语句，给出相应的指令或作答，进而具备通用场景下的高级感知和复杂问题处理能力，比如图像描述、视觉问答、视觉推理和文字识别等。

在自动驾驶和居家机器人等通用场景下，“书生2.5”可辅助处理各种复杂任务。例如，在自动驾驶场景中，可以大幅提升场景感知理解能力，准确辅助车辆判断交通信号灯状态、道路标志牌等信息，为车辆决策规划提供有效信息输入。

此外，“书生2.5”可根据文本快速检索出视觉内容，例如，可在相册中返回文本所指定的相关图像，或是在视频中检索出与文本描述最相关的帧，提高视频中时间定位任务的效率。此外还支持引入物体检测框，根据文本返回最相关的物体，实现开放世界视频或图像中物体检测及视觉定位。

1、本文是芥末堆网原创文章，转载可点击芥末堆内容合作了解详情，未经授权拒绝一切形式转载，违者必究；
2、芥末堆不接受通过公关费、车马费等任何形式发布失实文章，只呈现有价值的内容给读者；
3、如果你也从事教育，并希望被芥末堆报道，请您填写信息告诉我们。

来源：芥末堆

芥末堆商务合作：王老师 18710003484