2023中关村论坛丨智源推出通用视觉分割模型SegGPT 具有上下文推理能力

北京商报   2023-05-29 13:20:53


(资料图)

北京商报讯(记者 杨月涵)ChatGPT引发了语言大模型狂潮,AI另一个重大领域——视觉的GPT时刻何时到来?5月28日,北京智源人工智能研究院在2023中关村论坛平行论坛之一的人工智能大模型发展论坛上推出通用分割模型SegGPT,这也是首个利用视觉提示(prompt)完成任意分割任务的通用视觉模型。

据了解,SegGPT是智源通用视觉模型Painter的衍生模型,针对分割一切物体的目标做出优化。SegGPT训练完成后无需微调,只需提供示例即可自动推理并完成对应分割任务,包括图像和视频中的实例、类别、零部件、轮廓、文本、人脸等等。

该模型具有通用能力,SegGPT具有上下文推理能力,模型能够根据提供的分割示例(prompt),对预测进行自适应的调整,实现对“everything”的分割,包括实例、类别、零部件、轮廓、文本、人脸、医学图像等。

模型同时具有灵活推理能力,支持任意数量的prompt;支持针对特定场景的tuned prompt;可以用不同颜色的mask表示不同目标,实现并行分割推理。

此外,模型还具有自动视频分割和追踪能力,以第一帧图像和对应的物体掩码作为上下文示例,SegGPT能够自动对后续视频帧进行分割,并且可以用掩码的颜色作为物体的ID,实现自动追踪。

据悉,SegGPT与Meta AI图像分割基础模型SAM同时发布,两者的差异在于,SegGPT “一通百通”,给出一个或几个示例图像和意图掩码,模型就能get用户意图,“有样学样”地完成类似分割任务。用户在画面上标注识别一类物体,即可批量化识别分割同类物体,无论是在当前画面还是其他画面或视频环境中。SAM“一触即通”,通过一个点或边界框,在待预测图片上给出交互提示,识别分割画面上的指定物体。

无论是“一触即通”还是“一通百通”,都意味着视觉模型已经“理解”了图像结构。SAM 精细标注能力与 SegGPT的通用分割标注能力相结合,能把任意图像从像素阵列解析为视觉结构单元,像生物视觉那样理解任意场景,通用视觉GPT曙光乍现。

相关新闻

猜你喜欢

2023中关村论坛丨智源推出通用视觉分割模型SegGPT 具有上下文推理能力

2023-05-29

今日快看!网商贷逾期一天有什么影响?怎么协商停息挂账?

2023-05-29

重点聚焦!投诉邵阳宇节教育科技有限公司欺骗消费者,虚假宣传

2023-05-29

丁相明任吉林市副市长、市公安局局长

2023-05-29

全球焦点!智通港股决策参考︱跌破年线形成加速

2023-05-29

【中央媒体看南昌】城市“鸟岛”:奏响人与自然优美和声

2023-05-29

守护甜心之守护你一辈子

2023-05-29

产值高达230亿元!小菜“泡”出大产业-环球关注

2023-05-29

【新数据 新看点】全省累计建成5G基站7.6万个

2023-05-29

公安部交管局:全力保障高考考生安全及时应考_天天即时

2023-05-29

病毒性眼药水有哪些_抗病毒眼药水有哪些-每日热议

2023-05-29

维罗纳96分钟遭绝平仍处降级区,末轮客战米兰得拿分才有保级希望

2023-05-29

每日简讯:五谷杂粮粥怎样熟的快还稠?

2023-05-29

疑似李坤城儿子控诉林靖恩|热门看点

2023-05-28

本周大新闻|传Meta与Magic Leap谈专利授权;PS VR2前6周出货60万台|热讯

2023-05-28

国产大飞机C919圆满完成商业首飞!产业链沸腾了

2023-05-28

怀柔老水泥厂——工业与科技在这里交融

2023-05-28

皇氏集团:公司下属子公司陕西中石能收到项目中标通知书|动态焦点

2023-05-28

各地抢抓农时 利用机械化手段开展田间管理作业 动态焦点

2023-05-28

天天动态:又是不用开机的一个月!《超级房车赛》?PSN港服2023年5月会免游戏食用指南

2023-05-28

观速讯丨航行警告!渤海海峡黄海北部执行军事任务

2023-05-28

圈1怎么打搜狗输入法_圈1怎么打

2023-05-28

当前快报:考研如何选择学校_考研学校怎么选择

2023-05-28

最小阻力定律_对于最小阻力定律简单介绍 每日聚焦

2023-05-28

全球今热点:【高质量发展调研行】传统产业的新发展

2023-05-28

精彩图集