好品质、更有性价比
全国咨询热线:0314-4219912

bob电竞入口:视觉AI才能大一统主动化图画检测切割还能可控文生图

发布时间:2023-04-26 02:00:59 来源:bob电竞体育 作者:bob电竞体育官网

  这不,Meta的SAM刚刚推出几天,就有国内程序猿来了波buff叠加,把方针检测、切割、生成几大视觉AI功用all in one!

  比方依据Stable Diffusion和SAM,就能让照片中的椅子无缝换成沙发:

  简略来说,这便是一个zero-shot视觉使用,只需求输入图片,就能主动化检测和切割图画。

  该研讨来自IDEA研讨院(粤港澳大湾区数字经济研讨院),创始人兼理事长为沈向洋。

  它可认为图画/视频中的任何物体生成mask,包含练习过程中没呈现过的物体和图画。

  经过让SAM关于任何提示都回来有用的mask, 能够让模型在即便提示是含糊的或许指向多个目标的情况下,输出也应该是一切或许中一个合理的mask。这一使命用于预练习模型并经过提示处理一般的下流切割使命。

  模型结构主要由一个图画编码器、一个提示编码器和一个快速mask解码器组成。在核算图画嵌入后,SAM能够在50毫秒内依据web中的任何提示生成一个切割。

  二者结合后,能够经过文本描绘找到图片中的恣意物体,然后经过SAM强壮的切割才能,细粒度地切割出mask.

  在这些才能之上,他们还叠加了Stable Diffusion的才能,也便是最初所展现的可控图画生成。

  值得一提的是,Stable Diffusion此前也能够完成相似功用。只需涂抹掉想替换的图画元素,再输入文本提示就能够。

  这一回,Grounded SAM能够省去手动选区这个过程,直接经过文本描绘来操控。

  详细食用方法也已在GitHub上给出。项目需求Python 3.8以上版别,pytorch 1.7以上版别,torchvision 0.8以上版别,并要装置相关依靠项。详细内容可看GitHub项目页。

  揭露音讯显现,该研讨院是一所面向人工智能、数字经济工业及前沿科技的国际化创新式研讨组织,前微软亚研院首席科学家、前微软全球智行副总裁沈向洋博士担任创始人及理事长。

  构成一个主动生成图画标签、box和mask的pipeline,并能生成新的图画。

  值得一提的是,该项意图团队成员中,有不少都是知乎AI范畴活泼的答主,这次也在知乎上自答了关于Grounded SAM的内容,感兴趣的童鞋能够去留言讨教~

  原标题:《视觉AI才能大一统!主动化图画检测切割,还能可控文生图,华人团队出品》

  本文为汹涌号作者或组织在汹涌新闻上传并发布,仅代表该作者或组织观念,不代表汹涌新闻的观念或态度,汹涌新闻仅供给信息发布渠道。请求汹涌号请用电脑拜访。