bob电竞入口:视觉AI才能大一统主动化图画检测切割还能可控文生图

发布时间：2023-04-26 02:00:59 来源：bob电竞体育作者：bob电竞体育官网

这不，Meta的SAM刚刚推出几天，就有国内程序猿来了波buff叠加，把方针检测、切割、生成几大视觉AI功用all in one！

比方依据Stable Diffusion和SAM，就能让照片中的椅子无缝换成沙发：

简略来说，这便是一个zero-shot视觉使用，只需求输入图片，就能主动化检测和切割图画。

该研讨来自IDEA研讨院（粤港澳大湾区数字经济研讨院），创始人兼理事长为沈向洋。

它可认为图画/视频中的任何物体生成mask，包含练习过程中没呈现过的物体和图画。

经过让SAM关于任何提示都回来有用的mask，能够让模型在即便提示是含糊的或许指向多个目标的情况下，输出也应该是一切或许中一个合理的mask。这一使命用于预练习模型并经过提示处理一般的下流切割使命。

模型结构主要由一个图画编码器、一个提示编码器和一个快速mask解码器组成。在核算图画嵌入后，SAM能够在50毫秒内依据web中的任何提示生成一个切割。

二者结合后，能够经过文本描绘找到图片中的恣意物体，然后经过SAM强壮的切割才能，细粒度地切割出mask.

在这些才能之上，他们还叠加了Stable Diffusion的才能，也便是最初所展现的可控图画生成。

值得一提的是，Stable Diffusion此前也能够完成相似功用。只需涂抹掉想替换的图画元素，再输入文本提示就能够。

这一回，Grounded SAM能够省去手动选区这个过程，直接经过文本描绘来操控。

详细食用方法也已在GitHub上给出。项目需求Python 3.8以上版别，pytorch 1.7以上版别，torchvision 0.8以上版别，并要装置相关依靠项。详细内容可看GitHub项目页。

揭露音讯显现，该研讨院是一所面向人工智能、数字经济工业及前沿科技的国际化创新式研讨组织，前微软亚研院首席科学家、前微软全球智行副总裁沈向洋博士担任创始人及理事长。

构成一个主动生成图画标签、box和mask的pipeline，并能生成新的图画。

值得一提的是，该项意图团队成员中，有不少都是知乎AI范畴活泼的答主，这次也在知乎上自答了关于Grounded SAM的内容，感兴趣的童鞋能够去留言讨教~

原标题：《视觉AI才能大一统！主动化图画检测切割，还能可控文生图，华人团队出品》

本文为汹涌号作者或组织在汹涌新闻上传并发布，仅代表该作者或组织观念，不代表汹涌新闻的观念或态度，汹涌新闻仅供给信息发布渠道。请求汹涌号请用电脑拜访。

上一篇: 赛摩智能：现在公司承接了中电科芯片及元器件机器视觉检测项目智能检测工作站瓷件主动磨边项目下一篇: 美国者冲击国会大厦竟被做成了游戏

返回列表相关案例