事项:
4月5日,Meta发布机器视觉领域首个用于图像分割的通用大模型SegmentAnythingModel(SAM)及其训练数据集SegmentAnything1-Billion(SA-1B),并将该模型及数据集在GitHub上开源,以促进机器视觉通用基础大模型的进一步研究。
国信传媒观点:1)SAM是计算机视觉领域发布第一个用于图像分割的、可通过提示(prompt)方式应用的通用大模型,类似自然语言领域(NLP)中的大模型ChatGPT;2)从模型框架上看,该模型和NLP领域大模型一样采用Transformer架构,该模型及其数据集开源发布将会大幅促进机器视觉通用基础大模型的进一步研究。SAM可以与NLP方向的大模型一同成为更大AI系统的组成部分,理解网页的视觉和文本内容,并对世界进行多模态的理解与生成;3)从应用场景上来看,SAM可用于帮助需要在任何图像中查找和分割对象的众多领域中的应用程序;对于内容创作者,SAM可以改进创意应用,例如提取图像区域以进行拼贴或视频编辑;在AR/VR领域,SAM可以根据用户的视线选择对象,然后将其“提升”为3D等等;
我们认为,从ChatGPT到SAM、从文本到视觉,大模型技术有望实现从单一?
声明:本站所有报告及文章,如无特殊说明或标注,均为本站用户发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。