FERRET多模态大模型:任意粒度引用与接地任何物体

2023-12互联网📊 哥伦比亚大学、Apple AI/ML¥3

报告维度

📄 文件全名
雪貂:在任何粒度的任何地方引用和研磨任何东西论文-英
🎯 适合读者
AI研究人员NLP工程师计算机视觉开发者
📚 数据来源
多方数据交叉验证
🏷️ 核心议题
#互联网#FERRET
📦 本报告属于月份合集
购买后将获得「2023 年 12 月报告合集 · 共 2587 份报告打包下载链接
支付即将开放

报告摘要

FERRET是一种增强多模态大语言模型引用与接地能力的框架,支持在任意空间粒度下精确引用和定位图像中的任何物体。通过区域和框的混合表示,实现灵活交互,在多个基准上取得领先性能。

📋 核心要点(部分)

  1. 引言
  2. 方法
  3. 实验
  4. 结论

同分类推荐

📱 登录
FERRET多模态大模型:任意粒度引用与接地任何物体 | 资料宝