FERRET多模态大模型:任意粒度引用与接地任何物体
2023-12互联网📊 哥伦比亚大学、Apple AI/ML¥3
报告维度
- 📄 文件全名
- 《雪貂:在任何粒度的任何地方引用和研磨任何东西论文-英》
- 🎯 适合读者
- AI研究人员NLP工程师计算机视觉开发者
- 📚 数据来源
- 多方数据交叉验证
- 🏷️ 核心议题
- #互联网#FERRET
FERRET是一种增强多模态大语言模型引用与接地能力的框架,支持在任意空间粒度下精确引用和定位图像中的任何物体。通过区域和框的混合表示,实现灵活交互,在多个基准上取得领先性能。