国产多模态模型CogVLM-17B,由清华和智谱AI合作开发,具有更强大的视觉与语言模型之间的深度对齐能力。其在10项权威跨模态基准上的表现也超越了国外的开源模型,取得了SOTA性能。与此同时,该模型还能完成各种类型的视觉问题,例如从马斯克的阴阳怪气中推理出小扎假装去旅行、认出照片中的C罗并回答他在2018年世界杯中的进球情况等。该模型还能够自动进行复杂的目标检测并为其打上标签,实现了从浅层对齐到深度融合的转变。相比之前主流的浅层对齐方法(如BLIP-2),其表现更为出色,同时不会损害其NLP能力。值得注意的是,该模型的训练数据中没有专门的OCR数据,但其文字识别能力却非常强。目前该模型已经开源,并提供了在线试玩功能,支持英文语言。未来将提供中文双语版本,并持续关注相关动态。其试玩地址为:http://36.103.203.44:7861。
看过本文的人还看过
- 全国人民代表大会举办互联网议政远程控制协商会 紧紧围绕“全方位加强新时期中小学校劳动教育”商谈议政 杜青林组织
- 有人觉得中暑就是热出来的,吃一些退烧药就好了,这种做法 蚂蚁庄园今日答案6月28日
- 英国单日增加新冠诊断患者超51万例 创肺炎疫情至今新纪录
- APEC宣言口号注重加强地区经贸关系 战疫情,促恢复
- 中国香港涉暴网媒“众新闻报道”公布终止运行
- 倍思新品发布会: 499元 带智能数显屏的快充充电宝
- 直播热度百强榜出炉!视频号直播打赏玩法有哪些?,给主播打赏的人都是怎样的人
- 汇报称:“湘江优秀人才带”发展趋势水准“东高西低”梯度方向布局显著
- 想学个技术学什么好,家里想让学个技术,学个什么好?
- iOS系统设备怎么装两个微信,苹果手机怎么安装两个微信