首页
手机版
当前位置:首页 > 文章教程 > 新闻资讯 > 国产多模态模型开源:文字识别能力惊人

国产多模态模型开源:文字识别能力惊人

2023-10-11 08:49:51 来源:天空软件网 我要评论()

用手机看

扫描二维码查看并分享给您的朋友

国产多模态模型CogVLM-17B,由清华和智谱AI合作开发,具有更强大的视觉与语言模型之间的深度对齐能力。其在10项权威跨模态基准上的表现也超越了国外的开源模型,取得了SOTA性能。与此同时,该模型还能完成各种类型的视觉问题,例如从马斯克的阴阳怪气中推理出小扎假装去旅行、认出照片中的C罗并回答他在2018年世界杯中的进球情况等。该模型还能够自动进行复杂的目标检测并为其打上标签,实现了从浅层对齐到深度融合的转变。相比之前主流的浅层对齐方法(如BLIP-2),其表现更为出色,同时不会损害其NLP能力。值得注意的是,该模型的训练数据中没有专门的OCR数据,但其文字识别能力却非常强。目前该模型已经开源,并提供了在线试玩功能,支持英文语言。未来将提供中文双语版本,并持续关注相关动态。其试玩地址为:http://36.103.203.44:7861。

热门软件

  • 电脑软件
  • 手机软件
  • 手机游戏
更多>

用户评论

[!--temp.www_96kaifa_com_cy--]
返回顶部