腾讯混元大模型迎来重磅升级,1个多月后正式对外开放“文生图”功能。升级后的腾讯混元中文效果超过GPT3.5,代码能力大幅提升20%,达到业界领先水平。
与其他大模型相比,腾讯混元的文生图应用在人像真实感、场景真实感上有明显优势,在中国风景、动漫游戏等场景生成上也有较好的表现。
大模型文生图的难点主要体现在对提示词的语义理解、生成内容的合理性以及生成图片的效果。为了解决这些问题,腾讯进行了专项技术研究,并提出一系列原创算法来保证生成图片的可用性和画质。
具体来说,在语义理解方面,腾讯混元采用了中英文双语细粒度的模型,同时实现中英文双语理解,避免通过翻译导致理解错误。此外,混元文生图还增强了算法模型的图像二维空间位置感知能力,并引入人体骨架和人手结构等先验信息来提高生成图片的合理性和减少错误率。
在质感方面,混元文生图的人像模型效果提升了30%,场景模型效果提升25%。这意味着用户可以通过该功能生成更真实、更具细节的照片和图像。
据称,腾讯混元大模型参数规模超千亿,预训练语料超2万亿tokens。它具有中文创作能力、任务执行能力和复杂语境下的逻辑推理能力。用户可以将混元用于各种场景下处理超长文本,并且通过位置编码优化来提高长文处理效果和性能。
腾讯云、腾讯广告、微信搜一搜等多个内部业务和产品已经测试了混元大模型,并且还推出了基于混元的大行业模型供客户使用。