昆仑万维官方近日宣布开源了其开发的“天工”大语言模型“天工”Skywork-13B系列,并配套发布了600GB、150B Tokens的超大高质量中文数据集。据悉,该系列包含Skywork-13B-Base和Skywork-13B-Math两款模型,并附带这150亿中文数据。
此次公开的数据集是目前最大的开源中文数据之一,大小约600GB,总token数量约为150亿。值得注意的是,昆仑万维还公布了使用该模型所需的评估方法、数据配比研究和训练基础设施调优方案等信息,为大型模型预训练提供了更多技术支持。
以往,许多中文大模型只能用于研究目的而无法直接商用,需要进行复杂的授权申请流程才能获得使用许可。然而,“天工”Skywork-13B系列的大模型却完全开放了商用许可,用户无需再次申请授权即可将其用于商业用途。
这一举措将帮助更多对中文大模型感兴趣的用户和企业在行业中取得进步。目前,“天工”Skywork-13B系列已在ModelScope平台上线供下载,用户可通过昆仑万维的官网获取相关信息及下载链接。