10 月 19 日,北京大学软件工程国家工程研究中心知识计算实验室与四川天府银行 AI 实验室联合开源了一项重要的研究成果——70 亿参数的代码大模型 CodeShell。这款被称为“同等规模最强代码基座”的模型在 GitHub 上已经上线。
据官方介绍,CodeShell-7B 是基于 5000 亿 Tokens 进行冷启动训练的,并且采用了 StarCoder 和 Llama 的核心特性。该模型使用自家爬取的 Github 数据、Stack 和 StarCoder 数据集以及少量高质量中英文数据进行预训练,并通过一系列流水线处理来提高数据质量。
CodeShell 构建了一个包含 7 万个词的词表,能够实现中文、英文和代码压缩比分别为 2.83、3.29、3.21 的平衡且高效的编解码。性能方面,Codeshell 基于 Megatron-LM,在 Attention 算子优化、数据预处理、数据加载、日志输出等方面进行了深度定制,并支持 Flash Attention2 加速,其每秒可处理高达 3400 Token 的编程任务。
此外,官方还介绍了基于 CodeShell 打造的“全能代码助手模型”CodeShell-Chat。这款 AI 工具支持对话、代码生成、代码补齐、代码注释、代码检查与测试用例生成等功能。同时,该插件也适用于各种主流编程语言,并提供了专注模式和交互模式以提升开发者效率。
这项研究成果有望为业界带来全新的代码处理方式,并进一步推动人工智能技术在软件开发领域的应用。