AI 编程 - 模力方舟（Gitee AI）

模型广场HOT 算力市场模型微调应用市场文档

模型专题

AI 编程

欢迎大家来社区探索学习及开源分享 AI 编程大模型，本专题我们为大家呈现最新、最强、最典型的开源 AI 编程大模型，旨在帮助大家更深入地了解 AI 编程领域的最新技术进展，希望各位社区的开发者能在这些模型的基础之上做更多的尝试和创新，也欢迎大家贡献更多的 AI 编程大模型，共同推动人工智能技术的发展和应用。

模型数据集

BigCode

BigCode

StarCoder

BigCode 是由 Hugging Face 和 ServiceNow 共同领导的开放式科学合作项目，该项目致力于开发负责任的代码大模型。

bigcode/starcoder

StarCoder模型是15.5亿参数的模型，训练于The Stack中的80多种编程语言，排除了选择退出的请求。该模型使用多查询注意力机制，拥有8192个令牌的上下文窗口，并采用了Fill-in-the-Middle目标在1万亿令牌上进行训练。

bigcode/starcoder2-7b

StarCoder2-7B 模型是一个具有 70 亿参数的模型，基于 The Stack v2 中的 17 种编程语言进行训练，并排除了选择退出的请求。该模型使用分组查询注意力机制，具有 16,384 个标记的上下文窗口和 4,096 个标记的滑动窗口注意力机制，并采用填中补空目标在超过3.5 万亿个标记上进行训练。

bigcode/starcoderbase

StarCoderBase模型是15.5亿参数的模型，针对来自The Stack (v1.2)的80多种编程语言进行训练，排除了选择退出的请求。该模型采用多查询注意力机制，具有8192个令牌的上下文窗口，并使用填充中间（Fill-in-the-Middle）目标在1万亿令牌上进行了训练。

bigcode/starcoderplus

StarCoderPlus是对StarCoderBase的微调版本，其训练数据混合了：英文网络数据集RefinedWeb (1x)、来自Stack的StarCoderData数据集 (v1.2) (1x)、已上采样 5 倍 (5x) 的维基百科数据集。

bigcode/starcoder2-15b-instruct-v0.1

这是第一个完全自对齐的代码大语言模型（LLM），使用完全开放和透明的流程进行训练。使用 StarCoder2-15B 生成数千个指令-响应对，然后用这些对来微调 StarCoder-15B 本身，无需任何人工注释或来自大型专有LLM的蒸馏数据。

bigcode/starcoder2-15b

StarCoder2-15B模型是一个具有150亿参数的模型，在The Stack v2数据集中，经过600多种编程语言的训练，并且排除了选择退出的请求。该模型使用分组查询注意力、拥有16,384个标记的上下文窗口以及4,096个标记的滑动窗口注意力，并且使用填充中间目标在超过4万亿个标记上进行训练。

Code Llama

Code Llama

Code Llama

Code Llama 是 Llama 2 的代码专用版本，是通过在其特定于代码的数据集上进一步训练 Llama 2 来创建的，从同一数据集中采样更多数据的时间更长。从本质上讲，Code Llama 具有增强的编码功能。

codellama/CodeLlama-7b-Instruct-hf

Code Llama 7B指令调整版本，经过预训练和微调的生成文本模型，参数规模从70亿到340亿不等，专为一般代码综合和理解而设计。

codellama/CodeLlama-13b-Instruct-hf

Code Llama 13B指令调整版本，经过预训练和微调的生成文本模型，参数规模从70亿到340亿不等，专为一般代码综合和理解而设计。

codellama/CodeLlama-7b-hf

Code Llama 7B基本版本，经过预训练和微调的生成文本模型，参数规模从70亿到340亿不等，专为一般代码综合和理解而设计。

codellama/CodeLlama-7b-Python-hf

Code Llama 7B Python专业版本，经过预训练和微调的生成文本模型，参数规模从70亿到340亿不等，专为一般代码综合和理解而设计。

codellama/CodeLlama-34b-Instruct-hf

Code Llama 34B指令调整版本，经过预训练和微调的生成文本模型，参数规模从70亿到340亿不等，专为一般代码综合和理解而设计。

codellama/CodeLlama-13b-hf

Code Llama 13B基本版本，经过预训练和微调的生成文本模型，参数规模从70亿到340亿不等，专为一般代码综合和理解而设计。

codellama/CodeLlama-13b-Python-hf

Code Llama 13B Python专业版本，经过预训练和微调的生成文本模型，参数规模从70亿到340亿不等，专为一般代码综合和理解而设计。

codellama/CodeLlama-34b-Python-hf

Code Llama 34B Python专业版本，经过预训练和微调的生成文本模型，参数规模从70亿到340亿不等，专为一般代码综合和理解而设计。

codellama/CodeLlama-34b-hf

Code Llama 34B基本版本，经过预训练和微调的生成文本模型，参数规模从70亿到340亿不等，专为一般代码综合和理解而设计。

CodeFuse AI

CodeFuse AI

CodeFuse

CodeFuse的使命是开发专门设计用于支持整个软件开发周期的大型语言代码模型（Code LLM），涵盖设计、需求、编码、测试、部署、维护等关键阶段。我们致力于打造创新的生命解决方案，让软件开发者们在研发的过程中如丝顺滑。

codefuse-ai/CodeFuse-CodeLlama-34B

CodeFuse-CodeLlama34B-MFT是一个通过QLoRA对基座模型CodeLlama-34b-Python进行多代码任务微调的代码大模型。模型微调采用了4k上下文。如果有必要，可以扩展到16k。

codefuse-ai/CodeFuse-13B

CodeFuse-13B是基于GPT-NeoX框架训练的13B参数代码生成模型，能够处理4096个字符的代码序列。该模型在1000B Token的代码、中文、英文数据数据集上进行预训练，覆盖超过40种编程语言。

codefuse-ai/CodeFuse-CodeGeeX2-6B

CodeFuse-CodeGeeX2-6B是在基本模型 CodeGeeX2 上通过 LoRA 对多个代码任务进行微调的 6B Code-LLM。

codefuse-ai/CodeFuse-CodeLlama-34B-4bits

CodeFuse-CodeLlama-34B-4bits是CodeFuse-CodeLlama-34B模型的4bits量化版本，后者是通过QLoRA对基座模型CodeLlama-34b-Python进行多代码任务微调而得到的代码大模型，模型输入长度为4K。

codefuse-ai/CodeFuse-StarCoder-15B

CodeFuse-StarCoder-15B是一个通过QLoRA对基座模型StarCoder进行多代码任务微调的代码大模型。模型微调采用了4k上下文。采用了MQA技术，推理速度比较快。

DeepSeek

DeepSeek

DeepSeek Code

DeepSeek Coder 由一系列代码语言模型组成，每个模型从零开始训练，使用2T标记，包含87%的代码和13%的自然语言（包括英文和中文）。我们提供各种尺寸的代码模型，范围从1B到33B不等。每个模型通过在项目级代码语料库上预训练，使用16K窗口大小和额外的填空任务，以支持项目级代码完成和填充。在编码能力方面，DeepSeek Coder 在多种编程语言和各种基准测试中，在开源代码模型中达到了最先进的性能。

deepseek-ai/deepseek-coder-33b-instruct

DeepSeek Coder 33B 是一个代码语言模型，基于 2 万亿数据训练而成，其中 87% 为代码， 13% 为中英文语言。模型引入 16K 窗口大小和填空任务，提供项目级别的代码补全和片段填充功能。

封神榜

封神榜

Ziya-Coding

Ziya-Coding 系列由 IDEA 研究院“封神榜”团队发布，可以根据指令完成生成和修改代码、代码解释、代码续写、NL2SQL 等一系列的代码相关任务。

IDEA-CCNL/Ziya-Coding-34B-v1.0

基于训练Ziya-Coding-15B-v1积累的训练经验，发布了大模型Ziya-Coding-34B-v1.0，并在HumanEval Pass@1的评测上，取得了75.5的好成绩，超过了GPT-4（67.0）的得分，也成为目前已知开源模型新高。

IDEA-CCNL/Ziya-Coding-15B-v1

Ziya-Coding-15B-v1是基于StarCoderBase的155亿参数预训练模型。它可以根据指令完成生成和修改代码、代码解释、代码延续、NL2SQL等一系列与代码相关的任务。目前，Ziya-Writing-LLaMa-13B-v1已完成大规模预训练（PT）和监督微调（SFT）训练过程。

MetaAI

MetaAI

InCode

InCoder是MetaAI在2022年4月发布的一个编程大模型，其中重点是Python和JavaScript。

facebook/incoder-1B

使用因果屏蔽目标对代码进行训练的仅 1B 参数解码器 Transformer 模型，允许插入/填充代码以及标准的从左到右生成。

facebook/incoder-6B

这是一个6亿参数的仅解码器的Transformer模型，专门针对代码进行训练，使用因果掩码目标，允许插入/填充代码以及标准的从左到右的生成。

Microsoft

Microsoft

WaveCoder

WaveCoder 🌊 是一系列用于编码领域的大型语言模型（LLM），旨在通过指令学习解决代码领域中的相关问题。它的训练数据集是基于我们提出的生成器-鉴别器框架，从code-search-net数据的子集中生成的，涵盖四个通用的代码相关任务：代码生成、代码摘要、代码翻译和代码修复。

microsoft/wavecoder-ultra-6.7b

WaveCoder-Pro-6.7B 是一款高性能的开源代码语言模型，使用增强的 CodeSeaXDataset 数据集进行训练。它在 HumanEval 基准测试中实现了 72.0% 的 pass@1 成绩，超越了其他开源代码语言模型，尽管仍略逊于一些专有模型

microsoft/wavecoder-pro-6.7b

WaveCoder-Ultra-6.7B 是一款先进的开源大型语言模型，专为代码生成、代码摘要、代码转换和代码修复等多任务场景设计。该模型通过结合增强的 CodeSeaXDataset 和 WaveCoder-evol-codealpaca 数据集进行训练，具备卓越的泛化能力，在 HumanEval 基准测试中达到了 79.9% 的 pass@1 成绩

microsoft/wavecoder-ds-6.7b

WaveCoder-DS-6.7B 是一款专注于代码修复和代码解释任务的开源模型。它在 HumanEvalFix 和 HumanEvalExplain 基准测试中表现出色，分别达到了 49.5% 和 40.8% 的 pass@1 成绩，超过了所有开源模型

Qwen

Qwen

Qwen

Qwen2.5-Coder 是最新系列的代码专用 Qwen 大型语言模型（以前称为 CodeQwen）。截至目前，Qwen2.5-Coder 已经涵盖了六种主流模型大小，0.5B、1.5B、3B、7B、14B、32B 参数，以满足不同开发者的需求。

Qwen/Qwen2.5-Coder-32B-Instruct

Qwen2.5-Coder-32B-Instruct 是一款专为代码生成、代码理解和高效开发场景设计的大型语言模型，采用了业界领先的32B参数规模，能够满足多样化的编程需求。

Qwen/Qwen2.5-Coder-14B-Instruct

Qwen2.5-Coder-14B-Instruct 是一款基于大规模预训练的编程指令模型，具备强大的代码理解和生成能力，能够高效地处理各种编程任务，特别适合智能代码编写、自动化脚本生成和编程问题解答。

Replit

Replit

Replit Code

Replit Code 是Replit发布的一个大模型，用以生成代码的工具。

replit/replit-code-v1-3b

Replit Code V1-3b是Replit发布的一个大模型，用以生成代码的工具。模型大27亿参数。支持20种编程语言，基于5250亿个tokens进行训练。训练了10天后比现有所有的开源模型效果都好（基于人工评估）。

replit/replit-code-v1_5-3b

Replit Code v1.5 是一个专注于代码生成的3.3B 参数因果语言模型。

Salesforce

CodeGen

CodeT5+

CodeGen 由Salesforce发布的一系列模型，旨在根据开发人员的提示编写代码，并减轻编写代码本身的需要。

CodeT5+ 是代码大语言模型系列，采用编码器-解码器架构，可灵活地以不同模式（即仅编码器、仅解码器和编码器-解码器）运行，以支持各种代码理解和生成任务。

Salesforce/codet5p-6b

CodeT5+是一个新的开放代码大语言模型家族，具有编码器-解码器架构，可以灵活地在不同模式下运行，以支持广泛的代码理解和生成任务。

Salesforce/codet5p-770m-py

CodeT5+是一个新的开放代码大语言模型家族，具有编码器-解码器架构，可以灵活地在不同模式下运行，以支持广泛的代码理解和生成任务，codet5p-770m-py 是在Python上进一步调优。

Salesforce/codet5p-16b

端到端文本生成

CodeT5+是一个新的开放代码大语言模型家族，具有编码器-解码器架构，可以灵活地在不同模式下运行，以支持广泛的代码理解和生成任务。

Salesforce/codegen25-7b-multi

该模型以CodeGen2为基础，在StarCoderData上针对 1.4T tokens进行训练，与 StarCoderBase-15.5B 相比，其大小不到一半，取得了有竞争力的结果。该模型具有填充能力，并且支持多种编程语言。

Salesforce/codegen25-7b-mono

该模型以CodeGen2为基础，在StarCoderData上针对 1.4T tokens进行训练，与 StarCoderBase-15.5B 相比，其大小不到一半，取得了有竞争力的结果。该模型具有填充能力，并且支持多种编程语言。

Salesforce/codet5p-220m-bimodal

CodeT5+是一个新的开放代码大语言模型家族，具有编码器-解码器架构，可以灵活地在不同模式下运行，以支持广泛的代码理解和生成任务。

Salesforce/codet5p-110m-embedding

CodeT5+是一个新的开放代码大语言模型家族，具有编码器-解码器架构，可以灵活地在不同模式下运行，以支持广泛的代码理解和生成任务。

Salesforce/codegen-16B-multi

其中“Multi”表示模型使用CodeGen-NL 16B进行初始化，并在多种编程语言的数据集上进一步进行预训练，“16B”指的是可训练参数的数量。

Salesforce/codegen25-7b-instruct

CodeGen2.5是一系列用于程序综合的自回归语言模型，该模型以CodeGen2为基础，在StarCoderData上针对 1.4T 代币进行训练，与 StarCoderBase-15.5B 相比，其大小不到一半，取得了有竞争力的结果。

Salesforce/codegen-2B-mono

CodeGen 是一系列用于程序综合的自回归语言模型

Salesforce/codet5p-770m

CodeT5+是一个新的开放代码大语言模型家族，具有编码器-解码器架构，可以灵活地在不同模式下运行，以支持广泛的代码理解和生成任务。

Salesforce/codet5p-2b

CodeT5+是一个新的开放代码大语言模型家族，具有编码器-解码器架构，可以灵活地在不同模式下运行，以支持广泛的代码理解和生成任务。

Salesforce/codegen2-1B

CodeGen2是一个用于程序综合的自回归语言模型系列，CodeGen2具有填充能力，并且支持多种编程语言。

Salesforce/codegen-16B-nl

CodeGen 是一系列用于程序综合的自回归语言模型，其中“NL”表示它是在 Pile 上预训练的，“16B”指的是可训练参数的数量

Salesforce/codet5p-220m-py

CodeT5+是一个新的开放代码大语言模型家族，具有编码器-解码器架构，可以灵活地在不同模式下运行，以支持广泛的代码理解和生成任务，codet5p-220m-py 是在Python上进一步调优。

Salesforce/codet5-small

端到端文本生成

CodeT5是一个统一的预训练编码器-解码器 Transformer 模型，可以更好地利用开发人员分配的标识符传达的代码语义

Salesforce/codegen2-7B

CodeGen2是一个用于程序综合的自回归语言模型系列，CodeGen2具有填充能力，并且支持多种编程语言。

Salesforce/codegen2-3_7B

CodeGen2是一个用于程序综合的自回归语言模型系列，CodeGen2具有填充能力，并且支持多种编程语言。

Salesforce/codegen-2B-nl

CodeGen 是一系列用于程序综合的自回归语言模型，其中“NL”表示它是在 Pile 上预训练的，“2B”指的是可训练参数的数量。

Salesforce/codegen-6B-nl

CodeGen 是一系列用于程序综合的自回归语言模型，其中“NL”表示它是在 Pile 上预训练的，“6B”指的是可训练参数的数量

Salesforce/codegen2-16B

CodeGen2是一个用于程序综合的自回归语言模型系列，CodeGen2具有填充能力，并且支持多种编程语言。

Stability AI

Stability AI

Stable Code

Stability AI 是 Stable Diffusion 图像生成工具背后的公司，如今他们不再局限于图像 / 视频生成领域。

stabilityai/stable-code-3b

Stable Code 3B 专注于代码能力，可理解处理 18 种不同的编程语言，上下文长度 100K token。它对硬件要求也不高，用 MacBook Air 等普通笔记本电脑也能离线运行。

智谱AI

智谱AI

CodeGeeX

CodeGeeX 由智谱 AI 团队发布，支持中英文对话解决各种编程问题，包括且不限于代码解释、代码翻译、代码纠错、文档生成等，帮助程序员更高效开发。

THUDM/codegeex2-6b

CodeGeeX2 是多语言代码生成模型 CodeGeeX 的第二代模型。CodeGeeX2 基于 ChatGLM2 架构加入代码预训练实现，得益于 ChatGLM2 的更优性能，CodeGeeX2 在多项指标上取得性能提升（+107% > CodeGeeX；仅60亿参数即超过150亿参数的 StarCoder-15B 近10%）更多特性包括更强大的代码能力、更优秀的模型特性、更全面的AI编程助手、更开放的协议。

THUDM/codegeex2-6b-int4

在CodeGeeX2 的基础上采用了int4 量化推理，加快推理速度。

THUDM/codegeex4-all-9b

CodeGeeX4-ALL-9B 是一个多语言代码生成模型，支持包括代码补全和生成、代码解释器、网络搜索、函数调用、仓库级代码问答在内的全面功能，覆盖软件开发的各种场景。是参数少于 10B 的顶尖代码生成模型。

注：此顺序按字母排序仅用于方便查阅，并不代表任何形式的优先级或评价。

快捷导航

BigCode

Code Llama

CodeFuse AI

DeepSeek

封神榜

MetaAI

Microsoft

Qwen

Replit

Stability AI

智谱AI