模型专题
AI 编程
欢迎大家来社区探索学习及开源分享 AI 编程大模型,本专题我们为大家呈现最新、最强、最典型的开源 AI 编程大模型,旨在帮助大家更深入地了解 AI 编程领域的最新技术进展,希望各位社区的开发者能在这些模型的基础之上做更多的尝试和创新,也欢迎大家贡献更多的 AI 编程大模型,共同推动人工智能技术的发展和应用。
BigCode
StarCoder
BigCode 是由 Hugging Face 和 ServiceNow 共同领导的开放式科学合作项目,该项目致力于开发负责任的代码大模型。
bigcode/starcoder2-7b
文本生成
Transformers
Safetensors
StarCoder2-7B 模型是一个具有 70 亿参数的模型,基于 The Stack v2 中的 17 种编程语言进行训练,并排除了选择退出的请求。该模型使用分组查询注意力机制,具有 16,384 个标记的上下文窗口和 4,096 个标记的滑动窗口注意力机制,并采用填中补空目标在超过3.5 万亿个标记上进行训练。
bigcode
60
0
bigcode/starcoder
文本生成
PyTorch
Transformers
StarCoder模型是15.5亿参数的模型,训练于The Stack中的80多种编程语言,排除了选择退出的请求。该模型使用多查询注意力机制,拥有8192个令牌的上下文窗口,并采用了Fill-in-the-Middle目标在1万亿令牌上进行训练。
bigcode
40
0
bigcode/starcoderplus
文本生成
PyTorch
Transformers
StarCoderPlus是对StarCoderBase的微调版本,其训练数据混合了:英文网络数据集RefinedWeb (1x)、来自Stack的StarCoderData数据集 (v1.2) (1x)、已上采样 5 倍 (5x) 的维基百科数据集。
bigcode
29
0
bigcode/starcoderbase
文本生成
PyTorch
Transformers
StarCoderBase模型是15.5亿参数的模型,针对来自The Stack (v1.2)的80多种编程语言进行训练,排除了选择退出的请求。该模型采用多查询注意力机制,具有8192个令牌的上下文窗口,并使用填充中间(Fill-in-the-Middle)目标在1万亿令牌上进行了训练。
bigcode
28
0
bigcode/starcoder2-15b-instruct-v0.1
文本生成
对话生成
Transformers
Safetensors
这是第一个完全自对齐的代码大语言模型(LLM),使用完全开放和透明的流程进行训练。使用 StarCoder2-15B 生成数千个指令-响应对,然后用这些对来微调 StarCoder-15B 本身,无需任何人工注释或来自大型专有LLM的蒸馏数据。
bigcode
13
0
bigcode/starcoder2-15b
文本生成
Transformers
Safetensors
StarCoder2-15B模型是一个具有150亿参数的模型,在The Stack v2数据集中,经过600多种编程语言的训练,并且排除了选择退出的请求。该模型使用分组查询注意力、拥有16,384个标记的上下文窗口以及4,096个标记的滑动窗口注意力,并且使用填充中间目标在超过4万亿个标记上进行训练。
bigcode
6
0
Code Llama
Code Llama
Code Llama 是 Llama 2 的代码专用版本,是通过在其特定于代码的数据集上进一步训练 Llama 2 来创建的,从同一数据集中采样更多数据的时间更长。 从本质上讲,Code Llama 具有增强的编码功能。
codellama/CodeLlama-7b-hf
文本生成
PyTorch
Transformers
Safetensors
Code Llama 7B基本版本,经过预训练和微调的生成文本模型,参数规模从70亿到340亿不等,专为一般代码综合和理解而设计。
codellama
82
1
codellama/CodeLlama-13b-Instruct-hf
文本生成
对话生成
PyTorch
Transformers
Safetensors
Code Llama 13B指令调整版本,经过预训练和微调的生成文本模型,参数规模从70亿到340亿不等,专为一般代码综合和理解而设计。
codellama
80
0
codellama/CodeLlama-7b-Instruct-hf
文本生成
对话生成
PyTorch
Transformers
Safetensors
Code Llama 7B指令调整版本,经过预训练和微调的生成文本模型,参数规模从70亿到340亿不等,专为一般代码综合和理解而设计。
codellama
73
0
codellama/CodeLlama-34b-Instruct-hf
文本生成
对话生成
PyTorch
Transformers
Safetensors
Code Llama 34B指令调整版本,经过预训练和微调的生成文本模型,参数规模从70亿到340亿不等,专为一般代码综合和理解而设计。
codellama
58
0
codellama/CodeLlama-13b-hf
文本生成
PyTorch
Transformers
Safetensors
Code Llama 13B基本版本,经过预训练和微调的生成文本模型,参数规模从70亿到340亿不等,专为一般代码综合和理解而设计。
codellama
48
0
codellama/CodeLlama-34b-hf
文本生成
PyTorch
Transformers
Safetensors
Code Llama 34B基本版本,经过预训练和微调的生成文本模型,参数规模从70亿到340亿不等,专为一般代码综合和理解而设计。
codellama
43
0
codellama/CodeLlama-7b-Python-hf
文本生成
Code Llama 7B Python专业版本,经过预训练和微调的生成文本模型,参数规模从70亿到340亿不等,专为一般代码综合和理解而设计。
codellama
43
0
codellama/CodeLlama-34b-Python-hf
文本生成
PyTorch
Transformers
Safetensors
Code Llama 34B Python专业版本,经过预训练和微调的生成文本模型,参数规模从70亿到340亿不等,专为一般代码综合和理解而设计。
codellama
29
0
codellama/CodeLlama-13b-Python-hf
文本生成
PyTorch
Transformers
Safetensors
Code Llama 13B Python专业版本,经过预训练和微调的生成文本模型,参数规模从70亿到340亿不等,专为一般代码综合和理解而设计。
codellama
27
0
CodeFuse AI
CodeFuse
CodeFuse的使命是开发专门设计用于支持整个软件开发周期的大型语言代码模型(Code LLM),涵盖设计、需求、编码、测试、部署、维护等关键阶段。我们致力于打造创新的生命解决方案,让软件开发者们在研发的过程中如丝顺滑。
codefuse-ai/CodeFuse-CodeLlama-34B
文本生成
PyTorch
Transformers
CodeFuse-CodeLlama34B-MFT是一个通过QLoRA对基座模型CodeLlama-34b-Python进行多代码任务微调的代码大模型。模型微调采用了4k上下文。如果有必要,可以扩展到16k。
codefuse-ai
43
4
codefuse-ai/CodeFuse-CodeLlama-34B-4bits
CodeFuse-CodeLlama-34B-4bits是CodeFuse-CodeLlama-34B模型的4bits量化版本,后者是通过QLoRA对基座模型CodeLlama-34b-Python进行多代码任务微调而得到的代码大模型,模型输入长度为4K。
codefuse-ai
29
2
codefuse-ai/CodeFuse-13B
CodeFuse-13B是基于GPT-NeoX框架训练的13B参数代码生成模型,能够处理4096个字符的代码序列。该模型在1000B Token的代码、中文、英文数据数据集上进行预训练,覆盖超过40种编程语言。
codefuse-ai
27
0
codefuse-ai/CodeFuse-CodeGeeX2-6B
CodeFuse-CodeGeeX2-6B是在基本模型 CodeGeeX2 上通过 LoRA 对多个代码任务进行微调的 6B Code-LLM。
codefuse-ai
25
1
codefuse-ai/CodeFuse-StarCoder-15B
CodeFuse-StarCoder-15B是一个通过QLoRA对基座模型StarCoder进行多代码任务微调的代码大模型。模型微调采用了4k上下文。采用了MQA技术,推理速度比较快。
codefuse-ai
21
0
DeepSeek
DeepSeek Code
DeepSeek Coder 由一系列代码语言模型组成,每个模型从零开始训练,使用2T标记,包含87%的代码和13%的自然语言(包括英文和中文)。我们提供各种尺寸的代码模型,范围从1B到33B不等。每个模型通过在项目级代码语料库上预训练,使用16K窗口大小和额外的填空任务,以支持项目级代码完成和填充。 在编码能力方面,DeepSeek Coder 在多种编程语言和各种基准测试中,在开源代码模型中达到了最先进的性能。
MetaAI
InCode
InCoder是MetaAI在2022年4月发布的一个编程大模型,其中重点是Python和JavaScript。
Microsoft
WaveCoder
WaveCoder 🌊 是一系列用于编码领域的大型语言模型(LLM),旨在通过指令学习解决代码领域中的相关问题。它的训练数据集是基于我们提出的生成器-鉴别器框架,从code-search-net数据的子集中生成的,涵盖四个通用的代码相关任务:代码生成、代码摘要、代码翻译和代码修复。
microsoft/wavecoder-ultra-6.7b
文本生成
对话生成
PyTorch
Transformers
WaveCoder-Pro-6.7B 是一款高性能的开源代码语言模型,使用增强的 CodeSeaXDataset 数据集进行训练。它在 HumanEval 基准测试中实现了 72.0% 的 pass@1 成绩,超越了其他开源代码语言模型,尽管仍略逊于一些专有模型
microsoft
84
0
microsoft/wavecoder-pro-6.7b
文本生成
PyTorch
Transformers
WaveCoder-Ultra-6.7B 是一款先进的开源大型语言模型,专为代码生成、代码摘要、代码转换和代码修复等多任务场景设计。该模型通过结合增强的 CodeSeaXDataset 和 WaveCoder-evol-codealpaca 数据集进行训练,具备卓越的泛化能力,在 HumanEval 基准测试中达到了 79.9% 的 pass@1 成绩
microsoft
60
0
microsoft/wavecoder-ds-6.7b
文本生成
PyTorch
Transformers
WaveCoder-DS-6.7B 是一款专注于代码修复和代码解释任务的开源模型。它在 HumanEvalFix 和 HumanEvalExplain 基准测试中表现出色,分别达到了 49.5% 和 40.8% 的 pass@1 成绩,超过了所有开源模型
microsoft
21
0
Qwen
Qwen
Qwen2.5-Coder 是最新系列的代码专用 Qwen 大型语言模型(以前称为 CodeQwen)。截至目前,Qwen2.5-Coder 已经涵盖了六种主流模型大小,0.5B、1.5B、3B、7B、14B、32B 参数,以满足不同开发者的需求。
Qwen/Qwen2.5-Coder-32B-Instruct
文本生成
对话生成
Transformers
Safetensors
Qwen2.5-Coder-32B-Instruct 是一款专为代码生成、代码理解和高效开发场景设计的大型语言模型,采用了业界领先的32B参数规模,能够满足多样化的编程需求。
Qwen
24
1
Qwen/Qwen2.5-Coder-14B-Instruct
文本生成
对话生成
Transformers
Safetensors
Qwen2.5-Coder-14B-Instruct 是一款基于大规模预训练的编程指令模型,具备强大的代码理解和生成能力,能够高效地处理各种编程任务,特别适合智能代码编写、自动化脚本生成和编程问题解答。
Qwen
11
0
Replit
Replit Code
Replit Code 是Replit发布的一个大模型,用以生成代码的工具。
Salesforce
CodeGen
CodeT5+
CodeGen 由Salesforce发布的一系列模型,旨在根据开发人员的提示编写代码,并减轻编写代码本身的需要。
CodeT5+ 是代码大语言模型系列,采用编码器-解码器架构,可灵活地以不同模式(即仅编码器、仅解码器和编码器-解码器)运行,以支持各种代码理解和生成任务。
Salesforce/codegen25-7b-instruct
文本生成
CodeGen2.5是一系列用于程序综合的自回归语言模型,该模型以CodeGen2为基础,在StarCoderData上针对 1.4T 代币进行训练,与 StarCoderBase-15.5B 相比,其大小不到一半,取得了有竞争力的结果。
Salesforce
32
0
Salesforce/codet5p-220m-bimodal
特征抽取
PyTorch
Transformers
CodeT5+是一个新的开放代码大语言模型家族,具有编码器-解码器架构,可以灵活地在不同模式下运行,以支持广泛的代码理解和生成任务。
Salesforce
32
0
Salesforce/codegen25-7b-multi
文本生成
PyTorch
Transformers
该模型以CodeGen2为基础,在StarCoderData上针对 1.4T tokens进行训练,与 StarCoderBase-15.5B 相比,其大小不到一半,取得了有竞争力的结果。该模型具有填充能力,并且支持多种编程语言。
Salesforce
29
0
Salesforce/codet5-small
端到端文本生成
PyTorch
Transformers
CodeT5是一个统一的预训练编码器-解码器 Transformer 模型,可以更好地利用开发人员分配的标识符传达的代码语义
Salesforce
27
0
Salesforce/codegen25-7b-mono
文本生成
该模型以CodeGen2为基础,在StarCoderData上针对 1.4T tokens进行训练,与 StarCoderBase-15.5B 相比,其大小不到一半,取得了有竞争力的结果。该模型具有填充能力,并且支持多种编程语言。
Salesforce
26
0
Salesforce/codet5p-110m-embedding
PyTorch
Transformers
CodeT5+是一个新的开放代码大语言模型家族,具有编码器-解码器架构,可以灵活地在不同模式下运行,以支持广泛的代码理解和生成任务。
Salesforce
25
0
Salesforce/codet5p-6b
CodeT5+是一个新的开放代码大语言模型家族,具有编码器-解码器架构,可以灵活地在不同模式下运行,以支持广泛的代码理解和生成任务。
Salesforce
25
0
Salesforce/codet5p-2b
CodeT5+是一个新的开放代码大语言模型家族,具有编码器-解码器架构,可以灵活地在不同模式下运行,以支持广泛的代码理解和生成任务。
Salesforce
25
0
Salesforce/codegen-2B-mono
CodeGen 是一系列用于程序综合的自回归语言模型
Salesforce
23
0
Salesforce/codet5p-770m
CodeT5+是一个新的开放代码大语言模型家族,具有编码器-解码器架构,可以灵活地在不同模式下运行,以支持广泛的代码理解和生成任务。
Salesforce
23
0
Salesforce/codegen-6B-nl
CodeGen 是一系列用于程序综合的自回归语言模型,其中“NL”表示它是在 Pile 上预训练的,“6B”指的是可训练参数的数量
Salesforce
22
0
Salesforce/codet5p-220m-py
CodeT5+是一个新的开放代码大语言模型家族,具有编码器-解码器架构,可以灵活地在不同模式下运行,以支持广泛的代码理解和生成任务,codet5p-220m-py 是在Python上进一步调优。
Salesforce
22
0
Salesforce/codegen2-3_7B
CodeGen2是一个用于程序综合的自回归语言模型系列,CodeGen2具有填充能力,并且支持多种编程语言。
Salesforce
21
0
Salesforce/codegen-16B-nl
CodeGen 是一系列用于程序综合的自回归语言模型,其中“NL”表示它是在 Pile 上预训练的,“16B”指的是可训练参数的数量
Salesforce
21
0
Salesforce/codet5p-16b
端到端文本生成
PyTorch
Transformers
CodeT5+是一个新的开放代码大语言模型家族,具有编码器-解码器架构,可以灵活地在不同模式下运行,以支持广泛的代码理解和生成任务。
Salesforce
21
0
Salesforce/codet5p-770m-py
CodeT5+是一个新的开放代码大语言模型家族,具有编码器-解码器架构,可以灵活地在不同模式下运行,以支持广泛的代码理解和生成任务,codet5p-770m-py 是在Python上进一步调优。
Salesforce
21
0
Salesforce/codegen2-1B
CodeGen2是一个用于程序综合的自回归语言模型系列,CodeGen2具有填充能力,并且支持多种编程语言。
Salesforce
20
0
Salesforce/codegen-2B-nl
CodeGen 是一系列用于程序综合的自回归语言模型,其中“NL”表示它是在 Pile 上预训练的,“2B”指的是可训练参数的数量。
Salesforce
20
0
Salesforce/codegen2-7B
CodeGen2是一个用于程序综合的自回归语言模型系列,CodeGen2具有填充能力,并且支持多种编程语言。
Salesforce
19
0
Salesforce/codegen-16B-multi
文本生成
PyTorch
Transformers
其中“Multi”表示模型使用CodeGen-NL 16B进行初始化,并在多种编程语言的数据集上进一步进行预训练,“16B”指的是可训练参数的数量。
Salesforce
18
0
Salesforce/codegen2-16B
CodeGen2是一个用于程序综合的自回归语言模型系列,CodeGen2具有填充能力,并且支持多种编程语言。
Salesforce
16
0
Stability AI
Stable Code
Stability AI 是 Stable Diffusion 图像生成工具背后的公司,如今他们不再局限于图像 / 视频生成领域。
封神榜
Ziya-Coding
Ziya-Coding 系列由 IDEA 研究院“封神榜”团队发布,可以根据指令完成生成和修改代码、代码解释、代码续写、NL2SQL 等一系列的代码相关任务。
IDEA-CCNL/Ziya-Coding-34B-v1.0
文本生成
基于训练Ziya-Coding-15B-v1积累的训练经验,发布了大模型Ziya-Coding-34B-v1.0,并在HumanEval Pass@1的评测上,取得了75.5的好成绩,超过了GPT-4(67.0)的得分,也成为目前已知开源模型新高。
IDEA-CCNL
52
1
IDEA-CCNL/Ziya-Coding-15B-v1
文本生成
Ziya-Coding-15B-v1是基于StarCoderBase的155亿参数预训练模型。它可以根据指令完成生成和修改代码、代码解释、代码延续、NL2SQL等一系列与代码相关的任务。目前,Ziya-Writing-LLaMa-13B-v1已完成大规模预训练(PT)和监督微调(SFT)训练过程。
IDEA-CCNL
44
0
智谱AI
CodeGeeX
CodeGeeX 由智谱 AI 团队发布,支持中英文对话解决各种编程问题,包括且不限于代码解释、代码翻译、代码纠错、文档生成等,帮助程序员更高效开发。
THUDM/codegeex2-6b
PyTorch
Transformers
CodeGeeX2 是多语言代码生成模型 CodeGeeX 的第二代模型。CodeGeeX2 基于 ChatGLM2 架构加入代码预训练实现,得益于 ChatGLM2 的更优性能,CodeGeeX2 在多项指标上取得性能提升(+107% > CodeGeeX;仅60亿参数即超过150亿参数的 StarCoder-15B 近10%)更多特性包括更强大的代码能力、更优秀的模型特性、更全面的AI编程助手、更开放的协议。
THUDM
107
0
THUDM/codegeex4-all-9b
文本生成
CodeGeeX4-ALL-9B 是一个多语言代码生成模型,支持包括代码补全和生成、代码解释器、网络搜索、函数调用、仓库级代码问答在内的全面功能,覆盖软件开发的各种场景。是参数少于 10B 的顶尖代码生成模型。
THUDM
46
2
THUDM/codegeex2-6b-int4
特征抽取
PyTorch
Transformers
在CodeGeeX2 的基础上采用了int4 量化推理,加快推理速度。
THUDM
39
0
注:此顺序按字母排序仅用于方便查阅,并不代表任何形式的优先级或评价。