模型专题
AI 编程
欢迎大家来社区探索学习及开源分享 AI 编程大模型,本专题我们为大家呈现最新、最强、最典型的开源 AI 编程大模型,旨在帮助大家更深入地了解 AI 编程领域的最新技术进展,希望各位社区的开发者能在这些模型的基础之上做更多的尝试和创新,也欢迎大家贡献更多的 AI 编程大模型,共同推动人工智能技术的发展和应用。
codeparrot/github-code
文本生成
code
multilingual
GitHub 代码数据集由来自 GitHub 的 1.15 亿个代码文件组成,涉及 32 种编程语言和 60 个扩展,总计 1TB 数据。该数据集是根据 Google BiqQuery 上的公共 GitHub 数据集创建的。
codeparrot
23
0
microsoft/CodeXGLUE
microsoft 开源,包含10个任务及14个数据集。
microsoft
21
1
IBM/Project_CodeNet
该数据集包含 1400 万个代码样本,共有用 55 种编程语言编写的 5 亿行代码,其中 C++ 是样本中使用最多的语言,Python 位居第二。
IBM
14
1
VHellendoorn/Code-LMs
GitHub上的公开代码,主要选取的是各种编程语言中比较受欢迎的库,每个库至少有50 Stars,采用了多种编程语言代码集来训练,一共有12种。
VHellendoorn
12
1