模型专题
国产开源模型
本专题我们为大家呈现更深入理解和处理中国文化和语境、在中文处理中更准确且符合本土需求的国产开源模型,希望社区的开发者能在这些模型基础上进行更多尝试和创新,并欢迎大家贡献更多国产大模型。
百川
百川
Baichuan
Baichuan2
Baichuan及Baichuan 2 系列是百川智能推出的开源大语言模型,基于Transformer结构,使用自有的中英文双语语料进行训练,在中文上进行优化。
baichuan-inc/Baichuan2-7B-Chat
文本生成
PyTorch
Transformers
Baichuan 2 是百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。本次发布包含有 7B、13B 的 Base 和 Chat 版本,
baichuan-inc
125
2
baichuan-inc/Baichuan2-13B-Chat
文本生成
PyTorch
Transformers
Baichuan 2 是百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。本次发布包含有 7B、13B 的 Base 和 Chat 版本,
baichuan-inc
111
0
baichuan-inc/Baichuan2-7B-Base
文本生成
PyTorch
Transformers
Baichuan 2 是百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。本次发布包含有 7B、13B 的 Base 和 Chat 版本
baichuan-inc
77
0
baichuan-inc/Baichuan-13B-Chat
文本生成
PyTorch
Transformers
Baichuan-13B 是由百川智能继 Baichuan-7B 之后开发的包含 130 亿参数的开源可商用的大规模语言模型,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。Baichuan-13B 有如下几个特点:更大尺寸、更多数据、同时开源预训练和对齐模型、更高效的推理、开源免费可商用
baichuan-inc
60
0
baichuan-inc/Baichuan-7B
文本生成
PyTorch
Transformers
Baichuan-7B是由百川智能开发的一个开源的大规模预训练模型。基于Transformer结构,在大约1.2万亿tokens上训练的70亿参数模型,支持中英双语,上下文窗口长度为4096。在标准的中文和英文权威benchmark(C-EVAL/MMLU)上均取得同尺寸最好的效果。
baichuan-inc
53
0
baichuan-inc/Baichuan2-13B-Base
文本生成
PyTorch
Transformers
Baichuan 2 是百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。本次发布包含有 7B、13B 的 Base 和 Chat 版本
baichuan-inc
42
0
baichuan-inc/Baichuan-13B-Base
文本生成
PyTorch
Transformers
Baichuan-13B-Base为Baichuan-13B系列模型中的预训练版本,经过对齐后的模型可见Baichuan-13B-Chat。
baichuan-inc
33
0
BELLE Group
BELLE Group
BELLE
BELLE基于Bloomz-7b1-mt,结合开源Stanford-Alpaca的2M中文数据和5万条英文数据进行微调,具有良好的中文指令理解和响应生成能力。
封神榜
封神榜
姜子牙
姜子牙通用大模型是基于LLaMa的大规模预训练模型,具备翻译,编程,文本分类,信息抽取,摘要,文案生成,常识问答和数学计算等能力。目前姜子牙通用大模型已完成大规模预训练、多任务有监督微调和人类反馈学习三阶段的训练过程。
FlagAlpha
FlagAlpha
Llama2-Chinese
Atom
专注于Llama模型在中文方面的优化和上层建设,基于大规模中文数据,从预训练开始对Llama2模型进行中文能力的持续迭代升级。
百度飞桨
百度飞桨
baidu
源于产业实践的开源深度学习平台,飞桨致力于让深度学习技术的创新与应用更简单
baidu/ernie-unimo
ernie-unimo 是语言与视觉一体的预训练模型
红薯
26
0
baidu/ERNIE-Doc
ERNIE-Doc 是面向篇章级长文本建模的预训练-微调框架,ERNIE-Doc 受到人类先粗读后精读的阅读方式启发,提出了回顾式建模机制和增强记忆机制,突破了 Transformer 在文本长度上的建模瓶颈。ERNIE-Doc 在业界首次实现了全篇章级无限长文本的双向建模,在包括阅读理解、信息抽取、篇章分类、语言模型在内的13个权威中英文长文本语言理解任务上取得了SOTA效果。
红薯
5
0
baidu/ERNIE-SAT
ERNIE-SAT 是可以同时处理中英文的跨语言的语音-语言跨模态大模型,其在语音编辑、个性化语音合成以及跨语言的语音合成等多个任务取得了领先效果。可以应用于语音编辑、个性化合成、语音克隆、同传翻译等一系列场景,该项目供研究使用。
红薯
5
0
baidu/ERNIE-M
ERNIE-M 是面向多语言建模的预训练-微调框架。为了突破双语语料规模对多语言模型的学习效果限制,提升跨语言理解的效果,我们提出基于回译机制,从单语语料中学习语言间的语义对齐关系的预训练模型 ERNIE-M,显著提升包括跨语言自然语言推断、语义检索、语义相似度、命名实体识别、阅读理解在内的 5 种典型跨语言理解任务效果。
红薯
4
0
baidu/ernie-vil
ERNIE-ViL是面向视觉-语言任务的知识增强预训练框架,首次在视觉-语言预训练中引入了结构化的知识。ERNIE-ViL利用场景图中的结构化知识,构建了物体预测,属性预测,关系预测三种预训练任务,精细地刻画了视觉-语言模态之间细粒度语义的对齐,从而获得了更好的视觉-语言联合表示。
红薯
3
0
baidu/ERNIE-GEN
ERNIE-GEN 是面向生成任务的预训练-微调框架,首次在预训练阶段加入span-by-span 生成任务,让模型每次能够生成一个语义完整的片段。在预训练和微调中通过填充式生成机制和噪声感知机制来缓解曝光偏差问题。此外, ERNIE-GEN 采样多片段-多粒度目标文本采样策略, 增强源文本和目标文本的关联性,加强了编码器和解码器的交互。
红薯
2
0
baidu/ERNIE-Gram
ERNIE-Gram 多粒度预训练语义理解技术,在预训练 (pre-training) 阶段实现了显式的多粒度语义信号学习,在微调 (fine-tuning) 阶段采用 bert-style 微调方式,在不增加参数和计算复杂度的前提下,取得 10 项英文权威任务的 SOTA。在中文任务上,ERNIE-Gram 在包括 NLI、阅读理解等需要丰富、多层次的语义理解任务上取得公开 SOTA。
红薯
2
0
Qwen
Qwen
Qwen
阿里云构建的大语言模型家族。 在这个组织中,不断发布大型语言模型(LLM)、大型多模态模型(LMM)和其他AGI相关项目。 目前,已经发布了两个 LLM,Qwen-7B 和 Qwen-14B,每个都包含一个基础模型、一个聊天模型及其量化对应模型。
Qwen/Qwen-7B-Chat
文本生成
Transformers
Safetensors
通义千问-7B(Qwen-7B)是阿里云研发的通义千问大模型系列的70亿参数规模的模型。Qwen-7B是基于Transformer的大语言模型,在超大规模的预训练数据上进行训练得到。
Qwen
139
3
Qwen/Qwen-14B-Chat
文本生成
Transformers
Safetensors
通义千问-14B(Qwen-14B)是阿里云研发的通义千问大模型系列的140亿参数规模的模型。Qwen-14B是基于Transformer的大语言模型,在超大规模的预训练数据上进行训练得到。
Qwen
77
13
Qwen/Qwen-7B
文本生成
Transformers
Safetensors
通义千问-7B(Qwen-7B)是阿里云研发的通义千问大模型系列的70亿参数规模的模型。Qwen-7B是基于Transformer的大语言模型,在超大规模的预训练数据上进行训练得到。
Qwen
57
0
Qwen/Qwen-72B-Chat
文本生成
通义千问-72B(Qwen-72B)是阿里云研发的通义千问大模型系列的720亿参数规模的模型。Qwen-72B是基于Transformer的大语言模型,在超大规模的预训练数据上进行训练得到。
Qwen
48
0
Qwen/Qwen-VL-Chat
文本生成
PyTorch
Transformers
Qwen-VL 是阿里云研发的大规模视觉语言模型(Large Vision Language Model, LVLM)。Qwen-VL 可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。
Qwen
39
0
Qwen/Qwen-VL-Chat-Int4
文本生成
Qwen-VL 是阿里云研发的大规模视觉语言模型(Large Vision Language Model, LVLM)。Qwen-VL 可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。
Qwen
39
0
Qwen/Qwen-7B-Chat-Int4
文本生成
Transformers
Safetensors
通义千问-7B(Qwen-7B)是阿里云研发的通义千问大模型系列的70亿参数规模的模型。Qwen-7B是基于Transformer的大语言模型,在超大规模的预训练数据上进行训练得到。
Qwen
34
0
Qwen/Qwen-14B-Chat-Int4
文本生成
Transformers
Safetensors
通义千问-14B(Qwen-14B)是阿里云研发的通义千问大模型系列的140亿参数规模的模型。Qwen-14B是基于Transformer的大语言模型,在超大规模的预训练数据上进行训练得到。
Qwen
34
0
Qwen/Qwen-1_8B
文本生成
通义千问-1.8B(Qwen-1.8B)是阿里云研发的通义千问大模型系列的18亿参数规模的模型。Qwen-1.8B是基于Transformer的大语言模型,在超大规模的预训练数据上进行训练得到。
Qwen
31
0
Qwen/Qwen-VL
文本生成
PyTorch
Transformers
Qwen-VL 是阿里云研发的大规模语言视觉模型(Large Vision Language Model, LVLM)。Qwen-VL 可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。
Qwen
27
0
Qwen/Qwen-Audio
文本生成
Transformers
Safetensors
Qwen-Audio(Qwen Large Audio Language Model)是阿里云提出的大模型系列Qwen的多模态版本。Qwen-Audio接受多种音频和文本作为输入,输出文本。
Qwen
15
0
Qwen/Qwen-72B-Chat-Int4
文本生成
通义千问-72B(Qwen-72B)是阿里云研发的通义千问大模型系列的720亿参数规模的模型。Qwen-72B是基于Transformer的大语言模型,在超大规模的预训练数据上进行训练得到。
Qwen
13
1
Qwen/Qwen-7B-Chat-Int8
文本生成
通义千问-7B(Qwen-7B)是阿里云研发的通义千问大模型系列的70亿参数规模的模型。Qwen-7B是基于Transformer的大语言模型,在超大规模的预训练数据上进行训练得到。
Qwen
14
0
Qwen/Qwen-14B-Chat-Int8
文本生成
通义千问-14B(Qwen-14B)是阿里云研发的通义千问大模型系列的140亿参数规模的模型。Qwen-14B是基于Transformer的大语言模型,在超大规模的预训练数据上进行训练得到。
Qwen
14
0
Qwen/Qwen-72B
文本生成
通义千问-72B(Qwen-72B)是阿里云研发的通义千问大模型系列的720亿参数规模的模型。Qwen-72B是基于Transformer的大语言模型,在超大规模的预训练数据上进行训练得到。
Qwen
13
0
Qwen/Qwen-72B-Chat-Int8
文本生成
通义千问-72B(Qwen-72B)是阿里云研发的通义千问大模型系列的720亿参数规模的模型。Qwen-72B是基于Transformer的大语言模型,在超大规模的预训练数据上进行训练得到。
Qwen
11
0
上海人工智能实验室
上海人工智能实验室
internlm(书生·浦语)
上海人工智能实验室与商汤科技联合香港中文大学和复旦大学正式推出interlm(书生·浦语)系列大模型,interlm是在过万亿 token 数据上训练的多语千亿参数基座模型
internlm/internlm-chat-7b
文本生成
特征抽取
PyTorch
Transformers
InternLM开源了70亿参数的基础模型和针对实际场景量身定制的聊天模型。该模型具有以下特点:1. 利用数万亿优质代币进行培训,建立强大的知识库。2. 支持8k上下文窗口长度,可实现更长的输入序列和更强的推理能力。3. 提供了一个多功能的工具集,供用户灵活地构建自己的工作流程。
internlm
34
0
internlm/internlm-chat-20b
文本生成
特征抽取
PyTorch
Transformers
上海人工智能实验室联合商汤科技、香港中文大学、复旦大学,正式发布200亿参数预训练模型InternLM-20B。InternLM-20B 在包含高质量英文、中文和代码数据的超过2.3T Token上进行了预训练。此外,Chat版本还经过了SFT和RLHF训练,能够更好、更安全地满足用户的需求。
internlm
24
0
internlm/internlm-chat-7b-v1_1
文本生成
InternLM开源了70亿参数的基础模型和针对实际场景量身定制的聊天模型。该模型具有以下特点:1. 利用数万亿优质代币进行培训,建立强大的知识库。2. 支持8k上下文窗口长度,可实现更长的输入序列和更强的推理能力。3. 提供了一个多功能的工具集,供用户灵活地构建自己的工作流程。
internlm
17
0
internlm/internlm-chat-7b-8k
文本生成
PyTorch
Transformers
InternLM开源了70亿参数的基础模型和针对实际场景量身定制的聊天模型。该模型具有以下特点:1. 利用数万亿优质代币进行培训,建立强大的知识库。2. 支持8k上下文窗口长度,可实现更长的输入序列和更强的推理能力。3. 提供了一个多功能的工具集,供用户灵活地构建自己的工作流程。
internlm
15
0
internlm/internlm-20b
文本生成
特征抽取
PyTorch
Transformers
上海人工智能实验室联合商汤科技、香港中文大学、复旦大学,正式发布200亿参数预训练模型InternLM-20B。InternLM-20B 在包含高质量英文、中文和代码数据的超过2.3T Token上进行了预训练。此外,Chat版本还经过了SFT和RLHF训练,能够更好、更安全地满足用户的需求。
internlm
14
0
internlm/internlm-7b
文本生成
特征抽取
PyTorch
Transformers
InternLM开源了针对实际场景量身定制的70亿参数库模型。该模型具有以下特点:1. 利用数万亿优质代币进行培训,建立强大的知识库。2. 提供了一个多功能的工具集,供用户灵活地构建自己的工作流程。
internlm
13
0
internlm/internlm-chat-20b-4bit
文本生成
上海人工智能实验室联合商汤科技、香港中文大学、复旦大学,正式发布200亿参数预训练模型InternLM-20B。InternLM-20B 在包含高质量英文、
internlm
12
0
internlm/internlm-xcomposer-7b-4bit
InternLM-XComposer是基于InternLM的视觉语言大型模型 (VLLM) ,提供出色的图文理解和创作能力。
internlm
8
0
internlm/internlm-xcomposer-7b
文本生成
InternLM-XComposer是基于InternLM的视觉语言大型模型 (VLLM) ,提供出色的图文理解和创作能力。
internlm
7
0
internlm/internlm-xcomposer-vl-7b
文本生成
InternLM-XComposer是基于InternLM的视觉语言大型模型 (VLLM) ,提供出色的图文理解和创作能力。
internlm
0
0
注:此顺序按字母排序仅用于方便查阅,并不代表任何形式的优先级或评价。