模型专题
国产开源模型
本专题我们为大家呈现更深入理解和处理中国文化和语境、在中文处理中更准确且符合本土需求的国产开源模型,希望社区的开发者能在这些模型基础上进行更多尝试和创新,并欢迎大家贡献更多国产大模型。
百川
Baichuan
Baichuan2
Baichuan及Baichuan 2 系列是百川智能推出的开源大语言模型,基于Transformer结构,使用自有的中英文双语语料进行训练,在中文上进行优化。
baichuan-inc/Baichuan2-7B-Chat
Baichuan 2 是百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。本次发布包含有 7B、13B 的 Base 和 Chat 版本,
baichuan-inc
137
3
baichuan-inc/Baichuan2-13B-Chat
文本生成
PyTorch
Transformers
Baichuan 2 是百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。本次发布包含有 7B、13B 的 Base 和 Chat 版本,
baichuan-inc
124
1
baichuan-inc/Baichuan2-7B-Base
文本生成
PyTorch
Transformers
Baichuan 2 是百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。本次发布包含有 7B、13B 的 Base 和 Chat 版本
baichuan-inc
78
0
baichuan-inc/Baichuan-13B-Chat
文本生成
PyTorch
Transformers
Baichuan-13B 是由百川智能继 Baichuan-7B 之后开发的包含 130 亿参数的开源可商用的大规模语言模型,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。Baichuan-13B 有如下几个特点:更大尺寸、更多数据、同时开源预训练和对齐模型、更高效的推理、开源免费可商用
baichuan-inc
60
0
baichuan-inc/Baichuan-7B
文本生成
PyTorch
Transformers
Baichuan-7B是由百川智能开发的一个开源的大规模预训练模型。基于Transformer结构,在大约1.2万亿tokens上训练的70亿参数模型,支持中英双语,上下文窗口长度为4096。在标准的中文和英文权威benchmark(C-EVAL/MMLU)上均取得同尺寸最好的效果。
baichuan-inc
57
0
baichuan-inc/Baichuan2-13B-Base
文本生成
PyTorch
Transformers
Baichuan 2 是百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。本次发布包含有 7B、13B 的 Base 和 Chat 版本
baichuan-inc
47
0
baichuan-inc/Baichuan-13B-Base
文本生成
PyTorch
Transformers
Baichuan-13B-Base为Baichuan-13B系列模型中的预训练版本,经过对齐后的模型可见Baichuan-13B-Chat。
baichuan-inc
45
0
北京智源人工智能研究院
Aquila2
Aquila是北京智源人工智能研究院发布的一系列大模型名称。目前包括三个类型基础语言模型、聊天模型、以及长文本聊天型号
BAAI/AquilaChat2-34B
AquilaChat2-34B是对话语言模型
BAAI
15
0
BAAI/AquilaChat2-7B
AquilaChat2-7B是对话语言模型
BAAI
11
0
BAAI/AquilaChat2-34B-16K
AquilaChat2-34B-16k是长文本对话模型
BAAI
9
0
BAAI/Aquila2-34B
Aquila2-34B v1.2基于之前的Aquila2-34B。Aquila2-34B在综合评价方面取得了6.9%的提升,其中MMLU(+12%)、TruthfulQA(+14%)、CSL(+11%)、TNEWS(+12%)、OCNLI(+28%)、和 BUSTM(+18%)。
BAAI
9
0
BAAI/AquilaChat2-7B-16K
AquilaChat2-7B-16k是长文本对话模型
BAAI
7
0
BAAI/Aquila2-7B
Aquila2-7B 是可用于延续的基础语言模型。
BAAI
7
0
BELLE Group
BELLE
BELLE基于Bloomz-7b1-mt,结合开源Stanford-Alpaca的2M中文数据和5万条英文数据进行微调,具有良好的中文指令理解和响应生成能力。
ClueAI
ChatYuan
元语智能发布的一系列支持中英双语的功能型对话语言大模型,在微调数据、人类反馈强化学习、思维链等方面进行了优化。
ClueAI/ChatYuan-large-v2
端到端文本生成
PyTorch
Transformers
ChatYuan-large-v2 是一个支持中英双语的功能型对话语言大模型。v2 使用了和 v1 版本相同的技术方案,在指令微调、人类反馈强化学习、思维链等方面进行了优化。
ClueAI
26
0
ClueAI/ChatYuan-large-v1
端到端文本生成
PyTorch
Transformers
这个模型可以用于问答、结合上下文做对话、做各种生成任务,包括创意性写作,也能回答一些像法律、新冠等领域问题。它基于 PromptCLUE-large 结合数亿条功能对话多轮对话数据进一步训练得到。
ClueAI
23
0
封神榜
姜子牙
姜子牙通用大模型是基于LLaMa的大规模预训练模型,具备翻译,编程,文本分类,信息抽取,摘要,文案生成,常识问答和数学计算等能力。目前姜子牙通用大模型已完成大规模预训练、多任务有监督微调和人类反馈学习三阶段的训练过程。
IDEA-CCNL/Ziya-LLaMA-7B-Reward
文本分类
PyTorch
Transformers
Ziya-LLaMA-7B-Reward基于Ziya-LLaMA模型,在以下偏好排序数据上进行训练。
IDEA-CCNL
12
0
IDEA-CCNL/Ziya-LLaMA-13B-v1
文本生成
PyTorch
Transformers
姜子牙通用大模型V1是基于LLaMa的130亿参数的大规模预训练模型,具备翻译,编程,文本分类,信息抽取,摘要,文案生成,常识问答和数学计算等能力。目前姜子牙通用大模型已完成大规模预训练、多任务有监督微调和人类反馈学习三阶段的训练过程。
IDEA-CCNL
8
0
IDEA-CCNL/Ziya-BLIP2-14B-Visual-v1
视觉问答
图像描述
特征抽取
PyTorch
Transformers
Ziya-Visual多模态大模型基于姜子牙通用大模型V1训练,具有视觉问答和对话能力。
IDEA-CCNL
6
1
IDEA-CCNL/Ziya-LLaMA-13B-v1.1
我们对Ziya-LLaMA-13B-v1模型进行继续优化,推出开源版本Ziya-LLaMA-13B-v1.1。通过调整微调数据的比例和采用更优的强化学习策略,本版本在问答准确性、数学能力以及安全性等方面得到了提升,详细能力分析如下图所示。
IDEA-CCNL
5
0
IDEA-CCNL/Ziya-LLaMA-13B-Pretrain-v1
文本生成
PyTorch
Transformers
Ziya-LLaMA-13B-Pretrain-v1 是基于LLaMa的130亿参数大规模预训练模型,针对中文分词优化,并完成了中英文 110B tokens 的增量预训练,进一步提升了中文生成和理解能力。
IDEA-CCNL
0
0
FlagAlpha
Llama2-Chinese
Atom
专注于Llama模型在中文方面的优化和上层建设,基于大规模中文数据,从预训练开始对Llama2模型进行中文能力的持续迭代升级。
FlagAlpha/Llama2-Chinese-7b-Chat
文本生成
问答
PyTorch
Transformers
由于Llama2本身的中文对齐较弱,采用中文指令集,对meta-llama/Llama-2-7b-chat-hf进行LoRA微调,使其具备较强的中文对话能力。
FlagAlpha
60
1
FlagAlpha/Atom-7B-Chat
文本生成
问答
PyTorch
Transformers
基于Atom-7B的对话模型,完全开源可商用,由Llama中文社区和AtomEcho(原子回声)联合研发,基于Llama2-7B采用大规模的中文数据进行了继续预训练。
FlagAlpha
32
0
FlagAlpha/Llama2-Chinese-7b-Chat-LoRA
问答
Transformers
由于Llama2本身的中文对齐较弱,采用中文指令集,对meta-llama/Llama-2-7b-chat-hf进行LoRA微调,使其具备较强的中文对话能力。
FlagAlpha
29
1
FlagAlpha/Llama2-Chinese-13b-Chat
文本生成
问答
PyTorch
Transformers
由于Llama2本身的中文对齐较弱,采用中文指令集,对meta-llama/Llama-2-13b-chat-hf进行LoRA微调,使其具备较强的中文对话能力。
FlagAlpha
29
0
FlagAlpha/Atom-7B
文本生成
问答
PyTorch
Transformers
Atom-7B完全开源可商用,由Llama中文社区和AtomEcho(原子回声)联合研发,基于Llama2-7B采用大规模的中文数据进行了继续预训练。
FlagAlpha
27
0
FlagAlpha/Llama2-Chinese-13b-Chat-LoRA
问答
Transformers
由于Llama2本身的中文对齐较弱,采用中文指令集,对meta-llama/Llama-2-13b-chat-hf进行LoRA微调,使其具备较强的中文对话能力。
FlagAlpha
16
1
Fudan NLP
MOSS
MOSS 是由复旦大学自然语言处理实验室开发的支持中英双语和多种插件的开源对话语言模型
fnlp/moss-moon-003-sft
文本生成
PyTorch
Transformers
对约 110 万多轮对话数据进行了监督微调。经过微调的模型可以遵循多轮对话中的指令并拒绝不适当的请求。
fnlp
18
0
fnlp/moss-base-7b
Moss-base-7b是一个70亿参数量的预训练语言模型,可以作为基座模型用来进行SFT训练等。
fnlp
5
0
fnlp/moss-moon-003-base
文本生成
PyTorch
Transformers
MOSS-003的基础语言模型,由CodeGen<初始化a i=3> 并进一步对 100B 个中文 token 和 20B 个英文 token 进行预训练。该模型在预训练期间使用了 700B 代币,总共消耗了约 6.67x10(22) 次 FLOP。
fnlp
0
0
fnlp/moss-moon-003-sft-plugin
文本生成
PyTorch
Transformers
对约 110 万多轮对话数据和额外的约 30 万个插件增强数据进行了监督微调。经过微调的模型能够使用多种工具,包括搜索引擎、文本转图像、计算器和方程求解器。
fnlp
0
0
开源智友
openbuddy
openbuddy是由开源智友发布的大模型系列,该系列模型具备更强大的语言理解和对话生成能力,可以为用户提供更加流畅和便捷的对话体验。
OpenBuddy/openbuddy-llama-65b-v8-bf16
文本生成
PyTorch
Transformers
Openbuddy-llama-65b-v8-bf16是基于Meta的65B参数LLaMA模型,OpenBuddy经过微调,包括扩展词汇表、增加常见字符和增强token嵌入。通过利用这些改进和多轮对话数据集,OpenBuddy提供了一个强大的模型,能够回答各种语言的问题并执行翻译任务。
OpenBuddy
9
0
OpenBuddy/openbuddy-openllama-3b-v10-bf16
文本生成
PyTorch
Transformers
OpenBuddy-LLaMA2-13B模型,一个基于Facebook的LLaMA2基基座的全新跨语言对话模型。
OpenBuddy
9
0
OpenBuddy/openbuddy-llama2-70b-v14.3
OpenBuddy-LLaMA2-70B大语言模型是开源智友训练出的最大参数规模模型,相较于早前发布的较小规模模型,在文本生成、复杂逻辑推理以及自然语言处理等任务有了非常显著的提升。
OpenBuddy
8
0
Linly
Linly
Linly-Chinese-LLaMA2 基于 LLaMA2进行中文化训练,使用课程学习方法跨语言迁移,词表针对中文重新设计,数据分布更均衡,收敛更稳定。
百度飞桨
baidu
源于产业实践的开源深度学习平台,飞桨致力于让深度学习技术的创新与应用更简单
baidu/ernie-unimo
ernie-unimo 是语言与视觉一体的预训练模型
百度开源
百度开源
52
1
baidu/ERNIE-Doc
ERNIE-Doc 是面向篇章级长文本建模的预训练-微调框架,ERNIE-Doc 受到人类先粗读后精读的阅读方式启发,提出了回顾式建模机制和增强记忆机制,突破了 Transformer 在文本长度上的建模瓶颈。ERNIE-Doc 在业界首次实现了全篇章级无限长文本的双向建模,在包括阅读理解、信息抽取、篇章分类、语言模型在内的13个权威中英文长文本语言理解任务上取得了SOTA效果。
百度开源
百度开源
7
0
baidu/ERNIE-M
ERNIE-M 是面向多语言建模的预训练-微调框架。为了突破双语语料规模对多语言模型的学习效果限制,提升跨语言理解的效果,我们提出基于回译机制,从单语语料中学习语言间的语义对齐关系的预训练模型 ERNIE-M,显著提升包括跨语言自然语言推断、语义检索、语义相似度、命名实体识别、阅读理解在内的 5 种典型跨语言理解任务效果。
百度开源
百度开源
5
0
baidu/ERNIE-SAT
ERNIE-SAT 是可以同时处理中英文的跨语言的语音-语言跨模态大模型,其在语音编辑、个性化语音合成以及跨语言的语音合成等多个任务取得了领先效果。可以应用于语音编辑、个性化合成、语音克隆、同传翻译等一系列场景,该项目供研究使用。
百度开源
百度开源
5
0
baidu/ernie-vil
ERNIE-ViL是面向视觉-语言任务的知识增强预训练框架,首次在视觉-语言预训练中引入了结构化的知识。ERNIE-ViL利用场景图中的结构化知识,构建了物体预测,属性预测,关系预测三种预训练任务,精细地刻画了视觉-语言模态之间细粒度语义的对齐,从而获得了更好的视觉-语言联合表示。
百度开源
百度开源
4
0
baidu/ERNIE-GEN
ERNIE-GEN 是面向生成任务的预训练-微调框架,首次在预训练阶段加入span-by-span 生成任务,让模型每次能够生成一个语义完整的片段。在预训练和微调中通过填充式生成机制和噪声感知机制来缓解曝光偏差问题。此外, ERNIE-GEN 采样多片段-多粒度目标文本采样策略, 增强源文本和目标文本的关联性,加强了编码器和解码器的交互。
百度开源
百度开源
4
0
baidu/ERNIE-Gram
ERNIE-Gram 多粒度预训练语义理解技术,在预训练 (pre-training) 阶段实现了显式的多粒度语义信号学习,在微调 (fine-tuning) 阶段采用 bert-style 微调方式,在不增加参数和计算复杂度的前提下,取得 10 项英文权威任务的 SOTA。在中文任务上,ERNIE-Gram 在包括 NLI、阅读理解等需要丰富、多层次的语义理解任务上取得公开 SOTA。
百度开源
百度开源
4
0
Qwen
Qwen
阿里云构建的大语言模型家族。 在这个组织中,不断发布大型语言模型(LLM)、大型多模态模型(LMM)和其他AGI相关项目。 目前,已经发布了两个 LLM,Qwen-7B 和 Qwen-14B,每个都包含一个基础模型、一个聊天模型及其量化对应模型。
Qwen/Qwen-7B-Chat
文本生成
Transformers
Safetensors
通义千问-7B(Qwen-7B)是阿里云研发的通义千问大模型系列的70亿参数规模的模型。Qwen-7B是基于Transformer的大语言模型,在超大规模的预训练数据上进行训练得到。
Qwen
171
3
Qwen/Qwen-14B-Chat
文本生成
Transformers
Safetensors
通义千问-14B(Qwen-14B)是阿里云研发的通义千问大模型系列的140亿参数规模的模型。Qwen-14B是基于Transformer的大语言模型,在超大规模的预训练数据上进行训练得到。
Qwen
89
14
Qwen/Qwen-7B
文本生成
Transformers
Safetensors
通义千问-7B(Qwen-7B)是阿里云研发的通义千问大模型系列的70亿参数规模的模型。Qwen-7B是基于Transformer的大语言模型,在超大规模的预训练数据上进行训练得到。
Qwen
63
0
Qwen/Qwen-72B-Chat
文本生成
通义千问-72B(Qwen-72B)是阿里云研发的通义千问大模型系列的720亿参数规模的模型。Qwen-72B是基于Transformer的大语言模型,在超大规模的预训练数据上进行训练得到。
Qwen
51
0
Qwen/Qwen-7B-Chat-Int4
文本生成
Transformers
Safetensors
通义千问-7B(Qwen-7B)是阿里云研发的通义千问大模型系列的70亿参数规模的模型。Qwen-7B是基于Transformer的大语言模型,在超大规模的预训练数据上进行训练得到。
Qwen
47
0
Qwen/Qwen-VL-Chat
文本生成
PyTorch
Transformers
Qwen-VL 是阿里云研发的大规模视觉语言模型(Large Vision Language Model, LVLM)。Qwen-VL 可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。
Qwen
44
1
Qwen/Qwen-VL-Chat-Int4
文本生成
Qwen-VL 是阿里云研发的大规模视觉语言模型(Large Vision Language Model, LVLM)。Qwen-VL 可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。
Qwen
44
0
Qwen/Qwen-1_8B
文本生成
通义千问-1.8B(Qwen-1.8B)是阿里云研发的通义千问大模型系列的18亿参数规模的模型。Qwen-1.8B是基于Transformer的大语言模型,在超大规模的预训练数据上进行训练得到。
Qwen
34
0
Qwen/Qwen-14B-Chat-Int4
文本生成
Transformers
Safetensors
通义千问-14B(Qwen-14B)是阿里云研发的通义千问大模型系列的140亿参数规模的模型。Qwen-14B是基于Transformer的大语言模型,在超大规模的预训练数据上进行训练得到。
Qwen
34
0
Qwen/Qwen-VL
文本生成
PyTorch
Transformers
Qwen-VL 是阿里云研发的大规模语言视觉模型(Large Vision Language Model, LVLM)。Qwen-VL 可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。
Qwen
30
0
Qwen/Qwen-72B
文本生成
通义千问-72B(Qwen-72B)是阿里云研发的通义千问大模型系列的720亿参数规模的模型。Qwen-72B是基于Transformer的大语言模型,在超大规模的预训练数据上进行训练得到。
Qwen
22
0
Qwen/Qwen-72B-Chat-Int4
文本生成
通义千问-72B(Qwen-72B)是阿里云研发的通义千问大模型系列的720亿参数规模的模型。Qwen-72B是基于Transformer的大语言模型,在超大规模的预训练数据上进行训练得到。
Qwen
13
2
Qwen/Qwen-Audio
文本生成
Transformers
Safetensors
Qwen-Audio(Qwen Large Audio Language Model)是阿里云提出的大模型系列Qwen的多模态版本。Qwen-Audio接受多种音频和文本作为输入,输出文本。
Qwen
15
0
Qwen/Qwen-7B-Chat-Int8
文本生成
通义千问-7B(Qwen-7B)是阿里云研发的通义千问大模型系列的70亿参数规模的模型。Qwen-7B是基于Transformer的大语言模型,在超大规模的预训练数据上进行训练得到。
Qwen
14
0
Qwen/Qwen-14B-Chat-Int8
文本生成
通义千问-14B(Qwen-14B)是阿里云研发的通义千问大模型系列的140亿参数规模的模型。Qwen-14B是基于Transformer的大语言模型,在超大规模的预训练数据上进行训练得到。
Qwen
14
0
Qwen/Qwen-72B-Chat-Int8
文本生成
通义千问-72B(Qwen-72B)是阿里云研发的通义千问大模型系列的720亿参数规模的模型。Qwen-72B是基于Transformer的大语言模型,在超大规模的预训练数据上进行训练得到。
Qwen
11
0
上海人工智能实验室
internlm(书生·浦语)
上海人工智能实验室与商汤科技联合香港中文大学和复旦大学正式推出interlm(书生·浦语)系列大模型,interlm是在过万亿 token 数据上训练的多语千亿参数基座模型
internlm/internlm-chat-7b
文本生成
特征抽取
PyTorch
Transformers
InternLM开源了70亿参数的基础模型和针对实际场景量身定制的聊天模型。该模型具有以下特点:1. 利用数万亿优质代币进行培训,建立强大的知识库。2. 支持8k上下文窗口长度,可实现更长的输入序列和更强的推理能力。3. 提供了一个多功能的工具集,供用户灵活地构建自己的工作流程。
internlm
40
0
internlm/internlm-chat-20b
文本生成
特征抽取
PyTorch
Transformers
上海人工智能实验室联合商汤科技、香港中文大学、复旦大学,正式发布200亿参数预训练模型InternLM-20B。InternLM-20B 在包含高质量英文、中文和代码数据的超过2.3T Token上进行了预训练。此外,Chat版本还经过了SFT和RLHF训练,能够更好、更安全地满足用户的需求。
internlm
24
0
internlm/internlm-chat-7b-v1_1
文本生成
InternLM开源了70亿参数的基础模型和针对实际场景量身定制的聊天模型。该模型具有以下特点:1. 利用数万亿优质代币进行培训,建立强大的知识库。2. 支持8k上下文窗口长度,可实现更长的输入序列和更强的推理能力。3. 提供了一个多功能的工具集,供用户灵活地构建自己的工作流程。
internlm
17
0
internlm/internlm-chat-7b-8k
文本生成
PyTorch
Transformers
InternLM开源了70亿参数的基础模型和针对实际场景量身定制的聊天模型。该模型具有以下特点:1. 利用数万亿优质代币进行培训,建立强大的知识库。2. 支持8k上下文窗口长度,可实现更长的输入序列和更强的推理能力。3. 提供了一个多功能的工具集,供用户灵活地构建自己的工作流程。
internlm
15
0
internlm/internlm-20b
文本生成
特征抽取
PyTorch
Transformers
上海人工智能实验室联合商汤科技、香港中文大学、复旦大学,正式发布200亿参数预训练模型InternLM-20B。InternLM-20B 在包含高质量英文、中文和代码数据的超过2.3T Token上进行了预训练。此外,Chat版本还经过了SFT和RLHF训练,能够更好、更安全地满足用户的需求。
internlm
14
0
internlm/internlm-7b
文本生成
特征抽取
PyTorch
Transformers
InternLM开源了针对实际场景量身定制的70亿参数库模型。该模型具有以下特点:1. 利用数万亿优质代币进行培训,建立强大的知识库。2. 提供了一个多功能的工具集,供用户灵活地构建自己的工作流程。
internlm
13
0
internlm/internlm-chat-20b-4bit
文本生成
上海人工智能实验室联合商汤科技、香港中文大学、复旦大学,正式发布200亿参数预训练模型InternLM-20B。InternLM-20B 在包含高质量英文、
internlm
12
0
internlm/internlm-xcomposer-7b-4bit
InternLM-XComposer是基于InternLM的视觉语言大型模型 (VLLM) ,提供出色的图文理解和创作能力。
internlm
8
0
internlm/internlm-xcomposer-7b
文本生成
InternLM-XComposer是基于InternLM的视觉语言大型模型 (VLLM) ,提供出色的图文理解和创作能力。
internlm
7
0
internlm/internlm-xcomposer-vl-7b
文本生成
InternLM-XComposer是基于InternLM的视觉语言大型模型 (VLLM) ,提供出色的图文理解和创作能力。
internlm
0
0
vivo AI Lab
BlueLM
BlueLM 是由 vivo AI 全球研究院自主研发的大规模预训练语言模型,本次发布包含 7B 基础 (base) 模型和 7B 对话 (chat) 模型,同时我们开源了支持 32K 的长文本基础 (base) 模型和对话 (chat) 模型。
vivo-ai/BlueLM-7B-Chat
BlueLM 是由 vivo AI 全球研究院自主研发的大规模预训练语言模型。本次发布包含 7B 对话模型和4bits量化的7B对话模型。
vivo-ai
17
1
vivo-ai/BlueLM-7B-Chat-32K
BlueLM 是由 vivo AI 全球研究院自主研发的大规模预训练语言模型。同事支持 32K 的长文本对话模型。
vivo-ai
15
1
vivo-ai/BlueLM-7B-Base
BlueLM 是由 vivo AI 全球研究院自主研发的大规模预训练语言模型。本次发布包含 7B 基础模型。
vivo-ai
13
1
vivo-ai/BlueLM-7B-Chat-4bits
BlueLM 是由 vivo AI 全球研究院自主研发的大规模预训练语言模型。本次发布包含 7B 对话模型和4bits量化的7B对话模型。
vivo-ai
12
1
vivo-ai/BlueLM-7B-Base-32K
BlueLM 是由 vivo AI 全球研究院自主研发的大规模预训练语言模型。同事支持 32K 的长文本基础模型。
vivo-ai
8
1
智谱AI
ChatGLM
ChatGLM 模型是由清华大学开源的、支持中英双语问答的对话语言模型,并针对中文进行了优化。该模型基于 General Language Model(GLM)架构。
THUDM/chatglm3-6b
PyTorch
Transformers
Safetensors
ChatGLM3-6B 是 ChatGLM 系列最新一代的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,ChatGLM3-6B 引入了如下特性:更强大的基础模型、更完整的功能支持、更全面的开源序列
THUDM
661
11
THUDM/chatglm2-6b
文本生成
PyTorch
Transformers
ChatGLM2-6B 是开源中英双语对话模型 ChatGLM-6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,ChatGLM2-6B 引入了如下新特性:更强大的性能、更长的上下文、更高效的推理、更开放的协议
THUDM
296
1
THUDM/chatglm3-6b-32k
ChatGLM3-6B-32K在ChatGLM3-6B的基础上进一步强化了对于长文本的理解能力,能够更好的处理最多32K长度的上下文。
THUDM
102
2
THUDM/chatglm-6b
PyTorch
Transformers
ChatGLM-6B 是一个开源的、支持中英文双语问答的对话语言模型,基于通用语言模(GLM)架构,拥有62亿参数。结合模型自定义技术,用户可以在消费级的显卡上进行本地部署(INT4)预设级别最低只需 6GB 显存。
THUDM
94
0
01.AI
Yi 系列
01.AI此次开源发布的Yi系列预训练大模型包含34B和6B两个版本,满足不同人群不同场景的需求。
01-ai/Yi-6B-200K
文本生成
PyTorch
Transformers
Safetensors
Yi系列模型是由01.AI的开发人员从头开始训练的大型语言模型。参数大小为 6B,具有 200K 上下文长度的基本模型。
01-ai
44
0
01-ai/Yi-34B
文本生成
PyTorch
Transformers
Safetensors
Yi系列模型是由01.AI的开发人员从头开始训练的大型语言模型。第一个公开版本包含两个双语(英文/中文)基础模型,参数大小为 34B。
01-ai
29
0
01-ai/Yi-34B-200K
文本生成
PyTorch
Transformers
Safetensors
Yi系列模型是由01.AI的开发人员从头开始训练的大型语言模型。参数大小为 34B,具有 200K 上下文长度的基本模型。
01-ai
23
0
01-ai/Yi-6B
Yi系列模型是由01.AI的开发人员从头开始训练的大型语言模型。第一个公开版本包含两个双语(英文/中文)基础模型,参数大小为 6B。
01-ai
16
0
注:此顺序按字母排序仅用于方便查阅,并不代表任何形式的优先级或评价。