Gitee AI
GiEngine 高速推理引擎

GiEngine 高速推理引擎

私有化部署的 GiEngine 模型推理引擎,支持 Gitee AI 众多开源模型的推理和应用,为企业免去自建模型推理系统耗时复杂的工作。相较于传统独占式的推理引擎可显著降低算力成本。

ADVANTAGE

产品优势

部署简单 开箱即用
快速私有化部署,开箱即用。使用标准开放接口,支持轻松接入常见的 AI 科学研究与应用软件生态
覆盖主流模型
支持主流的 Diffusion、多语言、多模态等多种类模型,可支援文生图、问答、总结、翻译、Embedding 提取等各类应用场景
支持主流算力硬件
除英伟达之外,同时完美支持主流国产算力,包括天数智芯、沐曦、华为昇腾、中科曙光等多种国产算力,实现媲美英伟达的推理性能
FEATURES

产品特性

多种访问接口
GiEngine 高速推理引擎主要提供两个层次的多种模型推理访问接口。
Web API
Native Python Library
通过兼容 OpenAI 的 Web API,便捷接入开源生态,如 Dify、Langchain、LobeChat 等
curl https://ai.gitee.com/v1/chat/completions \
-X POST \
-H "Authorization: Bearer ${API_TOKEN}" \
-H "Content-Type: application/json" \
-H "X-Package: 1910" \
-d '{"model":"Qwen2.5-72B-Instruct","stream":true,"max_tokens":512,"temperature":0.7,"top_p":0.7,"top_k":50,"frequency_penalty":1,"messages":[{"role":"user","content":"树上9只鸟,打掉1只,还剩几只?"}]}'
稳定的推理性能
在 GiEngine 高速推理引擎中,一份 API Token 与一个独立的保障性能的推理通道相对应。
  • 不同的推理通道在性能、数据、安全方面保障隔离性。
  • 使用相同 API Token 发送的请求将在推理通道中排队,等候推理。
高效的服务端缓存
GiEngine 高速推理引擎包含一系列缓存系统,与算法深度结合,充分利用分级异构内存空间,减少推理过程中的重复计算。
支持丰富的 LoRA 扩展
GiEngine 高速推理引擎支持在运行时按需配置 LoRA,快速实现大模型的个性化定制,随插随用,轻巧方便。
TECH HIGHLIGHTS

技术亮点

整体框架
编译优化
支持多种框架的多种算法模型,优化模型运行性能
多种后端算力支持
从英伟达到国产的燧原、天数智芯、中科曙光、沐曦和昇腾等,多种算力都已接入
Ascend燧原科技天数智芯沐曦NVIDIA中科曙光
如果您对 GiEngine 高速推理引擎 感兴趣,请点击按钮发送邮件至 gitee-ai@oschina.cn,我们将尽快与您取得联系,提供详细的技术和实施方案,期待与您合作!
立即体验