GiEngine 高速推理引擎

私有化部署的 GiEngine 模型推理引擎，支持众多开源模型的推理和应用，为企业免去自建模型推理系统耗时复杂的工作。相较于传统独占式的推理引擎可显著降低算力成本。

立即体验

ADVANTAGE

产品优势

部署简单开箱即用

快速私有化部署，开箱即用。使用标准开放接口，支持轻松接入常见的 AI 科学研究与应用软件生态

覆盖主流模型

支持主流的 Diffusion、多语言、多模态等多种类模型，可支援文生图、问答、总结、翻译、Embedding 提取等各类应用场景

支持主流算力硬件

除英伟达之外，同时完美支持主流国产算力，包括天数智芯、沐曦、华为昇腾、中科曙光等多种国产算力，实现媲美英伟达的推理性能

FEATURES

产品特性

多种访问接口

GiEngine 高速推理引擎主要提供两个层次的多种模型推理访问接口。

Web API

Native Python Library

通过兼容 OpenAI 的 Web API，便捷接入开源生态，如 Dify、Langchain、LobeChat 等

curl https://ai.gitee.com/v1/chat/completions \

-X POST \

-H "Authorization: Bearer ${API_TOKEN}" \

-H "Content-Type: application/json" \

-d '{"model":"Qwen2.5-72B-Instruct","stream":true,"max_tokens":512,"temperature":0.7,"top_p":0.7,"top_k":50,"frequency_penalty":1,"messages":[{"role":"user","content":"树上9只鸟，打掉1只，还剩几只？"}]}'

稳定的推理性能

在 GiEngine 高速推理引擎中，一份 API Token 与一个独立的保障性能的推理通道相对应。

不同的推理通道在性能、数据、安全方面保障隔离性。
使用相同 API Token 发送的请求将在推理通道中排队，等候推理。

高效的服务端缓存

GiEngine 高速推理引擎包含一系列缓存系统，与算法深度结合，充分利用分级异构内存空间，减少推理过程中的重复计算。

支持丰富的 LoRA 扩展

GiEngine 高速推理引擎支持在运行时按需配置 LoRA，快速实现大模型的个性化定制，随插随用，轻巧方便。

TECH HIGHLIGHTS

技术亮点

整体框架

编译优化

支持多种框架的多种算法模型，优化模型运行性能

多种后端算力支持

从英伟达到国产的燧原、天数智芯、中科曙光、沐曦和昇腾等，多种算力都已接入

如果您对 GiEngine 高速推理引擎感兴趣，请点击按钮发送邮件至 gitee-ai@oschina.cn，我们将尽快与您取得联系，提供详细的技术和实施方案，期待与您合作！

立即体验