Serverless 推理引擎

Serverless 推理引擎

私有化部署的 Serverless 模型推理引擎,支持 Gitee AI 众多开源模型的推理和应用,为企业免去自建模型推理系统耗时复杂的工作。相较于传统独占式的推理引擎可显著降低算力成本。

由 Gitee AI 与芯格科技联合研发 Powered by
ADVANTAGE

产品优势

部署简单 开箱即用
快速私有化部署,开箱即用。使用标准开放接口,支持轻松接入常见的 AI 科学研究与应用软件生态
降低算力使用成本
可显著降低推理的算力使用成本,比传统独占式的推理引擎降低近 90%
数字基于英伟达T4×8环境下的多模型实验得出
覆盖主流模型
支持主流的 Diffusion、多语言、多模态等多种类模型,可支援文生图、问答、总结、翻译、Embedding 提取等各类应用场景
支持多种算力硬件
从英伟达、Intel 到国产的燧原、天数智芯、中科曙光等,多种算力都可接入
FEATURES

产品特性

多种访问接口
Serverless 推理引擎主要提供两个层次的多种模型推理访问接口。
Web API
Native Python Library
通过符合常见标准的 Web API,便捷接入现有 AI-Native 软件生态
curl https://api-inference.ai.gitee.com/models/gpt2 \
-X POST \
-d '"你好?Gitee AI 的 serverless 服务应该怎么使用?"' \
-H "Authorization: Bearer ${API_TOKEN}"
稳定的推理性能
在 Serverless 推理引擎中,一份 API Token 与一个独立的保障性能的推理通道相对应。
  • 不同的推理通道在性能、数据、安全方面保障隔离性。
  • 使用相同 API Token 发送的请求将在推理通道中排队,等候推理。
高效的服务端缓存
Serverless 推理引擎包含一系列缓存系统,与算法深度结合,充分利用分级异构内存空间,减少推理过程中的重复计算。
支持丰富的 LoRA 扩展
Serverless 推理引擎支持在运行时按需配置 LoRA,快速实现大模型的个性化定制,随插随用,轻巧方便。
TECH HIGHLIGHTS

技术亮点

整体框架
解聚合(Disaggregation)
为了在共享算力基础设施上高效支持千模在线推理,Serverless 推理引擎采用了数据和计算解聚合的架构方案,使算力设备可以用不同的模型为前后相邻的请求提供服务
编译优化
支持多种框架的多种算法模型,优化模型运行性能
多种后端算力支持
从英伟达、Intel 到国产的燧原、天数智芯、中科曙光等,多种算力都可接入
NVIDIA燧原科技天数智芯中科曙光
如果您对 Serverless 推理引擎 感兴趣,请点击按钮发送邮件至 gitee-ai@oschina.cn,我们将尽快与您取得联系,提供详细的技术和实施方案,期待与您合作!