图像物体检测与描述
Florence-2-large是微软出品的开源多功能图像标记模型,可以辅助标记图像内容、生成图像描述、识别目标等。
得益于大模型架构,Florence-2还支持使用提示词定向标记图中特定对象。
Gitee AI的Serverless API服务 优化并提供了该模型开箱即用的API,将繁杂的功能整合为更易使用的接口。
您可以通过界面快速体验接口能力。下面将基于代码调用介绍该接口的能力。
提示
该模型仅支持英文输入输出,因此无论是输入的提示词还是识别的内容和输出的结果都将是英文的,任何其它语言的信息都会导致模型出现无法预计的输出结果。
准备工作
首先获取你的API Key,然后可定义请求函数如下。
接口的使用以Python代码为例,下面将分别演示“图像描述”与“目标识别”两个功能项的使用方法。在开始前先定义请求函数如下:
import requests
headers = {
"Authorization": "Bearer <your api token>",
}
#用于请求图像描述的url
url_caption = "https://ai.gitee.com/v1/images/caption"
#用于请求目标识别的url
url_object_detection = "https://ai.gitee.com/v1/images/object-detection"
def query(url, payload):
files = {
"image": (payload["image"], open(payload["image"], "rb"))
}
data = {key: payload[key] for key in payload if key not in files}
response = requests.post(url, headers=headers, files=files, data=data)
return response.json()
下文中使用的图片示例为:
1. 图像描述生成
该功能可以获取用户输入的图片的自然语言描述。 使用上文的query函数,发起请求如下:
output = query(url_caption, {
"model": "Florence-2-large",
"image": "path/to/image.jpg",
"caption_level": 0
})