视觉模型
功能描述
视觉模型是一类专门用于处理和理解图像、视频等视觉信息的人工智能模型。这些模型通过深度学习技术,能够像人类一样"看懂"图像内容,并执行各种视觉相关的任务。
视觉模型的核心能力包括图像识别、内容理解、特征提取和模式匹配等。它们广泛应用于自动驾驶、医疗影像分析、安全监控、内容审核等领域,帮助人们更高效地处理和利用视觉数据。
视觉模型一览表
加载 Serverless API 服务列表...
使用方法
给定一张图,并输入相应的提示词,模型根据提示词的要求返回结果文本信息。
示例代码
python
from openai import OpenAI
client = OpenAI(
base_url="https://ai.gitee.com/v1",
api_key="XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX", # 替换为您的访问令牌
)
response = client.chat.completions.create(
messages=[
{
"role": "system",
"content": "You are a helpful and harmless assistant. You should think step-by-step."
},
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {
"url": "https://example.com/image.jpg" # 替换为您的图片URL
}
},
{
"type": "text",
"text": "Please describe this image" # 替换为您的提示词
}
]
}
],
model="InternVL3-78B",
stream=True,
max_tokens=512,
temperature=0.7,
top_p=1,
extra_body={
"top_k": 1,
},
frequency_penalty=0,
)
fullResponse = ""
print("Response:")
# Print streaming response
for chunk in response:
delta = chunk.choices[0].delta
# If is thinking content, print it in gray
if hasattr(delta, 'reasoning_content') and delta.reasoning_content:
fullResponse += delta.reasoning_content
print(f"\033[90m{delta.reasoning_content}\033[0m", end="", flush=True)
elif delta.content:
fullResponse += delta.content
print(delta.content, end="", flush=True)
更多示例代码您可参考 模力方舟示例代码仓库 。
使用场景
🛡️ 内容审核
- 违规内容检测:识别不当或违规图像内容
- 质量评估:评估图像的质量和适用性
- 版权保护:检测图像的版权和来源信息
🏥 医疗诊断
- 医学影像分析:分析X光、CT、MRI等医学图像
- 病变检测:识别和定位病变区域
- 辅助诊断:为医生提供诊断建议和参考
🚗 自动驾驶
- 环境感知:识别道路、车辆、行人等交通元素
- 障碍物检测:实时检测道路上的障碍物
- 交通标识识别:识别交通信号灯、标志牌等
🛒 电商零售
- 商品识别:自动识别和分类商品
- 相似商品推荐:基于视觉相似性推荐商品
- 库存管理:通过图像识别进行库存盘点
🏭 工业检测
- 质量控制:检测产品的缺陷和质量问题
- 安全监控:监控工业环境的安全状况
- 设备维护:通过视觉检测进行设备状态评估