视觉模型

功能描述

视觉模型是一类专门用于处理和理解图像、视频等视觉信息的人工智能模型。这些模型通过深度学习技术，能够像人类一样"看懂"图像内容，并执行各种视觉相关的任务。

视觉模型的核心能力包括图像识别、内容理解、特征提取和模式匹配等。它们广泛应用于自动驾驶、医疗影像分析、安全监控、内容审核等领域，帮助人们更高效地处理和利用视觉数据。

视觉模型一览表

加载 Serverless API 服务列表...

使用方法

给定一张图，并输入相应的提示词，模型根据提示词的要求返回结果文本信息。

视觉模型体验

示例代码

python
from openai import OpenAI

client = OpenAI(
	base_url="https://ai.gitee.com/v1",
	api_key="XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX", # 替换为您的访问令牌
)

response = client.chat.completions.create(
	messages=[
		{
			"role": "system",
			"content": "You are a helpful and harmless assistant. You should think step-by-step."
		},
		{
			"role": "user",
			"content": [
				{
					"type": "image_url",
					"image_url": {
						"url": "https://example.com/image.jpg"  # 替换为您的图片URL
					}
				},
				{
					"type": "text",
					"text": "Please describe this image" # 替换为您的提示词
				}
			]
		}
	],
	model="InternVL3-78B",
	stream=True,
	max_tokens=512,
	temperature=0.7,
	top_p=1,
	extra_body={
		"top_k": 1,
	},
	frequency_penalty=0,
)

fullResponse = ""
print("Response:")
# Print streaming response
for chunk in response:
	delta = chunk.choices[0].delta
	# If is thinking content, print it in gray
	if hasattr(delta, 'reasoning_content') and delta.reasoning_content:
		fullResponse += delta.reasoning_content
		print(f"\033[90m{delta.reasoning_content}\033[0m", end="", flush=True)
	elif delta.content:
		fullResponse += delta.content
		print(delta.content, end="", flush=True)

更多示例代码您可参考模力方舟示例代码仓库。

使用场景

🛡️ 内容审核

违规内容检测：识别不当或违规图像内容
质量评估：评估图像的质量和适用性
版权保护：检测图像的版权和来源信息

🏥 医疗诊断

医学影像分析：分析X光、CT、MRI等医学图像
病变检测：识别和定位病变区域
辅助诊断：为医生提供诊断建议和参考

🚗 自动驾驶

环境感知：识别道路、车辆、行人等交通元素
障碍物检测：实时检测道路上的障碍物
交通标识识别：识别交通信号灯、标志牌等

🛒 电商零售

商品识别：自动识别和分类商品
相似商品推荐：基于视觉相似性推荐商品
库存管理：通过图像识别进行库存盘点

🏭 工业检测

质量控制：检测产品的缺陷和质量问题
安全监控：监控工业环境的安全状况
设备维护：通过视觉检测进行设备状态评估

功能描述​

视觉模型一览表​

使用方法​

示例代码​

使用场景​

🛡️ 内容审核​

🏥 医疗诊断​

🚗 自动驾驶​

🛒 电商零售​

🏭 工业检测​