计费维度
0.02 1k token
每张图片 3k,6 分
{"output_tokens":8,"input_tokens":1650,"image_tokens":1225}
计费QPS
计量计费_模型服务灵积(DashScope)-阿里云帮助中心 (aliyun.com)
模型服务灵积-调用统计 (aliyun.com)
阿里云登录 - 欢迎登录阿里云,安全稳定的云计算服务平台
tongyi.aliyun.com
通义千问VL_模型服务灵积(DashScope)-阿里云帮助中心
Qwen-VL/README_CN.md at master · QwenLM/Qwen-VL
通义千问-VL-预训练
Qwen-VL 是阿里云研发的大规模视觉语言模型(Large Vision Language Model, LVLM)。Qwen-VL 可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。Qwen-VL 系列模型的特点包括:
- 强大的性能:在四大类多模态任务的标准英文测评中(Zero-shot Captioning/VQA/DocVQA/Grounding)上,均取得同等通用模型大小下最好效果;
- 多语言对话模型:天然支持英文、中文等多语言对话,端到端支持图片里中英双语的长文本识别;
- 多图交错对话:支持多图输入和比较,指定图片问答,多图文学创作等;
- 首个支持中文开放域定位的通用模型:通过中文开放域语言表达进行检测框标注;
- 细粒度识别和理解:相比于目前其它开源LVLM使用的224分辨率,Qwen-VL是首个开源的448分辨率的LVLM模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。