visual model

Model

QVQ-Max

QVQ-Max is a vision reasoning model developed by Alibaba, based on Qwen2-VL-72B. It is designed to enhance AI’s capabilities in visual understanding and solving complex problems.

visual model Large language model

Model

Visit Website

Gemini 2.5 Pro

Details

Gemini 2.5 Pro is an AI model launched by Google, hailed as its "most intelligent model" yet. It is designed to handle complex tasks, excelling in reasoning capabilities, coding performance, and multimodal input processing.

visual model multimodal model

Model

Visit Website

Qwen2.5-VL-32B

Details

Qwen2.5-VL-32B is a multimodal vision-language model released by Alibaba, featuring 3.2 billion parameters. It excels in tasks such as image understanding, mathematical reasoning, and text generation.

multimodal model visual model Open source

Model

Visit Website

Aya Vision

Details

Aya Vision is a set of advanced vision-language models designed to address multilingual performance challenges in multimodal AI systems.

multimodal model visual model Open source

Model

Visit Website

PaliGemma 2 Mix

Details

PaliGemma 2 Mix: A Multi-Task Visual-Language Model (VLM) Recently Launched by Google

visual model Open source

Model

Visit Website

Qwen2.5-VL

Details

Qwen2.5-VL is the latest flagship vision-language model launched by Alibaba’s Tongyi Qianwen team, featuring significant technological advancements and a wide range of application capabilities.

visual model Open source

Model

Visit Website

Kimi K1.5

Details

Kimi K1.5 is a new-generation multimodal reasoning model launched by Dark Side of the Moon, boasting powerful reasoning and multimodal processing capabilities.

multimodal model visual model