Alibaba представила ИИ-модели для управления роботами

5 часов назад 1

Tool_AI

Alibaba представила Qwen-Robot Suite — набор ИИ-моделей для роботов и задач в физической среде: Qwen-RobotNav для навигации, Qwen-RobotManip для действий с объектами и Qwen-RobotWorld для прогнозирования развития сцены. Команда описала проект как «полный стек для воплощенного искусственного интеллекта».

📣 Introducing the Qwen-Robot Suite — Qwen-RobotNav, Qwen-RobotManip, Qwen-RobotWorld, three foundation models, a full stack for embodied intelligence.

🧭 Qwen-RobotNav — the gateway to mobility.
• Unifies 5 navigation tasks in one model: instruction following, point-goal,… pic.twitter.com/noumjTtTeS

— Qwen (@Alibaba_Qwen) June 16, 2026

Речь идет о программных моделях, которые должны помогать физическим агентам воспринимать окружающую среду, планировать действия и выполнять команды на естественном языке. Qwen-Robot Suite уже проходит пилотные испытания у отдельных корпоративных клиентов Alibaba Cloud в сфере робототехники.

Зачем Alibaba выводит Qwen в физический мир

Большие языковые и мультимодальные модели уже умеют работать с текстом, изображениями, видео и речью, но этого недостаточно для роботов. Физическим агентам нужно не только понимать команду, но и переводить ее в движение, учитывать пространство, свойства объектов, ограничения сенсоров и последствия действий.

Alibaba называет это направлением physical AI, или «воплощенного ИИ». В таком подходе модель должна работать не только с цифровыми данными, но и с физической средой: перемещаться, находить объекты, управлять манипуляторами и прогнозировать, что произойдет после действия.

Qwen-RobotNav: пять задач навигации в одной модели

Qwen-RobotNav отвечает за навигацию. Модель объединяет пять групп задач:

  • следование инструкциям;
  • движение к заданной точке;
  • поиск объектов;
  • отслеживание цели;
  • автономное вождение.

По данным Alibaba, Qwen-RobotNav построена на базе Qwen3-VL и обучена на 15,6 млн образцов, связанных с планированием маршрутов и визуально-языковым рассуждением.

Компания заявила 76,5% успешности на VLN-CE RxR и 90% на EVT-Bench. В Alibaba также уточнили, что модель может работать как инструмент для более крупных агентных систем: верхнеуровневая модель планирует задачу, а Qwen-RobotNav отвечает за перемещение.

Снимок экрана — 2026-06-17 в 12.01.51Источник: Qwen.

В демонстрациях Alibaba описывает сценарии вроде поиска потерянного предмета в помещении или проверки, открыт ли конкретный объект в здании. В таких задачах робот должен не просто двигаться, а собирать визуальные доказательства и возвращать ответ пользователю.

Qwen-RobotManip: действия с объектами

Qwen-RobotManip предназначена для физических действий с объектами. Модель должна помогать роботам брать, перемещать и размещать предметы, а также переносить навыки между разными типами устройств.

Снимок экрана — 2026-06-17 в 12.03.11Источник: Qwen-RobotManip.

Одна из ключевых проблем робототехники заключается в том, что роботы описывают действия по-разному. Манипулятор, двуручная платформа, робот с кистью или мобильная система используют разные координаты, суставы и форматы команд. Qwen-RobotManip пытается привести эти данные к общему представлению, чтобы обучение на одном типе робота помогало другому.

Для обучения Alibaba использовала более 38 100 часов данных. В этот объем вошли 11 320 часов открытых робототехнических данных, 1933 часа видео действий человека от первого лица и 24 808 часов синтетических роботических демонстраций, созданных на основе таких видео.

Компания заявила, что модель заняла первое место в RoboChallenge Table30 v1 в треке универсальных моделей. По данным Alibaba, Qwen-RobotManip также показала устойчивость к новым инструкциям, незнакомым объектам и переносу навыков между разными роботами.

Qwen-RobotWorld: модель мира для роботов

Qwen-RobotWorld — видеомодель мира, управляемая естественным языком. Она должна прогнозировать, как будет развиваться сцена после заданного действия.

Снимок экрана — 2026-06-17 в 12.08.31Источник: Qwen-RobotWorld.

Например, модель получает текущее наблюдение и текстовую команду, а затем генерирует вероятное будущее состояние среды. Такой подход может использоваться для манипуляций, автономного вождения, навигации, планирования и создания синтетических обучающих данных для роботов.

Для обучения Qwen-RobotWorld команда собрала корпус Embodied World Knowledge. Он включает 8,6 млн пар «видео-текст» и более 200 млн кадров, охватывает более 20 типов роботических платформ и свыше 500 категорий действий.

Alibaba заявила, что Qwen-RobotWorld заняла первое место в EWMBench и DreamGen Bench, а также превзошла все открытые модели в WorldModelBench и PBench. В техническом описании также утверждается, что модель показывает высокую согласованность с базовыми физическими закономерностями — движением, сохранением массы, жидкостями и гравитацией.

До массовых роботов еще далеко

Несмотря на заявленные результаты, Qwen-Robot Suite пока остается набором моделей, а не готовой потребительской робототехнической платформой. Реальное внедрение сталкивается с шумом сенсоров, износом приводов, нестандартными ситуациями, ошибками восприятия и огромным числом редких сценариев. Многие бенчмарки, на которых сравнивают такие системы, проходят в симуляции или в ограниченных экспериментальных условиях.

Alibaba также не раскрыла стоимость доступа, сроки публичного запуска и список клиентов, которые уже тестируют Qwen-Robot Suite.

Напомним, в апреле Alibaba Cloud представила агентную модель Qwen3.6-Plus с контекстным окном 1 млн токенов и поддержкой внешних инструментов.

Нашли ошибку в тексте? Выделите ее и нажмите CTRL+ENTER

Прочитайте статью целиком