Исследователи из Стэнфорда разработали инновационную модель компьютерного зрения, которая распознает реальные функции объектов, что потенциально позволяет автономным роботам более эффективно выбирать и использовать инструменты.
В области искусственного интеллекта, известной как компьютерное зрение, исследователи успешно обучили модели, способные распознавать объекты на двумерных изображениях . Этот навык критически важен для будущего роботов, способных самостоятельно ориентироваться в мире. Но распознавание объектов — это лишь первый шаг. ИИ также должен понимать функции частей объекта — отличать носик от ручки или лезвие хлебного ножа от лезвия ножа для масла.
Эксперты по компьютерному зрению называют такие перекрытия полезности «функциональным соответствием». Это одна из самых сложных задач в области компьютерного зрения. Но теперь, в докладе , который будет представлен на Международной конференции по компьютерному зрению ( ICCV 2025 ), учёные из Стэнфорда представят новую модель искусственного интеллекта, которая может не только распознавать различные части объекта и определять их реальное предназначение, но и отображать их с точностью до пикселя между объектами.
Робот будущего, возможно, сможет отличать, скажем, мясницкий нож от хлебного или совок от лопаты и выбирать подходящий инструмент для работы. Исследователи предполагают, что в будущем робот сможет перенести навыки работы с совоком на лопату или с бутылкой на чайник, чтобы выполнять работу с разными инструментами.
«Наша модель может рассматривать изображения стеклянной бутылки и чайника и распознавать носик на каждом из них, но также понимает, что носик используется для наливания», — объясняет соавтор Стефан Стоянов, научный сотрудник Стэнфордского университета, работающий под руководством старших авторов Цзяцзюнь Ву и Дэниела Яминса. «Мы хотим создать систему зрительного восприятия, которая будет поддерживать такого рода обобщение — проводить аналогии, переносить навык с одного объекта на другой для достижения той же функции».
Установление соответствия — это искусство определения того, какие пиксели на двух изображениях относятся к одной и той же точке мира, даже если фотографии сделаны с разных ракурсов или изображают разные объекты. Это достаточно сложно, если изображение представляет собой один и тот же объект, но, как показывает пример с бутылкой и чайником, реальный мир редко бывает таким шаблонным. Автономным роботам потребуется делать обобщения по категориям объектов и выбирать, какой объект использовать для конкретной задачи.
Исследователи надеются, что однажды робот на кухне сможет выбирать чайник, чтобы заварить чашку чая, брать его за ручку и использовать чайник, чтобы наливать горячую воду из носика.
Правила автономии
Настоящее функциональное соответствие сделало бы роботов гораздо более адаптируемыми, чем сейчас. Домашнему роботу не потребовалось бы обучение использованию всех имеющихся в его распоряжении инструментов, но он мог бы рассуждать по аналогии, понимая, что, хотя и хлебный нож, и нож для масла могут резать, каждый из них служит определённой цели.
По словам исследователей, в своей работе им удалось добиться «плотного» функционального соответствия, тогда как ранее удавалось добиться лишь разреженного соответствия, позволяющего определить лишь несколько ключевых точек каждого объекта. До сих пор проблемой была нехватка данных, которые обычно приходилось собирать с помощью аннотации человеком.
«В отличие от традиционного контролируемого обучения, где на входе имеются изображения и соответствующие им метки, написанные людьми, невозможно вручную аннотировать тысячи пикселей, индивидуально выровненных по двум разным объектам», — говорит соавтор Линан «Фрэнк» Чжао, недавно получивший степень магистра компьютерных наук в Стэнфорде. «Поэтому мы обратились за помощью к ИИ».
Команде удалось найти решение, используя так называемый «слабый надзор» — модели визуального языка для создания меток, идентифицирующих функциональные части, и привлекая экспертов-людей только для контроля качества конвейера данных. Это гораздо более эффективный и экономичный подход к обучению.
«То, чему ещё несколько лет назад было бы очень сложно научиться посредством контролируемого обучения, теперь можно сделать с гораздо меньшими человеческими усилиями», — добавляет Чжао.
Например, в примере с чайником и бутылкой каждый пиксель в носике чайника совмещен с пикселем в горлышке бутылки, обеспечивая плотное функциональное сопоставление между двумя объектами. Новая система машинного зрения способна выявлять функции в структуре разнородных объектов — ценное сочетание функциональной чёткости и пространственной согласованности.
Видение будущего
На данный момент система была протестирована только на изображениях, а не в реальных экспериментах с роботами, но команда считает, что эта модель является многообещающим шагом в развитии робототехники и компьютерного зрения. Плотное функциональное соответствие — часть более широкой тенденции в области искусственного интеллекта, в рамках которой модели переходят от простого распознавания образов к рассуждениям об объектах. Если предыдущие модели видели только пиксельные паттерны, то новые системы способны делать выводы о намерениях.
«Это урок о том, как форма следует за функцией», — говорит Юньчжи Чжан, докторант Стэнфордского университета по информатике. «Части объекта, выполняющие определённую функцию, как правило, остаются неизменными для всех объектов, даже если другие части сильно различаются».
Заглядывая в будущее, исследователи хотят интегрировать свою модель в воплощенных агентов и создать более обширные наборы данных.
«Если мы сможем найти способ получать более точные функциональные соответствия, это должно стать важным шагом вперёд», — говорит Стоянов. «В конечном счёте, обучение машин видеть мир через призму функций может изменить траекторию развития компьютерного зрения , сделав его менее ориентированным на закономерности и более ориентированным на практическую пользу».
Контакты, администрация и авторы