ШІ навчився передбачати погляд людини: як працює 3D-алгоритм для AR-окулярів
Американські науковці спільно з інженерами Meta розробили алгоритм, який дозволяє смарт-окулярам працювати на випередження. Нова технологія здатна прогнозувати траєкторію людської уваги у 3D-середовищі на кілька секунд наперед.
Про це інформує РБК-Україна з посиланням на матеріали наукової доповіді з конференції CVPR у Денвері.
Більше цікавого: Microsoft показала гаджет майбутнього: що прийде на зміну Android та iPhoneНова технологія базується на переході від аналізу двовимірних статичних зображень до повноцінного моделювання поведінки людини у реальному середовищі.
Як це працює?Авторкою дослідження стала Фіона Раян, аспірантка Школи інтерактивних обчислень Georgia Tech. Вона розробила першу 3D-платформу для прогнозування так званих "сканпатів" (траєкторій руху очей) на основі відео від першої особи.
"Оскільки людина живе у тривимірному світі та постійно перебуває в русі, стандартні 2D-метрики аналізу картинок не здатні ефективно працювати у переносному пристрої типу смарт-окулярів", - пояснює науковиця.
Новий алгоритм прораховує вектор уваги як послідовність фіксацій погляду, що напряму залежать від актуальної цілі людини. Наприклад, якщо система фіксує рух руки до чашки з кавою, вона автоматично прораховує наступний крок оператора - пошук місця, куди цю чашку буде поставлено.
Візуалізація роботи алгоритму (скриншот: Techxsplore)
Основну частину практичної роботи дослідниця виконала під час стажування у компанії Meta.
Для навчання ШІ використовувався спеціалізований набір даних Aria Digital Twin. Цей датасет містить тисячі годин відеозаписів від першої особи, на яких зафіксовано побутову взаємодію людей із предметами у межах квартири, поєднану з високоточною 3D-реконструкцією всього приміщення.
Завдяки цьому розробникам вдалося отримати ідеальні координати реального напрямку погляду та зіставити їх із геометрією простору.
Практична користьНаразі ПЗ здатне стабільно прогнозувати напрямок погляду у середньому на 3 секунди вперед, а в окремих простих сценаріях цей показник досягає 10 секунд.
Цього часу цілком достатньо, щоб графічний процесор AR-окулярів заздалегідь проактивно згенерував (відрендерив) необхідні віртуальні підказки чи елементи інтерфейсу у тій зоні, куди людина тільки збирається подивитися.
"Це повністю прибирає ефект затримки картинки", - зазначає Фіона Раян.
У майбутньому розробники планують інтегрувати у модель контекстні сценарії (розуміння того, чим саме зайнята людина в цей момент). Це дозволить звузити варіанти прогнозування під час тривалої концентрації на одному предметі.
Окрім споживчої електроніки та смарт-окулярів, технологія має високий потенціал у робототехніці: її використають для навчання алгоритмів роботів, щоб ті могли копіювати природне людське сприйняття під час виконання побутових чи виробничих завдань.
Ще більше цікавого:
- NVIDIA змінює правила для роботів майбутнього: що може новий андроїд Isaac GR00T
- Роботи вже воюють в Україні: що показали перші тести гуманоїдів Phantom MK-1 на фронті