ШІ навчився передбачати погляд людини: як працює 3D-алгоритм для AR-окулярів

Технологія доповненої реальності дозволить смарт-окулярам заздалегідь підвантажувати потрібні інтерфейси

Американські науковці спільно з інженерами Meta розробили алгоритм, який дозволяє смарт-окулярам працювати на випередження. Нова технологія здатна прогнозувати траєкторію людської уваги у 3D-середовищі на кілька секунд наперед.

Про це інформує РБК-Україна з посиланням на матеріали наукової доповіді з конференції CVPR у Денвері.

Більше цікавого: Microsoft показала гаджет майбутнього: що прийде на зміну Android та iPhone

Нова технологія базується на переході від аналізу двовимірних статичних зображень до повноцінного моделювання поведінки людини у реальному середовищі.

Як це працює?

Авторкою дослідження стала Фіона Раян, аспірантка Школи інтерактивних обчислень Georgia Tech. Вона розробила першу 3D-платформу для прогнозування так званих "сканпатів" (траєкторій руху очей) на основі відео від першої особи.

"Оскільки людина живе у тривимірному світі та постійно перебуває в русі, стандартні 2D-метрики аналізу картинок не здатні ефективно працювати у переносному пристрої типу смарт-окулярів", - пояснює науковиця.

Новий алгоритм прораховує вектор уваги як послідовність фіксацій погляду, що напряму залежать від актуальної цілі людини. Наприклад, якщо система фіксує рух руки до чашки з кавою, вона автоматично прораховує наступний крок оператора - пошук місця, куди цю чашку буде поставлено.

Візуалізація роботи алгоритму (скриншот: Techxsplore)

Тестування на базі даних Meta

Основну частину практичної роботи дослідниця виконала під час стажування у компанії Meta.

Для навчання ШІ використовувався спеціалізований набір даних Aria Digital Twin. Цей датасет містить тисячі годин відеозаписів від першої особи, на яких зафіксовано побутову взаємодію людей із предметами у межах квартири, поєднану з високоточною 3D-реконструкцією всього приміщення.

Завдяки цьому розробникам вдалося отримати ідеальні координати реального напрямку погляду та зіставити їх із геометрією простору.

Практична користь

Наразі ПЗ здатне стабільно прогнозувати напрямок погляду у середньому на 3 секунди вперед, а в окремих простих сценаріях цей показник досягає 10 секунд.

Цього часу цілком достатньо, щоб графічний процесор AR-окулярів заздалегідь проактивно згенерував (відрендерив) необхідні віртуальні підказки чи елементи інтерфейсу у тій зоні, куди людина тільки збирається подивитися.

"Це повністю прибирає ефект затримки картинки", - зазначає Фіона Раян.

У майбутньому розробники планують інтегрувати у модель контекстні сценарії (розуміння того, чим саме зайнята людина в цей момент). Це дозволить звузити варіанти прогнозування під час тривалої концентрації на одному предметі.

Окрім споживчої електроніки та смарт-окулярів, технологія має високий потенціал у робототехніці: її використають для навчання алгоритмів роботів, щоб ті могли копіювати природне людське сприйняття під час виконання побутових чи виробничих завдань.

Ще більше цікавого:

NVIDIA змінює правила для роботів майбутнього: що може новий андроїд Isaac GR00T
Роботи вже воюють в Україні: що показали перші тести гуманоїдів Phantom MK-1 на фронті

ШІ навчився передбачати погляд людини: як працює 3D-алгоритм для AR-окулярів

Читайте також