GPT-4 заперли в теле безногого робота: гримасы Alter3 не в силах передать тех страданий, которые он испытывает

В Токийском университете разработали уникального робота-гуманоида под названием Alter3, отличительной фишкой которого стало прокачанное невербальное общение, благодаря которому в процессе разговора с пользователей робот может принимать различные позы, реалистично имитируя поведение человека.

Это стало возможным благодаря использованию большой языковой модели GPT-4 от OpenAI. Выглядит, конечно, не так круто, как аналог от Tesla , но уникальный подход к разработке поможет сделать робота более человечным и адаптированным к нахождению в социуме.

Alter3 использует наработки OpenAI для динамического воспроизведения разнообразных поз, причём без необходимости предварительного программирования каждого движения в базе данных. Всё делается практически в реальном времени.

Согласно исследовательской работе команды, опубликованной в исследовательском журнале Arxiv, “способность Alter3 отвечать на содержание разговора с помощью мимики и жестов является значительным прогрессом в области гуманоидных роботов”.

Применение LLM в роботах традиционно сосредоточено на улучшении основных коммуникативных навыков и симуляции реалистичных реакций. Исследователи также изучают потенциал данной технологии в понимании и выполнении роботами сложных инструкций, повышая их автономность и функциональность.

Например, при взаимодействии человек может дать команду Alter3, такую как “Сделай селфи со своим iPhone”. После этого робот обращается к GPT-4 за советом о необходимых действиях, а языковая модель переводит это в код Python, позволяя роботу выполнить нужные движения.

Alter3 пока что способен воспроизводить разнообразные движения только верхней частью тела, в то время как нижняя остаётся неподвижной. Данный робот является уже третьей итерацией в серии гуманоидных роботов Alter с 2016 года, обладающей 43 приводами для управления мимикой и движением конечностями.

В предыдущих исследованиях Alter3 демонстрировал способность копировать человеческие позы с помощью камеры и фреймворка OpenPose, регулируя свои суставы для имитации наблюдаемых движений.

Прогресс, которого достигли учёные на сегодняшний день, открывает новые возможности для исследования навыков имитации у роботов, особенно с использованием продвинутых LLM-технологий. Кто знает, какие команды научатся выполнять роботы с выходом GPT-5.

Public Release.