Google преподает Gemini уроки истории: ждем, когда модель снова сможет рисовать людей

В ближайшее время Gemini, новая ИИ-модель от компании Google, снова сможет генерировать изображения с людьми. Эта возможность была временно отключена на прошлой неделе после волны критики.

Пользователи заметили, что нейросеть пренебрегает историческими фактами в пользу толерантности и борьбы со стереотипами. Например, когда у Gemini просили сгенерировать изображения римских пап или викингов, модель могла изобразить чернокожих мужчин и женщин в соответствующих костюмах.

Очевидно, цель компании была в том, чтобы побороть дискриминацию и сделать Gemini максимально политкорректной, но самые важные нюансы остались без внимания.

На конференции Mobile World Congress, проходящей на этой неделе в Барселоне, руководитель Google DeepMind, Демис Хассабис , признал: модель работала “не совсем так, как изначально предполагалось”.

“Мы отключили эту функцию, пока решаем проблему. Надеемся запустить её снова в ближайшие пару недель”, – сказал он.

По словам разработчиков Google, ИИ-модели часто усваивают и транслируют существующие в обществе предрассудки. Например, изображения врачей или CEO обычно ассоциируются с белыми мужчинами. Старший вице-президент Google, Прабхакар Рагхаван, рассказал, что корректировка алгоритмов оказалась непростой задачей.

“Во-первых, настройка нашей модели для демонстрации разнообразия людей не учитывала ситуации, где это разнообразие неуместно”, – пояснил он. “Во-вторых, со временем модель стала слишком осторожной и начала отказываться генерировать картинки по некоторым запросам, неверно интерпретируя вполне нейтральные промпты как слишком деликатные.

Эти две проблемы привели к тому, что в одних случаях модель создавала чрезмерно разнообразные изображения людей, а в других – наоборот, слишком однообразные. Так и получались исторически некорректные образы”.

При этом возможности Gemini по генерации текста остаются доступными и вскоре будут интегрированы в новые функции Android. Пользователи смогут общаться с моделью в приложениях, чтобы получать нужную информацию или составлять письма.

Кроме того, компания Google анонсировала интеграцию Gemini в систему Android Auto. Модель будет автоматически суммировать длинные тексты и диалоги в групповых чатах, а также предлагать релевантные ответы. Это позволит водителям быстрее реагировать на важные сообщения во время управления автомобилем.

Public Release.