Проект Debian объявил о проведении общего голосования (GR, general resolution) разработчиков проекта для утверждения критериев принятия моделей машинного обучения в состав основного репозитория проекта. На данном этапе запущена фаза обсуждения, после которой начнётся сбор голосов (дата начала голосования пока не определена). Право голоса имеют около тысячи разработчиков, участвующих в сопровождении пакетов и поддержании инфраструктуры Debian.
AI-модели, распространяемые под отрытыми лицензиями, но без предоставления исходного материала и инструментария для обучения модели, предлагается признать несовместимыми с критериями Debian, определяющими свободное ПО (DFSG, Debian Free Software Guideline). В случае утверждения предложения подобные модели не смогут быть включены в основной репозиторий проекта (“main”). Возможность поставки таких моделей в репозитории “non-free” в запущенном голосовании не рассматривается.
Среди проблем, возникающих при отсутствии данных, используемых при обучении, упомянуты:
- Отсутствие исходных данных или программ, используемых для проведения обучения, сильно ограничивает возможности по модификации готовых AI-моделей. Несмотря на разрешение модификации в лицензии, на практике подобная модификация затруднена. Изменение может потребоваться, например, при необходимости замены токенизатора, необходимого для добавления поддержки новых языков.
- Применяемые для обучения данные можно трактовать как “исходный код” модели, а готовая модель как результат обработки этого “исходного кода” инструментарием для проведения обучения. Соответственно, для полноценной модификации модели должна быть возможность модификации исходных данных и инструментария.
- Невозможность воспроизвести работу, выполненную для создания модели, без доступа к исходным данным и инструментарию.
- Безопасность и этические вопросы. Без исходных данных и инструментария возможность устранения уязвимостей в моделях ограничена применением бинарных патчей или полной заменой модели. Подобные патчи может подготовить только автор модели, а потребители модели становятся целиком зависимы от него. При этом никто, включая авторов модели, не способен понять суть предлагаемых таким образом изменений. Отсутствие исходных данных также затрудняет выявление подстановки бэкдоров в модели машинного обучения.
- Ограничения по изучению. Без исходных данных невозможно подтвердить, что модель обучена на данных, поставляемых под лицензиями, допускающими подобное использование, или исключить, что при обучении не использовались данные, полученные нелегальным путём. Кроме того, если при обучении использовались данные под лицензией GPL, может потребоваться анализ наличия в выдаваемом моделью результате фрагментов с копией этих данных, для которых необходимо упоминание источника и лицензии. Разработчик может добавить в своей проект сгенерированный моделью код/контент и невольно нарушить лицензию на какие-то исходные данные.
В октябре прошлого года организация OSI (Open Source Initiative) опубликовала определение открытой AI-системы (Open Source AI). Открытая AI-система должна предоставлять следующие возможности: использование в любых целях без необходимости получения отдельного разрешения; изучение работы системы и инспектирование её компонентов; внесение изменений для любых целей; передача другим лицам как исходного варианта, так и редакции после внесения изменений, без ограничения целей использования. Открытая AI-система должна включать детальную информацию об архитектуре модели, данных, использованных при обучении, и методологии обучения, а также исходный код для запуска и обучения AI-системы. Информации должно быть достаточно для того, чтобы профессиональный разработчик смог своими силами воссоздать эквивалентную AI-систему, используя для обучения те же самые или похожие данные.
Правозащитная организация Software Freedom Conservancy (SFC) выступила с критикой подобного определения. Недовольство вызвано тем, что критериях отсутствуют требования по предоставлению данных, использованных для обучения модели.
В определении OSI требуется лишь предоставить подробную информацию об использованных при обучении данных, но не сами данные. Принятое определение гарантированно предоставляет лишь две из четырёх заявленных свобод Open Source – возможность использовать и возможность распространять, при том, что возможности изменять и изучать обеспечены не полностью.
Решение OSI объясняется тем, что публикация исходных данных во многих случаях невозможна в силу причин, не зависящих от разработчика AI-модели, таких как необходимость сохранения конфиденциальности, использование материалов, защищённых авторским правом, лицензирование данных у сторонних поставщиков и т.п. В случае добавления требования по предоставлению данных ни одна из существующих больших языковых моделей не получила бы статус открытой, а само определением стало бы недостижимой утопией.