Компания SUSE открыла AI-модель для анализа лицензионной чистоты кода

Компания SUSE объявила об открытии под лицензией Apache 2.0 большой языковой модели Cavil-Qwen3-4B, применяемой в проектах SUSE и openSUSE в инструментарии Cavil для анализа лицензионной частоты кода. Опубликованная модель охватывает 4 миллиардов параметров и основана на модели Qwen3-4B, дополнительно оптимизированной для классификации текста.

Основным назначением модели называется определение лицензий, используемых в исходном коде программ и документации. Для выполнения данной задачи модель дополнительно обучена на наборе данных, включающем 150 тысяч примеров заголовков и комментариев с упоминаниями лицензий в исходном коде. На практике модель позволяет автоматизировать проверку лицензионной чистоты кодовой базы для выявления лицензионных несовместимостей и потенциальных юридических проблем с кодом.

Размер модели подобран для достижения сочетания качественного понимания языковых конструкций и возможности выполнения на системах с типовыми потребительскими GPU. Помимо самой модели в свободном доступе размещён набор данных, используемый при обучении, и инструментарий для валидации. Также доступен обработчик для задействования модели в инструментарии Cavil, предназначенном для проверки исходного кода на предмет соблюдения юридических норм и требований (проверка лицензий, выявление нарушений лицензий, оценка рисков).

Release. Ссылка here.