Яндекс разработал новые экономичные методы по сжатию нейросетевых моделей
Подразделение компании Яндекс — Yandex Research, при поддержке исследовательских групп ISTA и KAUST, разработали новые методы по сжатию нейросетевых моделей, которые помогут уменьшить затраты на IT-ресурсы до восьми раз.
Известно, что для быстрой и эффективной работы нейросети необходимо наличие мощных графических процессоров, обладающих большой энергоемкостью и значительной стоимостью. Новое решение Яндекса позволяет сжать модель в несколько раз. При этом, уменьшенную модель нейросети можно будет устанавливать на оборудовании с меньшим вычислительным ресурсом и без потери качественных возможностей нейросети. Таким образом, внедрение нейросетей и их обслуживание обойдется бизнесу гораздо дешевле.
Обычно, при сжатии языковых моделей теряется качество ответов нейросети. Новый метод, разработанный учеными Яндекса, снимает эту проблему. Для процесса сжатия модели используется два инструмента:
- Первый инструмент обеспечивает возможность сжатия нейросети до 8 раз. Уменьшенную модель можно запустить на одном графическом процессоре вместо четырех.
- Второй инструмент вносит исправления в алгоритм и устраняет ошибки, которые неминуемо появляются в процессе сжатия большой языковой модели.
Качество ответов исходной и уменьшенной версии нейросети по методу Яндекса было проверено на бенчмарках и показало хорошие результаты — сохранено 95% качества ответов нейросети. К слову, другие аналогичные инструменты показывали от 59% до 90% сохранения качества результатов.
Ученые Yandex Research разместили код нового метода сжатия нейросетей для открытого доступа на площадке GitHub вместе с обучающими материалами для разработчиков по дообучению уменьшенных версий нейросети под свои задачи.