Новая разработка «Яндекса» ускорит обучение нейросетей

Новая разработка «Яндекса» ускорит обучение нейросетей

Библиотека подходит для обучения всех языковых моделей, включая модели с открытым исходным кодом. В компании также отметили, что она применима и для нейросетей, генерирующих изображения. YaFSDP позволяет сократить время обучения до 25% в зависимости от параметров и архитектуры модели. Кроме того, она позволяет снизить потребление ресурсов графических процессоров (GPU) до 20%.

Как пояснили в компании, одна из сложностей в обучении больших языковых моделей — это недостаточная загрузка каналов коммуникации между графическими процессорами. YaFSDP это решает. Библиотека оптимизирует использование ресурсов GPU на всех этапах обучения: pre-training (предварительное), supervised fine-tuning (с учителем), alignment (выравнивание модели). Благодаря этому YaFSDP задействует ровно столько графической памяти, сколько нужно для обучения, при этом коммуникацию между GPU ничто не замедляет.

Иллюстрация к статье: Яндекс.Картинки

Читайте также

Оставить комментарий

Вы можете использовать HTML тэги: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>