Исследователи из ETH и Google выявили ключевой механизм в алгоритме обучения нейросетей

Несмотря на то, что LLM обрели огромную популярность, даже разработчики не до конца понимают принципы их работы. Однако ученым из ETH и Google удалось раскрыть ключевой механизм работы больших языковых моделей.

В названии бота ChatGPT буква "Т" означает "трансформаторы". Они являются особой архитектурой искусственной нейронной сети. Она отвечает за производительность языкового перевода.

До внедрения этой архитектуры для разных задач использовались разные модели. Например, одна архитектура отвечала за создание изображений, вторая - за ответы на текстовые вопросы. С помощью Transformers удалось объединить все эти функции в единую модель.

Как работает Transformers

Трансформаторы отличаются от других архитектур способностью самостоятельно обучаться внутри модели. Они способны реализовывать алгоритм машинного обучения, который получает уроки и перестраивается после получения информации.

Подобный тип обучения происходит, когда, например, модель сталкивается с запросами, которых раньше не встречала. Если пользователь предложит модели определить настроение текста, приведя примеры, она проанализирует их и научится определять это настроение.

Получается, что модель самообучается технике повышения своих интеллектуальных способностей.

Изначально модель получает только текстовый ввод, и ей достаточно этого для оптимизации выходных данных. Такого результата модель достигает с помощью изменения связей в своей нейронной сети. Примерно по тому же принципу обучается мозг человека.

По мнению экспертов, такая возможность появилась в модели машинного обучения из-за неявно встроенных процессов до начала ее обучения. То есть, к такому результату создатели модели пришли случайно.

0 комментариев