Стартап Anthropic совершил прорыв в понимании поведения нейросетей

Стартап, который занимается разработками в области ИИ, совершил прорыв в понимании поведения нейросетей. Представители компании Anthropic сообщили, что нашли способ объяснить работу нейросетей, лежащих в основе ИИ.

Anthropic провела исследование небольшой языковой модели-трансформера, разбив 512 нейронов на более 4000 функций, представляющих различные контексты, от ДНК до юридического языка.

Это помогло им обнаружить, что функции были более интерпретируемы, чем нейроны. Для подтверждения этого Anthropic создала слепого оценщика, который высоко оценил функции по сравнению с нейронами. На фото ниже можно наблюдать, как объекты (красные) оцениваются намного выше, чем нейроны (бирюзовые).

Этот подход может улучшить понимание работы нейронных сетей, делая их поведение более предсказуемым. Хотя метод еще не масштабирован, он имеет перспективы для прогресса в механическом взаимодействии и может помочь улучшить безопасность и надежность внедрения языковых моделей в обществе.

По словам Хольгера Мюллера из Constellation Research Inc., нейросети являются ключевой разработкой, которая помогла искусственному интеллекту выйти на такой уровень так быстро. Но непонимание процесса работы нейронных сетей помогает определять их реакцию на ту или иную подсказку. На данный момент специалисты сосредоточены на «механистической совместимости», то есть на изучении обратного проектирования нейронных сетей.

0 комментариев