Обучение больших нейронных сетей, лежащих в основе многих современных инструментов искусственного интеллекта, требует вычислительной мощности.

Например, для обучения самой продвинутой языковой модели OpenAI, GPT-3, требуются миллиарды и триллионы операций и более 5 миллионов долларов за весь период вычислений.

Инженеры нашли способ облегчить этот процесс с помощью иного метода представления чисел. Группа исследователей из Мадридского университета Комплутенсе разработала первое процессорное ядро, реализующее стандарт posit в аппаратном обеспечении, и показала, что точность базовой вычислительной задачи увеличивается в четыре раза по сравнению с использованием стандартных чисел с плавающей запятой. Они представили свои результаты на симпозиуме IEEE по компьютерной арифметике, сообщает IEEE Spectrum.

Мадридские учёные не одиноки в расширении возможностей представления чисел. Буквально на прошлой неделе Nvidia, Arm и Intel согласовали спецификацию использования 8-битных чисел с плавающей запятой вместо обычных 32-битных или 16-битных для приложений машинного обучения. Использование меньшего и менее точного формата повышает эффективность за счёт точности вычислений.

Большая часть вычислений нейронной сети состоит из операций умножения и накопления. Каждый раз, когда выполняется такое вычисление, каждая сумма должна быть усечена заново, что приводит к потере точности. С новым методом команда программистов смогла сравнить вычисления, выполненные с использованием 32-битных чисел с плавающей запятой и 32-битных положений. Позиции продемонстрировали поразительное улучшение в четырёхкратном размере точности матричного умножения, присущего обучению нейронной сети. Они также обнаружили, что повышение точности достигается не за счёт времени вычислений, а с помощью некоторого увеличения площади кристалла и энергопотребления.

Хотя выигрыш в численной точности неоспорим, ещё неизвестно, как именно это повлияет на обучение искусственного интеллекта.