Когда мы говорим об «оперативной памяти» в контексте OpenAI, нужно понимать, что здесь есть два уровня: физическая оперативная память (RAM) на серверах, на которых работают модели, и «оперативная память» в смысле архитектуры моделей, то есть внутренние механизмы хранения промежуточных данных, контекста диалогов и состояния вычислений. Иногда в обсуждениях людей под этим термином подразумевается нечто вроде «кратковременной памяти модели», но чаще речь всё же идёт о физической памяти.
Зачем OpenAI нужна оперативная память?
- Для работы больших моделей
Современные языковые модели, особенно GPT-4 и последующие, имеют сотни миллиардов параметров. Например, веса GPT-4 в FP16 могут занимать десятки гигабайт только на хранение модели в оперативной памяти одного GPU. Если использовать CPU и обычную RAM, требования могут вырасти в сотни гигабайт. Без достаточного объёма оперативной памяти невозможно держать модель «живой» для быстрого инференса. RAM здесь критична, потому что чтение данных с SSD или HDD в реальном времени слишком медленное для интерактивного отклика. - Для хранения промежуточных вычислений
При генерации текста модель не просто использует свои веса — она держит в памяти векторные представления токенов, активность нейронов на каждом слое и результаты внимания (attention matrices). Для GPT-4 с длинными контекстами это легко десятки гигабайт для одного запроса. RAM нужна, чтобы это всё умещалось без постоянного обращения к медленным носителям. - Для работы с большим количеством параллельных запросов
OpenAI обслуживает миллионы пользователей одновременно. Чтобы модель могла отвечать многим пользователям в один момент, необходимо масштабировать инфраструктуру горизонтально (несколько серверов) и вертикально (каждый сервер с огромным объёмом RAM). Если оперативной памяти будет недостаточно, система начнёт тормозить или отбрасывать запросы. - Для кэширования данных и ускорения обучения
Во время обучения модели, особенно при fine-tuning или reinforcement learning, оперативная память используется для хранения батчей данных, градиентов, промежуточных вычислений, и кэширования словарей токенов. Без RAM обучение было бы невероятно медленным, потому что каждую итерацию пришлось бы вытаскивать данные с SSD.

Реально ли OpenAI выкупила оперативную память?
Фраза «выкупила оперативную память» звучит как гипербола. В реальности OpenAI не покупает всю RAM в мире, конечно, но они действительно инвестируют огромные средства в закупку серверного оборудования с массивными объёмами памяти, а также в аренду суперкомпьютеров от Microsoft Azure и других поставщиков. Например, Microsoft официально заявляла, что они построили инфраструктуру, оптимизированную под GPT, с тысячами GPU и десятками петабайт высокоскоростной памяти, доступной для обработки моделей.
Таким образом, технически OpenAI не «выкупила» RAM в розничном смысле — они закупают оборудование для центров обработки данных и арендуют вычислительные мощности, что по сути эквивалентно обладанию огромными объёмами оперативной памяти, просто распределёнными между сотнями или тысячами серверов. Это позволяет им работать с моделями гигантского масштаба и обеспечивать миллионы интерактивных сессий пользователей одновременно.