В 2025 году глобальная IT-индустрия, и российский Enterprise-сектор в частности, переживают один из самых драматичных фазовых переходов за последние два десятилетия. Мы стоим на руинах доктрины, которая казалась незыблемой с середины 2000-х годов. Мантра «Cloud First», проповедовавшая отказ от капитальных затрат (CapEx) в пользу операционных (OpEx), делегирование инфраструктурных рисков гиперскейлерам и повсеместное внедрение SaaS (Software as a Service), столкнулась с реальностью промышленного искусственного интеллекта.
То, что идеально работало для CRM-систем, корпоративной почты или легковесных микросервисов, оказалось фатально непригодным для высоконагруженных когнитивных вычислений, требующих не только вычислительной мощности, но и абсолютной детерминированности, юридической чистоты и суверенности.
Мы, как архитекторы систем и стратеги, наблюдаем завершение цикла, который аналитики Института Системного Синтеза (ISS) метко окрестили эпохой «Генеративной Наивности». Этот период, охвативший 2022–2025 годы, характеризовался иррациональной верой в то, что большие языковые модели (LLM) в их облачном исполнении станут универсальным «клеем» для всех бизнес-процессов. Ожидалось, что достаточно подключиться к API OpenAI, Google или Яндекса, чтобы получить готовый интеллект по подписке. Однако к концу 2025 года эйфория сменилась жестким прагматизмом. Рынок вошел в фазу, которую Gartner классифицирует как «Долина Разочарования» (Trough of Disillusionment), но именно в этой долине начинают формироваться контуры новой, устойчивой парадигмы — возвращения к On-Premise решениям, но на принципиально новом технологическом уровне.
В данном аналитическом отчете мы проведем глубокую деконструкцию текущей ситуации. Мы рассмотрим, почему экономика токенов убивает бюджеты крупных корпораций, превращая инновации в «налог на вычисления». Мы проанализируем эпистемологический тупик вероятностных моделей, которые «галлюцинируют» с уверенностью экспертов, создавая неприемлемые риски для критической инфраструктуры.
Мы детально разберем рынок «железа» 2025 года, от цен на NVIDIA H100 до логистики параллельного импорта, и докажем, почему покупка собственного сервера за 40 миллионов рублей сегодня выглядит более разумной инвестицией, чем аренда облака. Наконец, мы представим новую архитектурную доктрину Neuro-Symbolic AI, которая позволяет объединить гибкость нейросетей с жесткостью математической логики, создавая системы, которым действительно можно доверять.
Часть I. Кризис SaaS-модели: системный сбой в эпоху ИИ
Для понимания глубины происходящих изменений необходимо проанализировать три фундаментальных фактора, которые делают классическую SaaS-модель токсичной для современного Enterprise-сегмента: экономический, технологический и регуляторный.
1.1. Экономическая ловушка «Токеномики»: когда OpEx становится бесконечным
Классическая модель SaaS продавала нам снижение TCO (Total Cost of Ownership) через утилизацию. Вы платите только за то, что используете. Однако в мире генеративного ИИ единица тарификации изменилась. Мы больше не платим за «пользователя в месяц» или «гигабайт хранения». Мы платим за «токен» — единицу смысла, проходящую через нейросеть. И эта модель, называемая «Intelligence as a Service», скрывает в себе механизм неконтролируемой инфляции затрат.
Математика убыточности облачного интеллекта
Рассмотрим экономику внедрения ИИ в крупном банке или промышленном холдинге. Допустим, мы автоматизируем процесс проверки юридических документов или технической документации. В 2025 году стоимость использования продвинутых моделей, таких как YandexGPT Pro 5.1, составляет около 0,40 руб. за 1000 токенов.1 На первый взгляд, цифра кажется микроскопической. Но дьявол кроется в масштабировании и архитектуре современных приложений.
Современные ИИ-системы не работают по принципу «один вопрос — один ответ». Для обеспечения точности мы используем архитектуру RAG (Retrieval-Augmented Generation), которая требует загрузки в контекст модели огромных массивов справочной информации перед каждым запросом.
- Объем контекста: Типовой контракт ВЭД или регламент безопасности — это 50–100 страниц текста, что эквивалентно 30 000 – 60 000 токенов.
- Агентные циклы: Для решения сложной задачи (например, «проверь риски по налогу на прибыль с учетом новой практики ФНС») агентная система совершает не одну итерацию, а цепочку из 10–15 шагов: планирование, поиск информации, генерация гипотез, критика, финальный синтез.
Проведем расчет для одного бизнес-процесса:
- Входные данные: 50 000 токенов (документ + нормативная база) × 10 итераций = 500 000 токенов на одну задачу.
- Стоимость одной задачи: 500 \times 0.40 = 200 рублей.
- Масштаб: Департамент обрабатывает 1000 документов в день.
- Ежедневный расход: 200 \times 1000 = 200,000 рублей.
- Ежегодный расход (OpEx): 200,000 \times 250 \text{ раб. дней} = 50,000,000 рублей.
Пятьдесят миллионов рублей в год — это стоимость сжигания ресурсов только на одну функцию. Если масштабировать ИИ на HR, закупки, IT-поддержку и производство, бюджет на API легко превысит полмиллиарда рублей. При этом, в отличие от покупки серверов (CapEx), эти деньги исчезают безвозвратно. Вы не формируете актив, вы платите «аренду за интеллект», которая растет вместе с вашим бизнесом.
Западные аналоги демонстрируют еще более пугающую динамику. Модели с расширенными возможностями рассуждения (Reasoning Models), такие как OpenAI o1, стоят $15.00 за 1 миллион входных токенов и $60.00 за 1 миллион выходных. При курсе доллара около 95-100 рублей, обработка одного миллиона токенов на выход обходится почти в 6000 рублей. В промышленном масштабе это делает экономику внедрения отрицательной. Выгоды от автоматизации (сокращение штата юристов или операторов) просто не перекрывают счета за облачные вычисления.
Инфляция сложности и «Закон Масштабирования»
Ситуация усугубляется тем, что технологический прогресс в области LLM пошел по пути экстенсивного роста. Так называемые «Законы Масштабирования» (Scaling Laws) диктуют, что для повышения качества модели необходимо экспоненциально увеличивать количество параметров и объем вычислительных мощностей. Это приводит к тому, что каждое новое поколение моделей становится дороже в инференсе.
Данные внутренней разведки показывают, что новые модели класса Reasoning увеличивают стоимость транзакции до 600% по сравнению с предыдущими поколениями.1 Бизнес оказывается в заложниках: чтобы получить более умный ИИ, нужно платить кратно больше, но прирост качества уже не является линейным. Мы уперлись в «Стену Масштабирования», где каждый следующий процент точности стоит миллионы долларов инвестиций в железо провайдера, которые перекладываются на плечи клиента.
1.2. Эпистемологический кризис: Вероятностная природа против Детерминированного мира
Вторая фундаментальная проблема SaaS-решений в Enterprise — это отсутствие контроля над «мозгами». SaaS-провайдеры продают нам «черный ящик». Мы отправляем данные и получаем ответ, сгенерированный вероятностной моделью. В маркетинге это называют «творчеством», в инженерии — «стохастичностью», а в юриспруденции и управлении КИИ — «галлюцинацией».
Анализ показывает, что даже передовые модели сохраняют критический уровень ошибок в специализированных доменах.
- Внутренние бенчмарки OpenAI демонстрируют, что модель o3 на тесте PersonQA галлюцинирует в 33% случаев.
- Отечественная YandexGPT 5.1 Pro, несмотря на RAG и оптимизации, допускает уровень фактологических ошибок около 16%.
- В медицинской диагностике «чистые» LLM без внешних валидаторов показывают точность лишь 53% против 93% у врачей-людей.
Для оператора АЭС, главного инженера НПЗ или директора по правовым вопросам 16% ошибок — это не статистика. Это гарантированная катастрофа. В SaaS-модели вы не можете «залезть под капот» и исправить веса модели, которая ошибочно считает, что ставка НДС в России 20% (а не 18%, как в старых данных, на которых она училась). Вы полностью зависите от вендора, который в пользовательском соглашении снимает с себя любую ответственность за «советы ИИ».
Единственный способ гарантировать надежность — это контролировать весь стек: от данных до логики принятия решений. Это требует перехода к архитектурам, где нейросеть заперта в жесткую клетку логических правил, что практически невозможно реализовать через публичные API, где вы не контролируете среду исполнения.
1.3. Регуляторный капкан: геополитика кода и суверенитет данных
Третий гвоздь в крышку гроба SaaS для российского Enterprise — это геополитика и регуляторика. Мир глобального интернета распался на фрагменты. Использование западных облаков (OpenAI, Anthropic, Google) для российских компаний стало не просто рискованным, а де-факто невозможным.
- Блокировка и санкции: доступ к API может быть отключен в любую секунду по решению OFAC или корпоративной политике вендора. Строить критические бизнес-процессы на таком фундаменте — самоубийство для CIO.
- Федеральный закон № 187-ФЗ: Закон о безопасности критической информационной инфраструктуры (КИИ) запрещает использование иностранных облачных сервисов для значимых объектов.
- Приказы ФСТЭК: Новый приказ ФСТЭК № 117, вступающий в силу в 2026 году, вводит прямой запрет на передачу информации ограниченного доступа разработчику модели, в том числе для дообучения. Это делает использование даже отечественных публичных облаков (SaaS) проблематичным для обработки чувствительных данных. Если вы отправляете промпт в облако Яндекса или Сбера, вы передаете данные за периметр. Для КИИ это нарушение.
Таким образом, для крупного бизнеса в РФ остается единственный легитимный путь — On-Premise. Свой ЦОД, свои сервера, свои модели.
Часть II. Жесткая экономика «железа» 2025: Buy vs Rent
Если SaaS умирает, альтернатива одна — собственная инфраструктура. Но готов ли бизнес к таким капитальным затратам? И что вообще можно купить на рынке, задушенном санкциями и глобальным дефицитом чипов? Проведем детальный анализ рынка оборудования по состоянию на 2025 год.
2.1. Золотой стандарт вычислений: NVIDIA H100
«Валютой» современной ИИ-экономики является графический ускоритель NVIDIA H100. Это чип, который определяет скорость обучения и инференса. Рынок этих устройств в 2025 году характеризуется высокой волатильностью и огромным разбросом цен в зависимости от региона и канала поставки.
CapEx: Стоимость владения
Прямая покупка оборудования требует колоссальных стартовых вложений.
- Цена за 1 GPU H100 80GB (PCIe): В мире цены варьируются от $25,000 до $30,000.3 В России, с учетом логистики параллельного импорта, цена одной карты на открытом рынке (Avito, специализированные дилеры) составляет 2.7 – 3.6 млн рублей.5
- Цена за 1 GPU H100 (SXM5): Более производительная версия для кластеров NVLink стоит за рубежом $35,000 – $40,000+.3 В России предложения на такие карты встречаются реже и часто идут только в составе готовых серверов.
Однако видеокарта — это лишь компонент. Для Enterprise нужен сервер.
Типовая конфигурация для серьезных задач (обучение, масштабный RAG) — это сервер с 8 ускорителями H100 (например, Dell PowerEdge XE9680 или Supermicro SYS-821GE).
Стоимость сервера 8xH100 в 2025 году:
| Регион / Канал | Цена (USD) | Цена (RUB, курс ~96) | Источник |
|---|---|---|---|
| США (MSRP/Resellers) | $250,000 – $350,000 | ~24 – 33 млн ₽ | 3 |
| РФ (Официальные интеграторы) | N/A | 33 000 000 – 55 000 000 ₽ | 9 |
| РФ (Refurbished/Grey Market) | N/A | 17 000 000 – 25 000 000 ₽ | 11 |
Разброс цен колоссален. Сервер Dell PowerEdge XE9680, который стал де-факто стандартом для развертывания H100, поставляется в Россию сложными путями (например, через Индию, как в кейсе с Shreya Life Sciences 12), что добавляет к цене премию за риск и логистику. Тем не менее, купить его возможно. Дефицит перешел из стадии «нет в наличии» в стадию «дорого и долго (4-8 недель)».
OpEx: Стоимость аренды (Cloud GPU)
Сравним это с арендой. Облачные провайдеры предлагают доступ к GPU с почасовой оплатой.
- Мировой рынок (Lambda, CoreWeave, GMI): Аренда H100 стоит от $2.50 до $4.50 за час.
- Российский рынок (Hostkey, Selectel, Yandex): Аренда сервера с 1 картой H100 стоит порядка 207 рублей в час или 150 000 – 200 000 рублей в месяц. Кластер из 8 карт обойдется в 1.2 – 1.6 млн рублей в месяц.
Точка безубыточности (Break-even Analysis)
Проведем расчет для CIO, выбирающего между покупкой своего кластера и арендой облака на 3 года.
Сценарий: Постоянная нагрузка (инференс корпоративной LLM + ночное дообучение). Требуется мощность 8 карт H100.
Вариант А: Аренда в РФ (OpEx)
- Стоимость аренды: ~1.5 млн руб./мес (консервативно, со скидкой за объем).
- Годовой расход: 18 млн руб.
- Расход за 3 года: 54 млн руб.
- Результат через 3 года: 0 активов, зависимость от роста цен провайдера.
Вариант Б: Покупка в РФ (CapEx)
- Стоимость сервера (Dell XE9680 8xH100): 40 млн руб. (средняя рыночная цена).
- Инфраструктура (Colocation, электричество 10kW, охлаждение): ~200 000 руб./мес = 7.2 млн руб. за 3 года.
- Администрирование (часть ФОТ инженеров): ~5 млн руб. за 3 года.
- Итого TCO за 3 года: 52.2 млн руб.
Вывод: Точка финансовой безубыточности наступает примерно через 3 года. Однако здесь вступают в силу нефинансовые факторы, которые делают покупку выгоднее гораздо раньше:
- Остаточная стоимость (Residual Value): Через 3 года сервер H100 все еще будет стоить денег (минимум 30-40% от начальной цены), в то время как арендные платежи сгорают полностью.
- Безопасность: Свой сервер находится в вашем периметре. Вы контролируете физический доступ. Для КИИ это бесценно.
- Независимость: Вы не зависите от того, что облачный провайдер изменит оферту или попадет под новые санкции, отключив вам доступ.
2.2. Серверный ландшафт РФ: Что реально доступно?
Рынок оборудования в России в 2025 году представляет собой причудливую смесь «белого» параллельного импорта, «серого» ввоза и китайских альтернатив.
- Dell PowerEdge XE9680: Король рынка. 6U шасси, специально спроектированное для 8x GPU с воздушным охлаждением. Благодаря огромному спросу, каналы поставок налажены лучше всего. Именно эти серверы массово завозятся через третьи страны. Это выбор тех, кто хочет максимальной надежности и совместимости.
- Supermicro (Серия SYS-821GE): Гибкая альтернатива. Серверы Supermicro традиционно популярны благодаря модульности. Цены на платформы (без GPU) ниже, чем у Dell, но сборка требует высокой квалификации. На российском рынке доступны как готовые сборки, так и платформы под самостоятельную набивку картами.
- Китайские вендоры (Inspur, xFusion): Формально присутствуют, но часто боятся вторичных санкций. Их решения на базе NVIDIA полностью совместимы, но поставки менее стабильны.
- Альтернатива A100: Для задач инференса (не обучения) часто не нужны H100. Карты предыдущего поколения NVIDIA A100 80GB остаются великолепным выбором. Их цена в России составляет 1.0 – 1.5 млн руб. за карту , а серверы на их базе стоят в 2-3 раза дешевле флагманских решений на H100. Это «золотая середина» для большинства корпоративных задач.
Часть III. Архитектура Суверенитета: Neuro-Symbolic AI
Мы выяснили, что SaaS — это дорого и опасно, а собственное железо — это инвестиция в суверенитет. Но просто купить сервер недостаточно. Если развернуть на нем стандартную LLM, она будет так же галлюцинировать, как и облачная. Необходима смена архитектурной парадигмы.
Индустрия движется от «чистых» нейросетей к гибридным, нейро-символьным системам (Neuro-Symbolic AI). Этот подход объединяет способность нейросетей работать с неструктурированными данными (текст, картинки) и способность классических алгоритмов строго следовать логике.
3.1. Концепция ISS-Advocate: Анатомия надежности
В качестве референсной архитектуры рассмотрим систему «ISS-Адвокат» , разработанную для юридического анализа. Она демонстрирует, как Enterprise должен строить ИИ-решения в 2025 году. Архитектура отказывается от монолитности в пользу разделения ответственности (Separation of Concerns).
Система состоит из трех изолированных слоев:
Слой 1: Knowledge Graph (Граф Знаний) — «Источник Истины»
Это база данных (например, Neo4j или Firestore), где информация хранится не в виде векторов (как в RAG), а в виде структурированных фактов и связей.
- Пример: Узел «Закон» связан с узлом «Статья», который связан с узлом «Штраф».
- Зачем: LLM не может «забыть» факт, если она его не запоминала, а получила в момент запроса из Графа. Граф обновляется детерминировано: вышел новый закон — добавили узел. Не нужно переобучать сеть. Это решает проблему актуальности знаний.
Слой 2: LLM-Agent (Mistral / Llama) — «Интерпретатор»
Здесь работает нейросеть. Но её роль сведена к минимуму. Она не «оракул», а «клерк».
- Задача: Получить запрос пользователя, преобразовать его в запрос к Графу, получить факты, прочитать их и сформировать ответ строго на основе полученных фактов.
- Модель: Используются малые языковые модели (SLM) на 7–14 млрд параметров (Mistral 7B, Llama-3-8B), развернутые локально. Они быстры, дешевы в инференсе (достаточно одной карты A10 или 4090) и их достаточно для задач интерпретации.
Слой 3: Kill Switch (Логический Валидатор) — «Цензура»
Это самый инновационный компонент. Это программный модуль, основанный на формальной логике (SMT-солверы, например, Z3 Prover) или жестких правилах (Rules Engine).
- Механизм: Ответ нейросети (обычно в формате JSON) проверяется на непротиворечивость.
- Пример: Если в Графе есть риск «Высокий», а нейросеть в выводе пишет «Рисков нет», Kill Switch видит логическое противоречие ($RiskLevel!= OutputLevel$) и блокирует отправку ответа пользователю.
- Результат: Система реализует принцип Correctness by Construction. Она физически не может выдать ответ, который нарушает заданные аксиомы безопасности.
3.2. Машинный Детерминизм: Новая философия CIO
В стратегических документах этот подход называют переходом к Машинному Детерминизму.
Мы перестаем играть в рулетку с вероятностями. Мы используем ИИ только там, где он незаменим (парсинг естественного языка), а принятие решений отдаем детерминированным алгоритмам.
Для CIO это означает смену кадровой политики. Вместо того чтобы нанимать Data Scientist’ов, которые умеют тренировать модели (что дорого и часто бесполезно для бизнеса), нужно нанимать AI-Архитекторов, которые умеют строить пайплайны, проектировать графы знаний и интегрировать SMT-солверы. Это инженерная, а не научная задача.
Часть IV. Стратегия внедрения: дорожная карта для Российского Enterprise
Переход к On-Premise AI — это сложный проект, требующий четкого планирования. Основываясь на анализе успешных и провальных кейсов 1, мы предлагаем следующую дорожную карту.
4.1. Этап 0: Аудит и «Зонирование» Данных
Первый шаг — не покупка серверов, а классификация данных.
- Зеленая зона: Общедоступные данные (маркетинговые материалы, открытые базы). Здесь можно и нужно использовать дешевые облачные API (YandexGPT Lite/Pro), если это экономически оправдано.
- Желтая зона: Внутренние регламенты, не содержащие коммерческой тайны. Можно использовать частные облака.
- Красная зона: КИИ, персональные данные клиентов, коммерческая тайна, интеллектуальная собственность. Здесь — только On-Premise с воздушным зазором (Air-Gap) или жестким контролем периметра.
4.2. Этап 1: Hardware MVP (Песочница)
Ошибка многих CIO — попытка сразу построить «Звезду Смерти» за миллиард рублей. Начинать нужно с малого.
- Железо: Закупка 1–2 серверов с картами потребительского или начального серверного уровня (например, 4x NVIDIA RTX 4090 или 2x A100 PCIe). Это бюджет в 3–5 млн рублей, который легко защитить.
- Софт: Развертывание локального стека инференса (vLLM, Ollama, TensorRT-LLM).
- Задача: Пилотирование открытых моделей (Qwen, Llama, Mistral) на реальных задачах «Красной зоны».
4.3. Этап 2: Юридическая Защита (Сертификация РБПО)
Для компаний, подпадающих под КИИ, софт должен быть сертифицирован. Классическая сертификация ФСТЭК занимает 12–18 месяцев, что для ИИ — вечность.
Стратегическое решение — получение статуса разработчика РБПО (Разработка Безопасного Программного Обеспечения).1
- Это позволяет компании самостоятельно сертифицировать обновления своего ПО.
- Вы можете обновлять веса моделей и логику графа знаний еженедельно, не проходя круги бюрократического ада заново.
- Это создает мощный актив внутри компании и защищает от претензий регуляторов.
4.4. Этап 3: Интеграция с Legacy (1C-Native)
В России Enterprise — это 1С. Любой ИИ, который живет в вакууме, умрет.
Успешный проект должен быть 1C-Native. Это значит, что ИИ-агент должен уметь обращаться к OData-сервисам 1С:ERP, читать регистры накопления и справочники.
- Пример: Агент снабжения не просто «генерирует письмо поставщику», а сначала проверяет остатки в 1С, смотрит лимиты бюджетов и только потом формирует заказ.
- Это создает так называемый Vendor Lock-in наоборот: система становится настолько глубоко интегрированной в процессы, что ее невозможно заменить внешним облачным чат-ботом.
Часть V. Эмпирические Данные: Чему учит опыт Росатома и РЖД
Чтобы не быть голословными, обратимся к реальному опыту внедрения ИИ в российском индустриальном секторе.1
5.1. Росатом: 10 лет до доверия
Кейс системы «СИПО» (Система Информационной Поддержки Оператора) в Росатоме показателен. Пилот начался в 2014 году, а промышленная эксплуатация — в 2024-м.
- Урок: Цикл внедрения в КИИ занимает годы. Основное время уходит не на обучение модели, а на валидацию и построение доверия. Операторы не верят «черному ящику». Только когда система годами доказывает, что ее прогнозы (на 30 минут вперед) совпадают с физикой реактора, ей разрешают работать.
- Вывод для CIO: Не обещайте совету директоров «быстрых побед» за квартал. Закладывайте долгий цикл валидации.
5.2. РЖД: Эффективность без методики
РЖД внедрили ИИ для осмотра вагонов, получив экономический эффект в 2.2 млрд рублей. Однако руководство признает: «В стране отсутствует единая методика оценки эффективности ИИ».
- Урок: CIO должен сам стать финансовым директором своего проекта. Разработайте методику расчета ROI (как в таблицах выше), учитывающую Cost Avoidance (предотвращение аварий) и утилизацию оборудования. Без этого бюджет на следующий год не защитить.
Часть VI. Заключение: Ренессанс Инженерии
Мы наблюдаем не просто «смерть SaaS», а смерть инфантильного подхода к IT. Эпоха легких решений закончилась. Наступает время тяжелой, серьезной инженерии.
- Экономика: Токены — это налог на инновации. Собственное железо — это актив. В горизонте 3 лет On-Premise выигрывает у облака с разгромным счетом, особенно в условиях инфляции цен на API.
- Технологии: Вероятностные модели — это тупик для критических задач. Будущее за гибридными Neuro-Symbolic системами, где ИИ знает свое место (интерпретация), а решения принимает жесткая логика.
- Геополитика: Суверенитет — это не лозунг, а техническое требование. Серверная в подвале офиса с NVIDIA H100 — это сегодня самый надежный и защищенный элемент IT-ландшафта.
Для CIO это вызов, но и возможность. Возможность перестать быть «закупщиком лицензий» и снова стать Архитектором. Вернуть контроль над данными, над вычислениями и над будущим своей компании.
SaaS мертв. Да здравствует On-Premise AI.
Приложение А: Сравнительная таблица TCO (3 года)
| Категория | SaaS (API Cloud) | On-Premise (Покупка H100 Cluster) | Примечание |
|---|---|---|---|
| Оборудование (CapEx) | 0 ₽ | ~40 000 000 ₽ | Сервер Dell XE9680 (8xH100) |
| Лицензии/Токены (OpEx) | ~54 000 000 ₽ | 0 ₽ | Расчет для высокой нагрузки (RAG) |
| Инфраструктура (Colo/Power) | 0 ₽ | ~7 200 000 ₽ | Электричество, стойко-место |
| Персонал (ФОТ) | ~10 000 000 ₽ | ~20 000 000 ₽ | Требуются DevOps/ML Ops |
| Риски (Security) | Высокие (Утечки, 187-ФЗ) | Низкие (Контролируемый периметр) | Нематериальный актив |
| Остаточная стоимость | 0 ₽ | ~12 000 000 ₽ | Железо можно продать |
| ИТОГО TCO | ~64 000 000 ₽ | ~55 200 000 ₽ | On-Premise выгоднее на ~15% + Актив |
Приложение Б: Спецификация оборудования (2025)
Референсная конфигурация сервера для On-Premise LLM:
- Платформа: Dell PowerEdge XE9680 или Supermicro SYS-821GE-TNHR.
- GPU: 8x NVIDIA H100 80GB SXM5 (для обучения) или 8x NVIDIA A100 80GB PCIe (для инференса).
- CPU: 2x Intel Xeon Platinum 8468 (или аналоги AMD EPYC 9004).
- RAM: 2TB DDR5 (для хранения контекста и кэша KV).
- Storage: 30TB NVMe Gen5 (для быстрой подгрузки весов и RAG-индексов).
- Network: 4x NVIDIA ConnectX-7 400Gb/s (InfiniBand/Ethernet) для кластеризации.






