Платформа

Три слоя инфраструктуры, шесть инженерных направлений. Каждый проект берёт из этой карты нужный набор — не больше и не меньше.

У телеком-оператора, инвестиционного подразделения банка и транспортной системы — разные процессы и разные ограничения. Но инженерные задачи пересекаются: всем нужен инференс, защитные фильтры и работа с документами. Отличается настройка. В финансах фильтры блокируют инвестиционные рекомендации. На транспорте — галлюцинации про несуществующие инциденты. В телекоме — нарушения корпоративного тона и ответы на вопросы, на которые агент отвечать не должен.

Ниже — полная карта. Строки — три слоя с разной степенью кастомизации. Колонки — шесть инженерных направлений. Каждая ячейка — один из трёх типов. Open source — зрелые решения, которые незачем переписывать: vLLM для инференса, Langfuse для мониторинга, Qdrant для векторного поиска. Платформа Manaraga — модули, которые мы переносим между проектами и дорабатываем с каждым внедрением: оркестрация агентов, чат, масштабирование инференса, корпоративный тон. Кастомная разработка — код под конкретный процесс: RAG-пайплайны, доменные агенты, интеграции с CRM и ERP.

Модуль / Слой →

01 Инфраструктура моделей open source

02 Платформа агентов наши наработки

03 Проектная разработка кастомный код

01 Инференс и маршрутизация

Model Serving vLLM × 4 типа

Inference Optimization batching · KV-cache

Prompt Caching prefix caching

LLM Gateway LiteLLM

Контроль доступа политики по проектам

Rate Limiting квоты · приоритеты

Auto-scaling распределение по GPU

02 Мониторинг

LLM Observability OTel · Langfuse · CH

Agent Analytics воронки · deflection · cost

Cost Tracking бюджеты проектов

03 Защитные фильтры

Guardrails Engine LiteLLM + правила

Защита данных PII · PHI · PCI · ФЗ-152

Защита от атак injection · jailbreak

04 Оценка качества

Real-time Eval Langfuse · LLM-судьи

Agent Training кейсы из продакшна

Synthetic Datasets генерация под домен

Evals Langfuse · под проект

Fine-tuning адаптация под домен

05 Документы

Vector Database Qdrant

RAG Pipelines Temporal · под клиента

Knowledge Maps графы документов

06 Агенты

Оркестрация pydantic-ai · MCP · A2A

AI-native Chat streaming · треды

Service Agent маршрутизация · эскалация

Память сессия + долгосрочная

Custom Agents под бизнес-процесс

Integration Adapters CRM · ERP · API

Content Digital Twin стиль и тон бренда

Безопасность

Защита данныхAI SafetyДоступАудит

Open source Платформа Manaraga Кастомная разработка

Три слоя

Каждый проект собирается из трёх слоёв. Нижний не зависит от индустрии. Средний переиспользуется между проектами. Верхний пишется под конкретный бизнес-процесс. Безопасность — не отдельный слой, а сквозное требование: маскирование данных, фильтрация атак, аудит решений и контроль доступа встроены в каждый компонент.

Инфраструктура моделей

Хостинг, маршрутизация запросов, векторные базы. Здесь работает зрелый open source — наша задача правильно его настроить под корпоративную нагрузку.

Платформа агентов

Мониторинг, защитные фильтры, оценка качества, оркестрация и память агентов. Здесь сосредоточена основная часть наших собственных наработок — инженерные решения, которые мы вырастили из проблем, повторяющихся на каждом проекте.

Проектная разработка

Поиск по документам клиента, доменные агенты, коннекторы к CRM и ERP, синтетические наборы данных, дообучение. Код, который пишется под бизнес-процесс и остаётся у заказчика.

Модули

Инференс и маршрутизация

На каждом проекте нужны разные типы вычислений одновременно — классификация, генерация, векторизация — и каждый с разными требованиями к скорости и стоимости. Одна модель и один пул мощностей в корпоративной среде не работают: задачи конкурируют за ресурсы, а при сбое провайдера система встаёт целиком — как случилось на транспортном проекте, пока мы не развели модели по отдельным инстансам с автоматическим fallback.

Мы разделяем инференс на четыре типа GPU-инстансов: рассуждение, быстрая генерация, векторизация, работа с изображениями. Маршрутизатор распределяет запросы, переключает на резервную модель при сбоях, контролирует квоты и приоритеты по проектам.

Model Serving vLLM × 4 типа инстансов Auto-scaling распределение моделей по GPU Inference Optimization batching · KV-cache · prefix caching LLM Gateway LiteLLM · fallback · квоты по критичности Контроль доступа политики по проектам и ролям

Мониторинг

Время отклика и доля ошибок не объясняют, почему агент ответил именно так и сколько стоил один исход. На телеком-проекте именно бизнес-метрики — не инженерные — позволили найти категории обращений, где агент работает лучше оператора, и те, где его нельзя выпускать.

Мы собираем два слоя метрик. Инженерный: трассировку каждого вызова, цепочки вызовов инструментов, стоимость по токенам. И бизнесовый: воронки обработки обращений, долю автоматических решений, стоимость одного исхода.

LLM Observability OpenTelemetry · Langfuse · ClickHouse Agent Analytics воронки · deflection rate · cost per outcome Cost Tracking потокенный учёт · бюджеты проектов

Защитные фильтры

Промпт-инъекции и утечка данных — базовые угрозы, стандартные библиотеки их ловят. Но у каждой отрасли свои запреты, которые никакая библиотека не покрывает. В проекте для инвестиционного подразделения банка агент начал подсказывать ответы на квалификационные тесты — то, что регулятор запрещает однозначно.

Мы встраиваем фильтрацию в каждый запрос к модели — на входе и выходе: маскирование данных по ФЗ-152, обнаружение атак, правила под конкретный бизнес. В банке выстроили многослойный комплаенс: запреты в промпте, сценарии отказа, петля перепроверки и аудит каждого ответа.

Input / Output Filtering кастомные правила поверх LiteLLM Защита данных PII · PHI · PCI · ФЗ-152 Защита от атак prompt injection · jailbreak

В проекте для инвестиционного подразделения банка — многослойный комплаенс: запреты в prompt, refusal-сценарии, checker-петля и аудит ответа. Кейс →

Оценка качества

Качество нельзя проверить один раз и забыть — модель обновляется, данные меняются, промпт подправили, и ответы стали хуже. На транспортном проекте бинарный порог «уверен / не уверен» давал слишком много ложных эскалаций: система отправляла оператору обращения, на которые могла ответить сама.

Мы построили трёхпроходную формулу уверенности — 30+ параметров, калиброванных на реальных обращениях. Она определяет, когда агент может ответить сам, а когда нужен человек. Параллельно работают LLM-судьи, эталонные кейсы из продакшна и синтетические наборы данных — чтобы ловить деградацию до прода, а не после жалобы.

Real-time Evaluation Langfuse · LLM-судьи Agent Training эталонные кейсы из продакшна Synthetic Datasets генерация под домен Regression Testing наборы оценок под проект Fine-tuning адаптация под домен и терминологию

В проекте для транспортной системы — трёхпроходная формула уверенности с 30+ параметрами, калиброванными на боевых обращениях. Кейс →

Документы

У каждой компании свои регламенты, база знаний, нормативная документация. Стандартный RAG находит похожий фрагмент по вектору — но enterprise-задача сложнее. На телеком-проекте тарифный вопрос требовал точную цифру из таблицы, а векторный поиск возвращал «примерно похожий абзац».

Мы построили двойной индекс: один для поиска по смыслу, другой для точных данных — таблицы тарифов, цены, технические параметры. Обычный векторный поиск числа и таблицы теряет, потому что они плохо поддаются векторизации.

Vector Database Qdrant RAG Pipelines Temporal · под данные клиента Knowledge Maps графы связей между документами

В проекте для телеком-оператора — двойной индекс: один для поиска по смыслу, другой для точных данных с таблицами и ценами. Кейс →

Агенты

Агент в демо отвечает на вопросы. Агент в продакшне должен помнить контекст между сессиями, вызывать инструменты, следовать сценарию и эскалировать на человека. В финансовом проекте агент вёл продажу по жёсткой воронке, помнил прошлые диалоги с клиентом, не смешивая продукты, и не мог выйти за рамки комплаенса — конечный автомат с тремя контурами и двумя режимами работы.

Мы собрали инфраструктуру оркестрации, чата и памяти, чтобы не писать её с нуля на каждом проекте. Отдельный компонент — Content Digital Twin — отвечает за корпоративный тон: 60+ итераций, прежде чем агент стал звучать как сотрудник компании, а не как чат-бот.

Оркестрация pydantic-ai · MCP · A2A AI-native Chat streaming · треды · авторизация Service Agent обработка обращений · маршрутизация · эскалация Память контекст сессии + знания между сессиями Custom Agents под бизнес-процесс Integration Adapters CRM · ERP · тикет-системы · внутренние API Content Digital Twin стиль, тон и терминология бренда

Как собирается проект

Каждый проект берёт из карты свой набор. Мониторинг и оценка качества нужны на каждом проекте. Защитные фильтры настраиваются под отрасль: в финансах — многослойный комплаенс, на транспорте — фильтрация галлюцинаций, в телекоме — корпоративный тон и границы эскалации. Модули документов и агентов собираются под конкретный процесс.

Вся инфраструктура разворачивается в контуре клиента. Каждый компонент — стандартный контейнер.

18 сервисов, которые мы отлаживали на проектах в четырёх индустриях

ИНФЕРЕНС И МАРШРУТИЗАЦИЯ

vLLM slow thinking

reasoning-модель

vLLM fast generation

быстрая генерация

vLLM embedding

векторизация

vLLM vision

обработка изображений и документов

LiteLLM gateway

единый API, fallback, compliance guardrails

PostgreSQL config

настройки, виртуальные ключи, политики доступа

МОНИТОРИНГ И ОЦЕНКА КАЧЕСТВА

OpenTelemetry Collector telemetry

сбор и маршрутизация трейсов

Langfuse web + worker

UI, дашборды, eval-процедуры, датасеты

ClickHouse storage

хранение трейсов и результатов eval

Redis queues

очереди фоновой обработки

ДОКУМЕНТЫ И ПАЙПЛАЙНЫ

Temporal server + web + admin

оркестрация и мониторинг пайплайнов

Qdrant vector index

чанки документов, контрактов, базы знаний

S3 storage

документы, методики, медиа

АГЕНТЫ

Agents Service runtime

бизнес-логика агентов, управление сессиями

PostgreSQL history

история диалогов, состояние сессий

18 сервисов · разворачиваются в контуре клиента · каждый компонент — стандартный контейнер

Расскажите, какой процесс хотите разобрать.

Ответим, подходит ли задача для AI-агентов, и если да, предложим конкретный план.

или напишите напрямую — ilya@manaraga.ai