Платформа

Три слоя инфраструктуры, шесть инженерных направлений. Каждый проект берёт из этой карты нужный набор — не больше и не меньше.

У телеком-оператора, инвестиционного подразделения банка и транспортной системы — разные процессы и разные ограничения. Но инженерные задачи пересекаются: всем нужен инференс, защитные фильтры и работа с документами. Отличается настройка. В финансах фильтры блокируют инвестиционные рекомендации. На транспорте — галлюцинации про несуществующие инциденты. В телекоме — нарушения корпоративного тона и ответы на вопросы, на которые агент отвечать не должен.

Ниже — полная карта. Строки — три слоя с разной степенью кастомизации. Колонки — шесть инженерных направлений. Каждая ячейка — один из трёх типов. Open source — зрелые решения, которые незачем переписывать: vLLM для инференса, Langfuse для мониторинга, Qdrant для векторного поиска. Платформа Manaraga — модули, которые мы переносим между проектами и дорабатываем с каждым внедрением: оркестрация агентов, чат, масштабирование инференса, корпоративный тон. Кастомная разработка — код под конкретный процесс: RAG-пайплайны, доменные агенты, интеграции с CRM и ERP.

Модуль / Слой →
01 Инфраструктура моделей open source
02 Платформа агентов наши наработки
03 Проектная разработка кастомный код
01 Инференс и маршрутизация
Model Serving vLLM × 4 типа
Inference Optimization batching · KV-cache
Prompt Caching prefix caching
LLM Gateway LiteLLM
Контроль доступа политики по проектам
Rate Limiting квоты · приоритеты
Auto-scaling распределение по GPU
02 Мониторинг
LLM Observability OTel · Langfuse · CH
Agent Analytics воронки · deflection · cost
Cost Tracking бюджеты проектов
03 Защитные фильтры
Guardrails Engine LiteLLM + правила
Защита данных PII · PHI · PCI · ФЗ-152
Защита от атак injection · jailbreak
04 Оценка качества
Real-time Eval Langfuse · LLM-судьи
Agent Training кейсы из продакшна
Synthetic Datasets генерация под домен
Evals Langfuse · под проект
Fine-tuning адаптация под домен
05 Документы
Vector Database Qdrant
RAG Pipelines Temporal · под клиента
Knowledge Maps графы документов
06 Агенты
Оркестрация pydantic-ai · MCP · A2A
AI-native Chat streaming · треды
Service Agent маршрутизация · эскалация
Память сессия + долгосрочная
Custom Agents под бизнес-процесс
Integration Adapters CRM · ERP · API
Content Digital Twin стиль и тон бренда
Безопасность
Защита данныхAI SafetyДоступАудит
Open source Платформа Manaraga Кастомная разработка

Три слоя

Каждый проект собирается из трёх слоёв. Нижний не зависит от индустрии. Средний переиспользуется между проектами. Верхний пишется под конкретный бизнес-процесс. Безопасность — не отдельный слой, а сквозное требование: маскирование данных, фильтрация атак, аудит решений и контроль доступа встроены в каждый компонент.

Инфраструктура моделей

Хостинг, маршрутизация запросов, векторные базы. Здесь работает зрелый open source — наша задача правильно его настроить под корпоративную нагрузку.

Платформа агентов

Мониторинг, защитные фильтры, оценка качества, оркестрация и память агентов. Здесь сосредоточена основная часть наших собственных наработок — инженерные решения, которые мы вырастили из проблем, повторяющихся на каждом проекте.

Проектная разработка

Поиск по документам клиента, доменные агенты, коннекторы к CRM и ERP, синтетические наборы данных, дообучение. Код, который пишется под бизнес-процесс и остаётся у заказчика.

Модули

01

Инференс и маршрутизация

На каждом проекте нужны разные типы вычислений одновременно — классификация, генерация, векторизация — и каждый с разными требованиями к скорости и стоимости. Одна модель и один пул мощностей в корпоративной среде не работают: задачи конкурируют за ресурсы, а при сбое провайдера система встаёт целиком — как случилось на транспортном проекте, пока мы не развели модели по отдельным инстансам с автоматическим fallback.

Мы разделяем инференс на четыре типа GPU-инстансов: рассуждение, быстрая генерация, векторизация, работа с изображениями. Маршрутизатор распределяет запросы, переключает на резервную модель при сбоях, контролирует квоты и приоритеты по проектам.

Model Serving vLLM × 4 типа инстансов Auto-scaling распределение моделей по GPU Inference Optimization batching · KV-cache · prefix caching LLM Gateway LiteLLM · fallback · квоты по критичности Контроль доступа политики по проектам и ролям
02

Мониторинг

Время отклика и доля ошибок не объясняют, почему агент ответил именно так и сколько стоил один исход. На телеком-проекте именно бизнес-метрики — не инженерные — позволили найти категории обращений, где агент работает лучше оператора, и те, где его нельзя выпускать.

Мы собираем два слоя метрик. Инженерный: трассировку каждого вызова, цепочки вызовов инструментов, стоимость по токенам. И бизнесовый: воронки обработки обращений, долю автоматических решений, стоимость одного исхода.

LLM Observability OpenTelemetry · Langfuse · ClickHouse Agent Analytics воронки · deflection rate · cost per outcome Cost Tracking потокенный учёт · бюджеты проектов
03

Защитные фильтры

Промпт-инъекции и утечка данных — базовые угрозы, стандартные библиотеки их ловят. Но у каждой отрасли свои запреты, которые никакая библиотека не покрывает. В проекте для инвестиционного подразделения банка агент начал подсказывать ответы на квалификационные тесты — то, что регулятор запрещает однозначно.

Мы встраиваем фильтрацию в каждый запрос к модели — на входе и выходе: маскирование данных по ФЗ-152, обнаружение атак, правила под конкретный бизнес. В банке выстроили многослойный комплаенс: запреты в промпте, сценарии отказа, петля перепроверки и аудит каждого ответа.

Input / Output Filtering кастомные правила поверх LiteLLM Защита данных PII · PHI · PCI · ФЗ-152 Защита от атак prompt injection · jailbreak

В проекте для инвестиционного подразделения банка — многослойный комплаенс: запреты в prompt, refusal-сценарии, checker-петля и аудит ответа. Кейс →

04

Оценка качества

Качество нельзя проверить один раз и забыть — модель обновляется, данные меняются, промпт подправили, и ответы стали хуже. На транспортном проекте бинарный порог «уверен / не уверен» давал слишком много ложных эскалаций: система отправляла оператору обращения, на которые могла ответить сама.

Мы построили трёхпроходную формулу уверенности — 30+ параметров, калиброванных на реальных обращениях. Она определяет, когда агент может ответить сам, а когда нужен человек. Параллельно работают LLM-судьи, эталонные кейсы из продакшна и синтетические наборы данных — чтобы ловить деградацию до прода, а не после жалобы.

Real-time Evaluation Langfuse · LLM-судьи Agent Training эталонные кейсы из продакшна Synthetic Datasets генерация под домен Regression Testing наборы оценок под проект Fine-tuning адаптация под домен и терминологию

В проекте для транспортной системы — трёхпроходная формула уверенности с 30+ параметрами, калиброванными на боевых обращениях. Кейс →

05

Документы

У каждой компании свои регламенты, база знаний, нормативная документация. Стандартный RAG находит похожий фрагмент по вектору — но enterprise-задача сложнее. На телеком-проекте тарифный вопрос требовал точную цифру из таблицы, а векторный поиск возвращал «примерно похожий абзац».

Мы построили двойной индекс: один для поиска по смыслу, другой для точных данных — таблицы тарифов, цены, технические параметры. Обычный векторный поиск числа и таблицы теряет, потому что они плохо поддаются векторизации.

Vector Database Qdrant RAG Pipelines Temporal · под данные клиента Knowledge Maps графы связей между документами

В проекте для телеком-оператора — двойной индекс: один для поиска по смыслу, другой для точных данных с таблицами и ценами. Кейс →

06

Агенты

Агент в демо отвечает на вопросы. Агент в продакшне должен помнить контекст между сессиями, вызывать инструменты, следовать сценарию и эскалировать на человека. В финансовом проекте агент вёл продажу по жёсткой воронке, помнил прошлые диалоги с клиентом, не смешивая продукты, и не мог выйти за рамки комплаенса — конечный автомат с тремя контурами и двумя режимами работы.

Мы собрали инфраструктуру оркестрации, чата и памяти, чтобы не писать её с нуля на каждом проекте. Отдельный компонент — Content Digital Twin — отвечает за корпоративный тон: 60+ итераций, прежде чем агент стал звучать как сотрудник компании, а не как чат-бот.

Оркестрация pydantic-ai · MCP · A2A AI-native Chat streaming · треды · авторизация Service Agent обработка обращений · маршрутизация · эскалация Память контекст сессии + знания между сессиями Custom Agents под бизнес-процесс Integration Adapters CRM · ERP · тикет-системы · внутренние API Content Digital Twin стиль, тон и терминология бренда

Как собирается проект

Каждый проект берёт из карты свой набор. Мониторинг и оценка качества нужны на каждом проекте. Защитные фильтры настраиваются под отрасль: в финансах — многослойный комплаенс, на транспорте — фильтрация галлюцинаций, в телекоме — корпоративный тон и границы эскалации. Модули документов и агентов собираются под конкретный процесс.

Вся инфраструктура разворачивается в контуре клиента. Каждый компонент — стандартный контейнер.

18 сервисов, которые мы отлаживали на проектах в четырёх индустриях
ИНФЕРЕНС И МАРШРУТИЗАЦИЯ
vLLM slow thinking
reasoning-модель
vLLM fast generation
быстрая генерация
vLLM embedding
векторизация
vLLM vision
обработка изображений и документов
LiteLLM gateway
единый API, fallback, compliance guardrails
PostgreSQL config
настройки, виртуальные ключи, политики доступа
МОНИТОРИНГ И ОЦЕНКА КАЧЕСТВА
OpenTelemetry Collector telemetry
сбор и маршрутизация трейсов
Langfuse web + worker
UI, дашборды, eval-процедуры, датасеты
ClickHouse storage
хранение трейсов и результатов eval
Redis queues
очереди фоновой обработки
ДОКУМЕНТЫ И ПАЙПЛАЙНЫ
Temporal server + web + admin
оркестрация и мониторинг пайплайнов
Qdrant vector index
чанки документов, контрактов, базы знаний
S3 storage
документы, методики, медиа
АГЕНТЫ
Agents Service runtime
бизнес-логика агентов, управление сессиями
PostgreSQL history
история диалогов, состояние сессий
18 сервисов · разворачиваются в контуре клиента · каждый компонент — стандартный контейнер

Расскажите, какой процесс хотите разобрать.

Ответим, подходит ли задача для AI-агентов, и если да, предложим конкретный план.

или напишите напрямую — ilya@manaraga.ai