Когда мы запускали речевую аналитику на узбекском языке, столкнулись с типовой проблемой: одна большая модель плохо справляется одновременно с категоризацией тем, оценкой эмоций и комплаенс-проверкой. Точность падает там, где задачи противоречат друг другу.
Каскадное промптирование - это разделение пайплайна на этапы, каждому из которых мы подбираем оптимальную модель. Категоризацию тем делает быстрая Haiku-уровневая модель, эмоциональный анализ - отдельная специализированная, комплаенс-чек - самая дорогая, но точная.
В среднем такой подход даёт +15-20% точности по ключевым задачам и сокращает стоимость на 30% по сравнению с использованием одной топовой модели на всё. На узбекских звонках это особенно заметно: специализированные модели лучше понимают код-свитчинг русского с узбекским.
В нашей продуктовой реализации архитектура каскада выносится в конфиг - заказчик может перенастроить порядок, веса и пороги без переобучения. Это критично для банков, где требования к комплаенсу часто меняются.