Назад к дайджесту
Reddit

Открытый агент на базе MediaPipe адаптирует голос под эмоции лица в реальном времени

Представлен фреймворк Vision Agents для создания AI-агентов, обрабатывающих видео и аудио в реальном времени. Система использует MediaPipe для отслеживания мимики и эмоций, передавая контекст в LLM для адаптации ответа через TTS-модель Inworld. Архитектура позволяет независимо запускать процессоры (CV, глубина) без блокировки основного потока.

score 25r/AI_Agents