Reddit
Открытый агент на базе MediaPipe адаптирует голос под эмоции лица в реальном времени
Представлен фреймворк Vision Agents для создания AI-агентов, обрабатывающих видео и аудио в реальном времени. Система использует MediaPipe для отслеживания мимики и эмоций, передавая контекст в LLM для адаптации ответа через TTS-модель Inworld. Архитектура позволяет независимо запускать процессоры (CV, глубина) без блокировки основного потока.
score 25r/AI_Agents