GitHub
METR/hawk: Запуск Inspect AI evals в облаке
Проект METR/hawk позволяет запускать оценки Inspect AI в облачной среде. Inspect AI — фреймворк для тестирования и валидации языковых моделей. Решение упрощает инфраструктуру для автоматизированного бенчмаркинга ИИ.
2219 forksPythonscore 76.3
awsevalsinspect-aillm