Новость
vLLM, LoRA и GPU-кластеры: как Авито внедрил мультимодальные модели в поиск
Инженеры Авито описали внедрение мультимодальной модели Qwen2.5-VL для улучшения поиска объявлений, когда текстового описания недостаточно. Статья раскрывает архитектуру на базе vLLM и LoRA-адаптеров, а также инфраструктурные решения для обработки миллионов обновлений без роста задержек.