Назад к дайджесту
Reddit

Обучил ViT-модель с нуля для автоматической тегации аниме-изображений

Разработчик обучил с нуля модель Vision Transformer (ViT) для автоматической тегации аниме-артов, предварительно очистив 300 тысяч тегов и заполнив 1 миллион пропусков через SmilingWolf v3. Текущая версия V1.1 использует разрешение 448x448, что уже повышает точность по сравнению с базовым V1. Модель и демо-пространство опубликованы на HuggingFace.

score 20r/StableDiffusion