Reddit10 мая 2026 г.

Обучил ViT-модель с нуля для автоматической тегации аниме-изображений

Разработчик обучил с нуля модель Vision Transformer (ViT) для автоматической тегации аниме-артов, предварительно очистив 300 тысяч тегов и заполнив 1 миллион пропусков через SmilingWolf v3. Текущая версия V1.1 использует разрешение 448x448, что уже повышает точность по сравнению с базовым V1. Модель и демо-пространство опубликованы на HuggingFace.

score 20r/StableDiffusion

reddit.comhttps://www.reddit.com/r/StableDiffusion/comments/1t8bzb3/trained_a_vit_model_from_scratch_for_auto_tagging/