Reddit
Обучение LLM на 235 млн параметров с нуля на одной RTX 5080
Разработчик реализовал и обучил с нуля языковую модель Transformer на 235 млн параметров в PyTorch, используя единственную потребительскую видеокарту. Описан полный пайплайн: от сбора и фильтрации данных FineWeb-Edu до архитектуры с GQA, SwiGLU и RoPE. Автор отмечает, что модель уступает топовым решениям, но демонстрирует возможности обучения на домашнем железе.
score 40r/LocalLLaMA