newsare.net
Три года назад запустить 7-миллиардную модель локально означало профессиональный GPU. Потом появилась квантизация - сжатие весов с 32-битной тоЛокальные LLM на слабом железе — что ставить, как запустить, чего ждать
Три года назад запустить 7-миллиардную модель локально означало профессиональный GPU. Потом появилась квантизация - сжатие весов с 32-битной точности до 4-битной. Модель стала в 3-4 раза легче при минимальной потере качества. 7B параметров теперь занимают 4-5 ГБ вместо 14. Читать далее Read more











