Снижаем стоимость инференса. Часть 2. IBM KServe ModelMesh, vLLM Production Stack и что внутри у нашего решения

newsare.net

Привет, Хабр! На связи снова Данила Гудынин, DevOps-инженер направления Evolution ML Inference в Cloud.ru. В прошлой статье про снижение стоимости инференса мы

Снижаем стоимость инференса. Часть 2. IBM KServe ModelMesh, vLLM Production Stack и что внутри у нашего решения

Привет, Хабр! На связи снова Данила Гудынин, DevOps-инженер направления Evolution ML Inference в Cloud.ru. В прошлой статье про снижение стоимости инференса мы пробежались по теории того, что и на каких уровнях стека можно подкрутить, чтобы повысить утилизацию своих GPU. Там вы могли определиться, какой подход в принципе подходит для ваших задач. В этой части мы нырнем в практически-технический хар дкор и расскажем, как оптимизировать работу своих графических процессоров с KServe ModelMesh или vLLM Production Stack, подсветим, где разбросаны грабли в этом деле, а еще заглянем под капот к Cloud.ru Shared GPU и объясним, как именно он позволяет нам ставить цены на уровне западных облаков при кратно более дорогом железе в РФ. ML-инженеры, DevOps и MLOps-архитекторы, можете сразу добавлять в закладки, чтобы возвращаться и списывать нужные конфиги. Наливайте бочку чая или чего покрепче, постарался изложить все сугубо по делу, много кода спрятал в «раскрывашки», так что не пугайтесь обозначенного выше времени чтения. Читать далее Read more

Facebook Twitter

11:15 03.10.2025

В Могилеве проверили семьи, находящиеся в зоне социального риска

newsare.net

Во время рейда были обследованы семьи, в отношении которых ранее поступала информация о неблагоприятной обстановке. Также были изучены усл�

В Могилеве проверили семьи, находящиеся в зоне социального риска

Во время рейда были обследованы семьи, в отношении которых ранее поступала информация о неблагоприятной обстановке. Также были изучены условия жизни и воспитания детей, в семьях которых имеются критерии и показатели социально опасного положения.

World and Local News

newsare.net