DataFlow: PyTorch для дата инженеров в эпоху LLM
Качество работы нейросети напрямую зависит от того, на каких данных она обучена. Обычно при обучении нейросетей мы имеем кучу запутанных скриптов, в которых, например, сломалась фильтрация выборки и поплыли все метрики, а в каком месте и почему это произошло — мы уже не сыщем. В случаях, когда генерация данных делается самой LLM, — бардак становится особенно дорогим.У инженеров появилась идея: а давайте напишем аналог PyTorch’а для дата-инженеров — для всего цикла работы с данными для обучения нейросетей.Разбираемся, из чего состоит фреймворк DataFlow, как работает DataFlow-агент и почему сегодня это особенно актуально. Читать далее