Сказ о том, как «беспокойные» данные набеспокоили нам скор
Привет, уважаемые Хаброжители ;) Сегодня мы поговорим о данных, которые представляют собой весьма специфичный случай, а именно о «шумных» данных. Предлагаю вам поразмыслить на тему обратного инжиниринга применительно к таким данным и попытаться поставить всё с ног на голову. О чем речь: не так давно мы написали модель машинного обучения по предсказанию одного тренда и пытались улучшить ее предсказания, применяя различные модификации фильтра Калмана (Kalman Filter, EnKF, Kalman Filter + Numba (Just-in-Time), EnKF + Numba (Just-in-Time)). Другими словами, фильтровали обучающую и тестовую выборку в надежде поднять скор на модели, выделив более качественный сигнал. При этом получили, в целом, весьма хорошее решение. И тут мы начали размышлять: «Так, пааажди… Мы же просто учились всегда на отфильтрованных данных, почему ускорение кода даёт нам поднятие скора на модели, и более того, более качественную балансировку предсказания для наших классов?» Если вам интересно, что у нас получилось, то приглашаю под кат. Читать далее