Постоянно вижу, как у начинающих в голове полная каша из алгоритмов, методов и терминов. Одни думают, что ML — это только нейронки, другие не отличают классификацию от кластеризации. Чтобы навести порядок в головах, сделал вот такую шпаргалку, которая раскладывает по полочкам всё основное, что есть в машинном обучении. От классики до продвинутых штук вроде трансформеров.
Полиномиальная регрессия - это форма линейной регрессии, в которой отношение между независимой переменной X и зависимой переменной y моделируется как многочлен n-й степени. Она используется когда отношение между признаками и целевой переменной не является линейным и связь лучше представить в виде кривой.
В Data Science мы часто сталкиваемся с ситуацией, когда данных вроде бы много, даже слишком много, а вот извлечь из них реальный "сигнал", отделив его от "шума", оказывается непростой задачей. Десятки, сотни, а иногда и тысячи признаков (фичей, измерений – называйте как хотите) могут описывать каждое наблюдение. Кажется, чем больше информации, тем лучше? Увы, не всегда. Здесь-то нас и поджидает коварный враг – "проклятие размерности".
В этой статье мы сосредоточим внимание на моделях линейной регрессии в scikit-learn. Обсудим концепцию регуляризации, ее примеры (Ridge, Lasso и Elastic Net) и то, как они могут быть реализованы в Python.