Newchronik Nov 13 2020 at 10:24

Умная нормализация данных: категориальные и порядковые данные, “парные” признаки

4 min

12K

Python*Algorithms*Machine learning*Artificial IntelligenceData Engineering*

Comments 4

gleb_l Nov 13 2020 at 12:47

«Парные признаки» могут быть и тройными и четверными — это статистически-связанные (коррелированные) размерности. Существуют методы понижения размерности данных, которые заменяют такой набор их линейной комбинацией и/или просто откидыванием «лишних» размерностей в пользу одной с наибольшей дисперсией.

У меня встречный вопрос — какие существуют методы обработки размерностей-колец — например, углов направления ветра, цвета в пространстве HSV итд? Как сделать так, чтобы дать понять модели, что 355 и 5 градусов — такие же близкие величины, как и 85-95?

Newchronik Nov 13 2020 at 16:00

gleb_l Вы не так поняли, что именно я назвал «парными» признаками.
1. Да, таких признаков может быть и три, и больше. Хотя представить себе даже такие «парные» четвёрки мне довольно сложно.
2. «Парные» признаки всегда измеряются в одинаковых величинах. Если величины различны, но из одной области (метры и футы), то они всё равно приводятся к чему-то одному.
Фактически, «парные» признаки — это разные измерения объекта в одной области. Например, положение объекта в пространстве (три признака — X, Y, Z) или точки на плоскости (два признака — X и Y).
3. Это ни в коем случае не статистически-связанные размерности. Это независимые по своей сути величины. Даже, если в конкретной выборке они оказались коррелированными между собой.
4. Для обработки статистически связанных признаков есть много методов. Но эта статья не про такие данные))

Newchronik Nov 13 2020 at 16:00

По поводу «размерностей-колец» можно разное придумать. Мне больше всего нравится вариант здравого смысла — если эта величина «закольцована», значит нужно преобразовать её в кольцо на плоскости. Для этого нужно из одномерной сделать её двумерной, используя периодичность синуса и косинуса:
Ai — i-е значение признака A
Amax — максимально возможное значение признака A
Новую пару получаем, например, так:
AXi = cos(2*Pi*Ai / Amax)
AYi = sin(2*Pi*Ai / Amax)

Кстати, в этом случае новые признаки AX и AY будут как раз «парные» в моем понимании. И нормализировать их нужно соответственно.
Если этот вопрос нуждается в подробном рассмотрении, напишите. Можно будет расписать более подробно, с иллюстрациями и примерами.

dmagin Nov 13 2020 at 23:15

Запудрили людям мозги с «категориальными данными». Не надо их бинарными таблицами оцифровывать. Категориальные данные — это уже почти готовый граф, а в графе полно разных расстояний, если кому надо.
Вообще от деления данных на числовые и категориальные больше вреда, чем пользы. Любое число всегда сопровождается категорией, и наоборот, у категории всегда можно найти число. А то, если «сотрудник работает в подразделении», то это «категориальные данные», а если на 0.5 ставки, то уже числовые (ЕВПОЧЯ).
Мыслить надо в терминах элементов, векторов (разностей элементов), пространств и проекций одних пространств на другие. Числа лишь выражают количественные отношения этих проекций.

Show the best of all time