Pull to refresh

Как запутать аналитика — 4. Вероятность и точность

Reading time 3 min
Views 6.6K
В прошлой статье я сказал, что числовые атрибуты напрямую связаны с операциями, которые мы проводим над объектами. При этом натуральные числа – самый простой из рассматриваемых нами атрибутов. Есть и более сложные. Например, матрицы. Если мы говорим о свойстве линейного преобразования в трехмерном пространстве, то оно записывается 9-ю числовыми значениями, из которых удобно сформировать матрицу размером 3 на 3. Причина этого в том, что два преобразования, выполненных последовательно, — тоже преобразование, числовые атрибуты которого могут быть получены путем перемножения двух матриц. В этом сила моделирования преобразования при помощи матрицы.

Я бы много отдал, чтобы преподавание математики строилось именно таким способом: через практическую задачу, через ввод нужных объектов (чисел, матриц, волновых функций) и объяснение, как операции над ними помогают решать конкретные задачи. Именно так строилось обучение в физмат школе, в которой мне довелось учиться – в интернате №18 при МГУ, спасибо преподавателям!

Итак, мы создали хранилище, куда можно поместить информацию о существительных, прилагательных и глаголах.

Мы разделили мухи и котлеты – моделирование объектов учета от их интерпретации. Все свелось к тому, что есть объекты учета (4-х мерные пространственные объемы), мереологические отношения между ними и трактовка этих отношений через классификацию. Единственное, что является для нас новым — это способ мышления о времени как о еще одном измерении. Например, на оси времени можно сделать отметки, которые позволяют привязаться к конкретным мгновениям и отмерить временные отрезки, моделируемые атрибутами «с:» и «по:».

Вероятность и точность


Представьте, что вас просят вспомнить, когда вы последний раз проходили флюорографию? Скорее всего, вы вспомните год, может месяц. У меня есть знакомая, которая вспомнит день, час и имя доктора, потому что у нее феноменальная память. Но я могу сказать лишь приблизительно месяц. Теперь представьте себе, что вы находитесь у доктора, который спрашивает вас о флюорографии, и у него есть информационная система, в которую он должен занести дату последнего прохождения вами флюорографии. Допустим, что вы вспомните, что это было в мае. Доктор, скорее всего, скажет: давайте для определенности запишем: 15-го мая. Ничего не напоминает? Возможно, вы сталкивались с такого рода ситуациями.

Когда проектировщик ИС указывает способ хранения данных об объекте учета, он указывает тип данных. Если речь идет о времени, то способы хранения информации о времени и временных интервалах, стандартизированы. Можно записать время с точностью до долей секунды. И это, порой, имеет значение. Однако, в примере с флюорографией я должен сказать так: май прошлого года плюс-минус месяц. Вы где-то видели формат записи данных о времени, чтобы можно было записать эту информацию именно так? Я видел такую возможность в BusinessStudio. Там можно сказать, что время прохождения флюорографии – 15 июня с дисперсией в один месяц и гауссовской формой распределения (чего, кстати?).

Другой пример: пусть вы создаете план работ на следующий год. И пусть вам известно, что работы по замене грозотроса начнутся в первой половине мая. Как записать в ИС эту информацию? Возможно, вы отдельно создадите план работ на месяц май, и укажите, что в мае надо начать менять грозотрос. Эта запись означает буквально следующее: начало работ по замене грозотроса определяется равномерным прямоугольным распределением шириной в месяц.

Это говорит о том, что и прошлое и будущее мы моделируем при помощи распределений. Если говорить о прошлом, то мы моделируем распределение точности наших знаний о нем. Если говорить о будущем, то мы моделируем распределение вероятности тех или иных событий. В том и в другом случае мы моделируем допустимые интервалы, в которых находится прошлое, или будущее.

Например, говоря о будущем, мы можем сказать, что исполнителем операции по заключению договора будет кто-то из отдела продаж, но мы точно не знаем, кто именно. Если говорить о прошлом, то мы можем сказать, что исполнителем операции по продаже был кто-то из отдела продаж, но мы не знаем, кто именно. И тот и другой тезис моделируются одинаково – при помощи распределений.

Итак, на вопрос, что мы моделируем, можно ответить так: мы моделируем объекты учета, классифицируем их и делаем это с некоторой долей вероятности, если речь идет о будущем, или с некоторой точностью, если речь идет о прошлом.

Может показаться, что упоминание о точности и вероятности излишние, но на практике учет этих ньюансов оказывает существенное влияние на решение. Пример:
Пусть есть три события, измеренные с одинаковой точностью – плюс-минус один час. Пусть первое событие произошло где-то с 16-00 до 18-00, второе – где-то с 17-00 до 19-00, третье – где-то с 18-00 до 20-00. И пусть стоит задача выстраивания событий по порядку их свершения. Понятно, что есть 3 варианта: с вероятностью одна четвертая: 2, 1, 3, с вероятностью одна вторая: 1, 2, 3 и с вероятностью одна четвертая – 1, 3, 2.

Понятно, что принятие решения становится вероятностным. На первом курсе физтеха наиболее трудно проходит первая лаба, посвященная точности измерений и вероятности наших представлений. До студентов доходит очень туго, что школьная физика нам врет. В реальности нет точных ответов и решений.
Tags:
Hubs:
+7
Comments 15
Comments Comments 15

Articles