Pull to refresh

Почему данные могут быть открытыми и бесплатными

Reading time 11 min
Views 3K
Цифровая экономика способствует появлению множества новых вещей, событий, технологий и моделей, которые ранее были просто немыслимы или требовали исключительных затрат.



Среди таких новшеств цифровизации, на фоне общего тренда управления потоками данных, проявился феномен «открытых данных». С ним стоит отдельно разобраться, чтобы понять все его преимущества и недостатки для дальнейшего эффективного практического применения.

Сегодня уже невозможно не замечать набирающий обороты процесс бесплатного и свободного раскрытия цифровых данных как со стороны государства, так и со стороны бизнеса. Формируются сообщества), проводятся саммиты), организуются конкурсы и делаются порталы. А всё-таки хочется понять и разобраться, в чем смысл этого направления цифровизации экономических отношений и какую пользу оно может принести при правильном подходе.

Обратите внимание. Акцент в настоящем документе сделан на экономическом и управленческом смысле свободного и бесплатного распространения цифровых данных. Социальная и политическая роль открытых данных не отрицается и, конечно же, заслуживает отдельной публикации.

Договоримся, что цифровые данные, о которых идет речь в настоящей публикации, представляют собой структурированные связанные целостные единицы информации. В отличие от неструктурированных текстов или от аналоговых, рассматриваемые данные очевидно поддаются обработке и анализу на уровне отдельных значимых единиц, их связей и группировок, тем самым позволяя получать некие вторичные результаты (выводы и заключения), в том числе строить гипотезы в рамках представляемых предметных областей. Основываясь на возможностях такой прямой или глубокой обработки, данные выражают собой мощный информационный ресурс, имеющий особый экономический смысл.

Собираемые человеком о своей деятельности данные регистрируют определенные факты, события, состояния объектов и процессов для последующей оценки такой деятельности и выбора тех действий, которые необходимо осуществить в последующем для получения некоторого ожидаемого вероятностного результата. Развитие информационных технологий, размеры накапливаемых массивов данных и возможность автоматизировать их обработку, превратили цифровые данные в реальный бизнес-фактор, позволяющий находить решения многих проблем с высоким уровнем экономии времени и материальных ресурсов – что крайне важно для эффективности и оптимизированного управления в любом секторе: частном, государственном или социальном.

Как любой вид нематериальных ресурсов, цифровые данные обладают одной интересной особенностью, кардинально отличающей их от материальных вещей.

Мы все прекрасно знаем о ней и повсеместно пользуемся. Она заключается в том, что не существующие реально и привязанные в физическом смысле только к носителю, данные могут быть реплицированы бесконечное количество раз без потери первоначального объема и качества.

Данные являются таким «вечным» и одновременно «бесконечным» ресурсом. При этом из одних и тех же данных можно получить одновременно несколько полезных результатов. Более того, можно распространить между неограниченным кругом лиц один набор данных, но в то же время физически нельзя реплицировать материальный ресурс и раздать каждому желающему его натуральную копию.

Зафиксировав эту замечательную способность цифровой информации обратимся к традиционному понятию открытых данных, которое сложилось в настоящее время.

Вот несколько определений «открытых данных»


Из «Open Data Handbook»:


«Открытые данные — это информация, которую кто угодно может свободно использовать и распространять. Допустимы лишь требования указывать источник данных и распространять их на тех же условиях, что и исходные.

Полное определение открытости раскрывает в деталях, что это значит. Выделим самое важное:

1. Доступность и читаемость: данные должны быть доступны целиком не дороже разумной стоимости их воспроизведения; желательно через интернет. Формат данных должен быть удобным для чтения и изменения.

2. Повторное использование и распространение: данные должны предоставляться на условиях, которые разрешают их повторное использование и распространение, в том числе — в комбинации с другими наборами данных.

3. Всеобщее участие: каждый должен иметь возможность использовать и распространять данные. Не должно быть дискриминации областей применения, людей или групп. Например, ограничение «только для некоммерческого использования», которое запрещает «коммерческое» применение, или ограничение возможных областей применения (к примеру, только в образовании), недопустимы.»

Перевод из «Open Data Charter»:


«Открытые данные – это цифровые данные, которые сделаны доступными технически и юридически для свободного использования, вторичного использования и распространения кем угодно и кому угодно, в любое время и в любом месте.»

И несколько принципов открытых данных из публикации Ивана Бегтина «О том почему «открытые данные Сбербанка» это не открытые данные и что нам с этим делать»:


«Также, у открытых данных есть четко сформулированные принципы их публикации, отраженные как раз в хартии открытых данных.
Эти принципы:
— Открытость по умолчанию
— Своевременно и полно
— Доступно и удобно
— Сравнимо и интегрируемо
— Для улучшения управления и вовлечения граждан
— Для развития и инноваций.»

Сразу же отмечаем, что за понятием «открытых данных» совершенно однозначно стоит их прямая доступность без каких-либо ограничений. Больше всего для цифровой экономики в этом смысле имеет значение «бесплатности» таких данных. Хотя, впрочем, «бесплатность» эта несколько условна и означает не использование открытых данных совершенно без каких-либо затрат, но показывает, что достаточно большие массивы данных распространяются без взимания платы с получателей (в том числе без авторских отчислений). Последующая обработка данных, конечно же влечет определенные издержки, равно как и публикация готовых их наборов приводит к вполне объяснимым прямым расходам.

Остановимся на причинах того, почему все-таки в эпоху тотальной цифровизации, когда «информация правит миром» и стоимость некоторых сведений может доходить до астрономических цифр, появляется не только возможность, но и потребность в данных распространяемых бесплатно.

Действительно, какой смысл открывать массивы значимых данных, иногда обладающих прямым или скрытым коммерческим потенциалом, широкому кругу лиц. Не забываем и о том, что потребители таких данных – это вовсе не рядовые пользователи сети и даже не малый и средний бизнес. Указанные категории не в состоянии в силу своих профессиональных и материальных возможностей, а также в силу своих насущных потребностей и задач воспринимать мощные потоки открываемых цифровых данных из разнообразных предметных областей.

Скажем, если речь заходит о данных открываемых государством в рамках так называемого «открытого правительства»
Нет никакого практического смысла в «плоских» наборах цифровых данных доступных огромному количеству простых граждан, в компетенцию и интересы которых близко не входит понимание электронных таблиц, визуализации, статистической аналитики, оценки достоверности и т.п. Разве может как-то «сблизить» позиции государственных органов и гражданского общества, например, простая выгрузка в формате XML социально важных данных? Будет ли полезна рядовому налогоплательщику публикация цифровых данных по расходам совокупного государственного бюджета на заданный финансовый год и сможет ли он сообразить насколько эффективно и куда идут собираемые с него налоги?
Вроде бы нет.

Здесь должно быть что-то третье или кто-то третий, кто сможет использовать открытые данные и превратить их в нечто полезное для заданного круга потребителей. И субъект, который публикует в свободном доступе данные прекрасно понимает, что этот самый «третий» является посредником, потенциально способным извлечь дополнительную выгоду от использования данных.

Но в чем тогда интерес того лица, которое публикует данные в открытом доступе?

Зачем прикладывать дополнительные усилия, привлекать профессионалов, выделять ресурсы, поддерживать в рабочем состоянии систему, если результатом всего этого будет некое вероятное появление других лиц, извлекающих для себя выгоду.

Репликация данных и их раздача третьим лицам не влечет существенных ограничительных издержек. Но ведь относительная бесплатность только снимает главный экономический барьер, но не является мотивом. Мотивация издателей несколько глубже, чем кажется на первый взгляд и даже несколько иная, чем хотят её показать некоторые заинтересованные участники процесса открытия данных. Чтобы её понять, кроме замечательной возможности цифровых данных быть многократно размноженными, необходимо учесть ещё один фактор, активно мотивирующий «открываться» государству и бизнесу.

Поиск новых знаний на базе имеющихся (накопленных) исторических данных


Всеобщая информатизация и глубокое проникновение глобальной сети привела к тому, что различные организационные структуры и даже некоторые частные лица могут создавать и накапливать «избыточное» количество данных. Гонка «информационной вооруженности» стимулирует к многократному росту объема хранимой «цифры» совершенно различного назначения и формата. Причем владельцы данных не в состоянии уже извлечь максимум пользы от своих цифровых хранилищ потому что:

  • Во-первых, хранилища реально переполнены разнородными слабо или нечетко связанными данными;
  • Во-вторых, на основе одного набора данных можно получить бесконечное количество результатов и выбор приоритетов здесь совершенно не очевиден;
  • В-третьих, комбинирование данных возможно любое число раз и в связях с иными внешними данными;
  • В-четвертых, для получения определенной категории результатов на основе данных необходимо применение особых и специальных компетенций, технических или программных средств, которые могут отсутствовать у владельца данных;
  • В-пятых, критическая самооценка данных затруднена и для их аудита требуется дифференцированное привлечение специалистов;
  • В-шестых, иная мотивация может подсказать новые способы и методы работы с данными, новые варианты агрегирования и комбинирования данных.

Субъект, генерирующий данные и сохраняющий их, понимает, что ценный ресурс закрыт от других пользователей и тихо покоится на носителях, не принося должной пользы и постепенно теряя свою ценность за счет снижения актуальности. Одновременно он же прекрасно осознает, что сам не получает и не может получить от данных максимальный полезный эффект просто в силу своих ресурсных, профессиональных и творческих ограничений, искусно расставленных ему законами безжалостной экономической теории альтернативного выбора. Иными словами, при работе с большими объемами данных приходится выбирать конечное число решений по их анализу и использованию.

Большая часть вариантов попросту не может быть реализована в рамках монопольного владения цифровой информацией.

И уж тем более в рамках закрытых наборов данных не может быть реализован практически бесконечный потенциал комбинирования цифровой информации.

Стороннее лицо получившее доступ к публикуемым данным вправе применить любую не использованную или не доиспользованную их владельцем альтернативу решения и на основе тех же самых данных получить исключительно полезный результат.

Потребитель открытых данных вполне даже может подсказать новые эффективные решения и технологии в рамках заданного набора данных и целевой предметной области. Вот именно отсюда и возникает вопрос публикации данных открыто и бесплатно. Как не воспользоваться единственным экономическим ресурсом, который сопоставим в своем безграничном применении с нескончаемыми человеческими потребностями.

Данных стало действительно слишком много, чтобы в закрытом режиме получить от них максимум пользы.

Наилучший эффект может быть достигнут не только внезапным разовым гениальным решением, но и перебором разнообразных альтернатив. И, по-прежнему, весьма сложно предсказать успешность и качество обработки и анализа тех или иных наборов и комбинаций наборов данных. Чем более сложными и структурированными являются цифровые данные, тем больше требуется затрат творческих и профессиональных (в предметной области), а также временных и информационно-технологических (машинный ресурс).

Делаем вывод, что реальным и важнейшим мотивом публикации данных в свободном режиме является необходимость поиска новых решений, новых методов, моделей и технологий – новых знаний в обозначенной предметной области.

Что собственно и подтверждают сопровождающие открытые данные многочисленные хакатоны и конкурсы. И это абсолютно правильно и понятно – только совместными усилиями с обратной связью можно «оживить» исторические наборы данных и получить действительно важные результаты на их основе.

Конечно, у каждого конкретного лица или сотрудника могут быть разные мотивы, побуждающие его раскрывать данные или как-то участвовать в этом процессе
Если же углубляться во внутренний менеджмент, то быстро выясняется, что есть ещё и вторичная мотивация, которая иногда отрицательно сказывается на любых управленческих изменениях.
Открытые данные не являются здесь исключением.
Скажем, вполне очевидная и осознанная инициатива на уровне руководства организации может быть так «изобретательно» поддержана исполнителями, что у экспертов даже цензурных терминов не хватит описать сложившуюся ситуацию. Но это уже тема для совершенно другого разговора или даже исследования.

Может сложиться обманчивое впечатление об альтруизме поставщика свободно-распространяемых данных. Это абсолютно не так. Во всяком случае, это не должно быть так. Публикация открытых и бесплатных данных не является самоцелью для издателя. Его главной возможностью и обязанностью в этом процессе является именно налаживание обратной связи для получения интересных и полезных новых решений и даже компетенций, создаваемых на опубликованных им данных.

Подытожим.

Правильная, т.е. приносящая реальную пользу, мотивация для открытой публикации данных сводится к поиску на их базе новых знаний и решений.

Поэтому нет никакого смысла устанавливать плату за пользование такими данными или ограничивать их распространение. А имеет смысл вовлекать в работу с опубликованными данными как отдельных экспертов, так и профессиональные сообщества или бизнесы, получая от них важную обратную связь.

Явление свободно-распространяемых данных обязано своим появлением:

  1. избытку данных – объемы генерируемых и хранимых данных превысили возможности некоторых субъектов по их обработке и анализу;
  2. возможности бесплатно реплицировать данные – особенность цифровых данных в том, что их можно беспрепятственно и многократно копировать и передавать каждому пользователю;
  3. бесконечной вариативности поиска знаний – множественность вариантов обработки данных приводит к необходимости привлекать для их анализа и для поиска новых знаний широкий круг лиц, не вводя ограничительные квалификационные или иные требования;
  4. сложности оценки истинной ценности данных – пока не получен действительно «магический» результат на основе конкретных данных (т.е. пока не сгенерированы действительно ценные коммерчески-значимые знания) непонятно какую цену назначить за данные и кто за них будет платить;
  5. отсутствию риска порчи данных – даже если на данных будут получены некорректные решения или неэффективные модели это никак не повлияет на начальные данные (их невозможно потерять или сломать в результате неправильного использования) и более того, отрицательные результаты, полученные сторонними лицами, никак не повлияют на репутацию издателя.

Важное замечание по государственной и коммерческой тайне
Рассмотренная мотивация и фактор «бесплатности» снимает главное экономическое ограничение на распространение некоторых, но не всех данных. Вне технологий и практик свободного раскрытия оставались и будут оставаться очевидные конкурентно значимые данные, а также данные распространение которых угрожает безопасности и повышает внешние (любые) риски для их владельца. Публикация данных в открытом режиме для неограниченного круга лиц – это не история из области коммерческой или государственной тайны. Хотя в некотором смысле открытые данные являются отличным поводом для критического переосмысления критериев отнесения данных к «коммерческой» («государственной») тайне. В этом смысле цифровая экономика ставит действительно важный вопрос о том какую и насколько важную информацию следует закрывать от распространения защищая собственный бизнес, а какую и насколько важную информацию стоит раскрыть для рынка (бизнес-сообщества), чтобы потом воспользоваться «цифровым эффектом» за счет привлечения новых экспертов и получения новых знаний.

Открыто публикуемые данные во многом наделены теми же чертами, что и обычные транзакционные данные в том числе и больших объемов (big data). Здесь также есть свои проблемы и особенности использования в предметном анализе, с которыми надо отдельно разбираться.

При рассмотрении такой темы как «открытые данные» следует взглянуть несколько шире и оценить их не только с точки зрения данных открываемых государством. Бизнес ничуть не меньше заинтересован в свободном раскрытии данных, но у него есть свои исключительные задачи и интересы. В то же время, цифровой мир требует от каждого участника предоставить личную информацию и персональные данные. И все эти открыто публикуемые сведения не стоит смешивать в одну «кучу» – по одной простой причине: каждый из этих видов данных управляется по-разному.
Но об этом, пожалуй, в следующий раз...
Tags:
Hubs:
0
Comments 3
Comments Comments 3

Articles