company_banner

История открытых данных и Хакатон Яндекса

    14 — 15 сентября в Москве пройдёт первый Хакатон Яндекса, участники которого будут два дня и две ночи создавать проекты на основе открытых государственных данных с помощью технологий Яндекса.

    Я уже много лет занимаюсь тем, чтобы у российских разработчиков рос интерес к работе с открытыми данными. Именно для этого создан конкурс Apps4Russia, организованный некоммерческим партнерством «Информационная культура». В этом году в нем появилась номинация для тех, кто создает приложения на отрытых данных и технологиях Яндекса. Эти события подтолкнули систематизированно рассказать здесь об истории открытых данных, их источниках, примерах использования и многих других важных вещах.

    image

    Это график из ЖЖ eugenyboger. То, что сейчас мы можем узнать подробные результаты выборов по каждому участку, — это норма, а еще совсем недавно это было не так даже в очень развитых странах.

    Открытые данные: предыстория


    Определений открытых данных несколько. Есть то, которое дано в Википедии: я сам переводил его с английского, чтобы привести в русскоязычной статье. Есть определение на сайте Правительства, которое приводится и в законе. Есть еще несколько определений, но суть в следующем. Открытые данные — это информация, публикуемая владеющими ею организациями (органами власти, если это открытые государственные данные), предоставленные в свободной форме (т.е. по необременяющим свободным лицензиям) и в машинночитаемом виде, пригодном для повторной автоматической обработки. Существуют некоторые критерии, которые определяют данные как открытые. Лицензия Creative Commons — это чуть ли не обязательное условие открытых данных.

    В принципе открытые данные — это не новое явление, они давно существуют в разных формах, и идеологии открытости много лет. Открытый исходный код и свободные лицензии появились не пять, не десять лет назад, а гораздо раньше. Особенно в научной среде с её исследованиями, для результатов которых важна возможность их проверять, верифицировать, публиковать и всячески с ними работать. Исследования — это, как правило, специальные форматы, которые исключительно — что мы сейчас называем — машиночитаемы.

    В наши дни развитые государства во всем мире стремятся к открытости в разной форме. В июне этого года на встрече G8 в Великобритании принимающая сторона предложила подписать Хартию открытых данных. Её в том числе подписала и Россия. Главные принципы, которые прописаны в Хартии — это открытость данных по умолчанию, своевременная их публикация в машиночитаемом виде, прозрачность и обязательство обеспечивать условия, в которых разработчики будут создавать приложения на основе открытых данных.

    «Накапливая огромные массивы данных, власти и бизнес не всегда делятся ими так, чтобы их можно было легко найти, использовать и понять. Это упущенные возможности. Мы подошли к поворотному моменту, который предвещает новую эру. Люди смогут использовать открытые данные, чтобы генерировать идеи и создавать сервисы, которые будут делать наш мир лучше», — говорится в Хартии.

    Теперь все страны Большой Восьмерки должны декларировать готовность раскрывать информацию об уровне преступности, регистр компаний, сделки на землю. Лидеры в этом деле, конечно же, Британия и США, которые делают подобное много лет. Но сейчас публиковать открытые данные стали многие страны мира, в числе которых и Россия.

    На это повлиял и рост всяких технологических компаний, а от этого и рост ценности данных, рост экономики знаний, появление таких крупных компаний, как Яндекс, весь бизнес которых построен на свободе информации. Если бы каждый сайт в интернете был платным, и данные бы было невозможно агрегировать, проблема открытых данных могла бы не появиться. Работа с информацией public domain повлияла на это очень сильно.

    В итоге несколько трендов сошлись вместе, и появилось это самое явление – свобода доступа к информации и открытые данные. Заключается оно в том, что информация, создаваемая в первую очередь государством, а вообще — кем угодно, в принципе должна быть доступна и к тому же так, чтобы ее можно было использовать повторно. Если кто-то провел какое-то исследование, и его результаты представлены в таблице, мы должны получить не картинку, а таблицу как есть, чтобы мы могли ее проверить, использовать, а может даже сделать бизнес на основе этих результатов. Если государство раскрывает какую-то информацию о своей деятельности, то гражданам полезно не только знать о ней, но и что-то на её основе сделать. Может быть, это будет иметь социальный эффект, может быть это будет иметь экономический эффект, может быть это будет эффект «гражданского контроля», «гражданской борьбы с коррупцией» и т.п. Но все равно это экономический эффект, хоть и в немножко другой форме. Порталы открытых данных, на которых выкладывают огромные объемы информации, сгенерированной государством, в основном создают правительства. Из нее можно сделать что-то интересное и полезное — так идеология открытости трансформируется в конкретные продукты.

    Но всё пошло не от чиновников и государства, а от людей, которые этим стали заниматься намного раньше. В Британии до того, как появились порталы открытых данных, была куча разных маленьких групп разработчиков, которые стали делать проекты типа «давайте перелинкуем государство» — rewired state. Или, например, давно существовал ScraperWiki — специальный движок, с помощью которого любой человек, немножко владеющий программированием на питоне, может писать программки и скрипты и извлекать данные сайтов.

    Постепенно это приобрело такой массовый характер, что стало неважно, открывают государства данные или нет — их каким-то образом уже научились извлекать. В США до того, как появился data.gov были Sunlight Labs, Knights Foundation, которые извлекали данные из отчетов Конгресса, преобразовывали PDF-файлы в excel-файлы, excel-файлы загружали в базу данных и там преобразовывали уже в .CSV. Сильный общественный прессинг привел к тому, что в англо-саксонских странах чиновники и представители власти пришли к состоянию, когда либо это делают они, либо это делают за них. И если бы Дэвид Кэмерон не уцепился за тему открытых данных, не включил бы её в программу партии и не пришел бы с ней к власти, то пришла бы партия зелёных, у которой открытость данных теперь прописана в программе. И это открытость не информации, а именно данных.

    image
    Инфографика The Guardian Datablog

    И правильный шаг для государства в такой ситуации — попытаться возглавить тенденцию, а не сопротивляться ей. И оно так и делает, пытаясь развернуть её в те вектора, которые считает приоритетными. Это не так уж плохо, но имеет свою специфику.

    В России ситуация примерно та же. Я занимаюсь открытыми данными с 2009 года, до которого со стороны нашего государства никаких действий в этом направлении не было. В течение двух лет мы активно толкали тему, и, когда стало окончательно понятно, что мы продвинулись до такой степени, что государство нам не нужно, внезапно его представители поняли: лучше возглавить эту тенденцию.

    У Москвы в этом есть некоторая претензия на лидерство — здесь, например, бюджетный портал сделали раньше, чем это сделали федералы. На мой взгляд, данные там размещены неидеально удобно, но с ними можно работать.

    Обычно, первые, кто использует открытые данные — это гражданские активисты. Например, в Штатах они сравнивают конгрессменов между собой, составляют различные рейтинги. Используя расшифровки выступлений, выясняют, сколько слов конгрессмен наговорил за квартал.

    Состояние открытых данных


    Данные обычно существуют в трех условных формах.

    Первая. Они доступны и пригодны для работы. То есть государство или их владелец обеспечивают их машиночитаемость. Здесь порог входа минимальный — мы можем их взять и положить на какие-то карты, применить в мобильном телефоне. Все сразу готово.

    Вторая. Ситуация похуже: информация в принципе есть, но ее надо выцеплять с различных сайтов. Например, информация по депутатам Госдумы есть на сайте Госдумы, но в виде веб-страниц — её надо извлечь.

    Информация по качеству воды в городе Москве по районам — есть на сайте Мосводоканала. Но через специальный сервис, в котором надо сначала ввести улицу, потом номер дома и только после этого тебе выдадут район, уровень загрязненности, уровни загрязнений по разным показателям.

    Для того чтобы всю эту информацию собрать, активисты пишут различные скрейпы — программы, которые снимают информацию с веб-сайтов и превращают её в некоторые базы данных.

    Третья. Информация в каком-то виде в принципе существует, но недоступна в публичном пространстве. Вообще все, что мы делаем, — пытаемся добиться открытости информации. Я говорю сейчас не только о себе, но и о многих других активистах, которые активно занимаются этим в России (в том числе и коммерческие компании) и пытаются добиться открытости информации, то есть следующего:

    1. Чтобы данные, которые уже публикуют в машиночитаемом виде, были пригодны и удобны для работы, чтобы в них было минимальное количество ошибок.
    2. Чтобы те данные, которые сейчас не машиночитаемы, были преобразованы. Если их публикуют, пусть сделают так, чтобы они приносили пользу, — это самое главное.
    3. Чтобы то, что сейчас не публикуется, появилось в публичном пространстве.


    Для этого у нас в Открытом правительстве появился так называемый Совет по открытым данным. Государство заявило, что готово в этом участвовать, принимаются какие-то изменения в законах, нормативные акты. В принципе, чтобы начинать работать над обеспечением открытости данных и чтобы их использовать, никаких ограничений уже нет.

    Источники открытых данных


    Открытые данные — это не только государственые. Это во многом и данные огромных краудсорсинговых интернет-проектов. Не все знаю, что, например, вся Википедия доступна в виде дампов. Или Wikidata. Это вообще просто потрясающий по идеологии проект. А DBpediа заходит с другой стороны. Wikidata — это чтобы люди сами постепенно преобразовывали информацию в данные, а DBpedia — чтобы точить алгоритмы на то, чтобы уже внесенные ранее инфобоксы превратить в связные данные. Проект Freebase, который теперь куплен Гуглом, был полностью построен на DBpedia и Википедии. Ребята просто загрузили данные, сделали интерфейс, позволяющий вносить что-то еще дополнительно, и на основе этого сделали довольно дорогой продукт.

    Проект OpenStreetMap. Точно также — огромные дампы данных общедоступны и ими можно пользоваться. Есть еще несколько десятков проектов, которые открыты как краудсорсинговые и с которых можно забирать данные. В основном это различные энциклопедии, справочники, пользовательские базы данных.

    Например, во Франции есть активисты, которые мониторят продукты и вносят их ингредиенты, EAN и EPC коды в отдельную базу и распространяют. Таким образом создаётся каталог, по которому люди с ограничениями в питании могут понять, какие продукты им можно есть.

    То есть одна часть данных — это то, что в разных формах создают активисты, в разных формах, а другая — это то, что предоставляет государство. Оно — крупнейший владелец данных. И третья часть — данные, которые публикуют коммерческие и некоммерческие компании.

    Первые обычно публикуют их в двух форматах. Либо под принуждением, либо руководствуясь социальной ответственностью или другой мотивацией. Например, некоторые так привлекают к себе разработчиков. Nike публикует в машиночитаемом виде информацию по своим заводам.

    Как используют открытые данные в мире


    Разработчики очень часто спрашивают: «А что можно сделать на основе открытых данных, какие есть примеры?» И я всегда предлагаю посмотреть на то, что сделали другие. Достаточно заглянуть на сайты конкурсов NyCBigApps, Apps4Development, Apps4Berlin, Apps4Finland, Apps4SanFrancisco. Хотя не все примеры из них можно перенести на Россию.

    Ребята, которые создали проект «Не ешь здесь», даже не брали открытые данные, а распарсили данные с сайта инспекции еды Нью-Йорка. Они нашли, где на нём указаны адреса, названия компаний и результаты проверки, разметили их на карте сделали приложение, которое работает на принципе того же Foursquare. Оно, основываясь на количество выданных и незакрытых предписания показывает, куда идти не стоит. Приложение даже продавалось за какую-то небольшую плату и люди его ставили.

    Есть огромное количество приложений, которые входят в проект City-Go-Round. Это маленький портал в США, на котором сагрегирована информация по транспортным компаниям и по приложениям на основе их данных — 2000 компаний собраны отдельным списком. 270 из них на постоянной основе дают транспортные данные в специальном формате — general transit feed specification (GTFS). И благодаря этому, на этих данных созданы сотни приложений.

    Есть, например, проекты по новым медиа вроде Storify. Туда уже в огромном объеме загружены открытые данные, которые можно использовать в своей минигазете – создавать гарфики или другие сложные визуализации на их основе. Благодаря этому можно дополнять свои истории. В Storify создается среда, в которой люди сами придумывают, как использовать открытые данные. В этот же ряд можно поставить множество проектов, которые онлайн создают инфографику, позволяют рисовать чарты, загружать в себя готовые данные и манипулировать уже открытыми. Это Sacrato, Factual, тот же FreeBase, который у MetaWeb купил Google.

    image

    Не всегда получается, что можно заработать на своем приложении, потому что не всегда использованных данных достаточно для создания полноценного продукта. Но монетизировать результат можно и другими способами.

    Данные — это как некоторые ингредиенты. Если у вас нет соли, блюдо будет невкусным, но его можно будет есть. Если у вас будет соль, то вы его можете дороже продать, или те, кого вы накормите, будут довольнее. Иногда данные могут быть самим блюдом, а иногда — этой самой солью. То есть в любом случае они, как правило, редко являются самозначимыми. И очень многие проекты, которые работают на открытых данных, на самом деле используют их лишь как дополнение.

    К примеру, в США и Великобритании сейчас очень быстро трансформируются риэлторские сервисы. Помимо привычных критериев, которые все давно предоставляют, они начали показывать, например, криминальную обстановку или данные о погоде в том городе, где вы планируете начать жить. Откуда вся эта информация берется? В Штатах погодные данные публикуют в открытом доступе последние лет двадцать. Это наиболее монетизируемые открытые данные в мире.

    Информация о преступности раскрывается полицейскими департаментами. Появилось уже несколько десятков проектов, которые созданы на её основе. Информация об экологической обстановке тоже публикуется. Она опять же либо часть государственного мониторинга, либо — коммерческого. Поэтому всегда говорю разработчикам, чтобы они думали не только том, что они могут сделать самостояельно, но о том, во что можно будет встроить результат их работы и как на нем дополнительно заработать.

    И один из способов применить вашу разработку — это непрямая монетизация — продажа того, что вы создали. Например, ребята, сделавшие проект по мониторингу преступности в Чикаго Chicago Crime, продали его MSN, который сделал его частью своего портала.

    А британцы очень гордятся тем, что после открытия данных об успешности операций на сердце в разных больницах, у них сократилось количество смертей — люди стали выбирать больницы на основе этой информации.

    Огромное количество стартапов, которые возникают в США на открытых данных, создаются, чтобы дополнить открытыми данными различные существующие идеи.

    Открытые данные в России


    Одна из важнейших вещей в работе с открытыми данными — удобный формат. В России это часто не соблюдается. Кроме того, несмотря на то, что у нас принят закон об открытых данных, многие госорганы могут невнимательно относиться к информации на своих сайтах. Например, ее часто забывают обновлять.

    Какие-то открытые данные в нашей стране публикуют и коммерческие организации. Например, Корпус русского языка, который поддерживается Яндексом. РЖД публикует всю информацию по льготам, которые предоставляет. Мы можем узнать, кто сколько льгот получил, информацию по тарифам, финансовую отчетность. Надо просто ходить по сайтам корпораций и смотреть, что там опубликовано.

    image
    График на основе данных о явке на выборах мэра Москвы

    ЕГЭ при всех его недостатках имеет важный плюс — качество образования в школах можно измерить. Но данные разбросаны, поэтому приличных проектов на их основе нет. А можно было бы сделать приложение «Подбери школу» или добавить эту информацию на риэлторские сервисы.

    Другая часть: это ЖКХ. Московские власти стали раскрывать кучу информации о жилищно-коммунальном комплексе. На портале gorod.mos.ru есть информация по каждому дому. Если распарсить данные оттуда по всем домам, можно узнать о том, сколько люди жалуются, как быстро на их жалобы реагируют и т.д. Надо всего лишь собрать базу данных. И хоть разработчики портала себе такую цель еще не поставили, нам ничего не мешает сделать ее самим.

    Наша страна — одна из немногих, где полностью раскрываются данные по госзакупкам. Их обработка не очень простая задача, потому что это big data. Но на них можно сделать удобные сервисы, например, для поставщиков.

    Государственные данные сейчас в России разбросаны по куче порталов. У каждого министерства, у каждого федерального ведомства есть свой специальный раздел. У нас есть несколько порталов открытых данных: портал Москвы, портал Ульяновской области, сейчас будет портал Тульской области, Пермского края, Перми. У «Информкультуры» есть портал hubofdata.ru, куда мы массовыми скриптами грузим десятки гигабайт полезных и не очень данных. У нас там 3000 массивов только по статистике; данные по голосам депутатов Госдумы, экономические реестры, все данные Москвы, все данные Ульяновской области.

    image

    Есть похожий портал — это ar.gov.ru, который ведет Минэкономразвития. Они сейчас просто каталогизируют и ведут каталог всего, что только есть. Открыто доступны данные по бюджету города Москвы — на специальном портале budget.mos.ru, где даже есть раздел для разработчиков.

    Пока публикация открытых данных обязательна только для федеральных органов. Процесс продвигается постепенно. У нас есть много законов, которые не исполняются. Например, федеральный закон N 8-ФЗ — об открытости информации. Дай бог, 10% госорганов соответствуют ему на 100%. Остальные — в чём-то по мелочи — его нарушают. И не всегда сознательно, а скорее из-за халатности людей, которые ведут официальные сайты. Но подписанная Хартия и принятый закон об открытости данных говорят о том, что работа с ними уже стала частью государственной политики. Наша особенность в том, что мы не знаем, какая информация в принципе существует. Например, есть расшифровка выступлений депутатов. Сейчас она не машиночитаема, но у нас есть машиночитаемая версия.

    Если у вас возникают какие-то идеи и вам нужна помощь, можно написать мне — я всегда подскажу, какие данные вы можете использовать для своих целей и где их можно взять.

    Что такое Apps4Russia


    Одна из важных задач — разжечь интерес к открытым данным. Для этого был создан Apps4Russia — долгий непрерывный конкурс для разработчиков, который мы сделали еще до того, как государство заинтересовалось этой темой. В 2011 году семь человек собрали собственные деньги, чтобы составить призовой фонд, и провели первый конкурс, в котором было порядка пятнадцати содержательных заявок. После него мы создали некоммерческое партнерство «Информационная культура» и сейчас проводим конкурс уже в третий раз. Главная его задача — мотивировать разработчиков обращаться к открытым данным, давать им понять, что их можно и нужно использовать для своих проектов.

    В Apps4Russia участвовал один великий проект — соцкарточка. Это приложение, которое по координатам мобильного телефона определяло, какие государственные учреждения находятся рядом, и сразу приводило их телефоны: ДЭЗ, управа, участок полиции и т.д. Это открытые данные, которые были собраны с разных сайтов и систематизированы. Недавно мы проводили небольшо конкурс на основе данных полиции. В его рамках появилось несколько приложений, которые помогают узнать своего участкового.

    В этом году на Apps4Russia есть номинация Яндекса, в которой будут соревноваться приложения, созданные на его технологиях. В ней очень конкретная идея: Яндекс — это сервисная компания, которая тоже работает на открытых данных и создает для разработчиков много возможностей повышать качество своих продуктов. Трудно измерить, сколько проектов заработали на Яндекс.Картах, но продуктовое качество очень многих от этого безусловно повысилось. Можно использовать не только Яндекс.Карты, но API Яндекс.Поиска, API других сервисов.

    image

    Кроме общепринятых API, у Яндекса есть и технологии, которые специально предназначены для обработки языка в свободной форме. Например, некоторое время назад стал открытым парсер Томита, предназначенный специально для этого. Именно он помогает понимать смысл текста, например, Яндекс.Новостям.

    А с помощью Поиска и реестра больниц можно сделать поисковик по больницам. Или создать мобильное приложение для прокуроров или людей, интересующихся прокуратурой, собрав данные со всех сайтов прокуратур и добавляя новости в RSS. И продавать его самим прокурорам.

    С каждого массива данных можно брать маленький кусочек и как-то еще его использовать. Если в реестре организаций есть их веб-адреса, можно перезапустить робота, собрать RSS-ленты и сделать мобильное приложение «Последние новости города Москвы» — у всех московских департаментов есть RSS-лента. Всё это можно сделать на технологиях Яндекса — надо просто зайти на api.yandex.ru. В этом году прием заявок на Apps4Russia заканчивается 16 сентября, но есть вероятность, что мы его продлим.

    Хакатон по открытым данным в Яндексе


    14 — 15 сентября в Москве пройдёт первый Хакатон Яндекса. Два дня и две ночи разработчики будут создавать приложения на основе открытых государственных данных и технологий Яндекса. Участвовать в нем можно даже командами до пяти человек. Причем можно прийти готовой командой, а можно организоваться на месте.

    Если на конкурсе можно долго-долго думать, а потом за два часа что-то для него сделать, то на Хакатоне нужно думать быстро. Как правило, на него надо приходить подготовленным. Поэтому заранее подумайте о том, что будете делать, поймите, где будете искать информацию, изучите API. Конечно, вам помогут и на месте: будут и консультанты по открытым данным, и по технологиям Яндекса.

    Я хочу еще раз сделать акцент на том, что необязательно сразу делать продукт, который вы будете продавать. Вы можете сделать его частью другого продукта. Вы можете продавать себя — за счет того, что качественно реализуете тот или иной кусочек проекта. И не обязательно работодателю — это просто работа на репутацию. На Хакатоне вы сможете показать, что умеете на основе какой-то информации и каких-то инструментов создавать классные штуки.

    Главная задача и Apps4Russia, и Хакатона Яндекса — показать, что вокруг много информации и технологий, с помощью которых можно создавать что-то полезное.
    Яндекс 511,76
    Как мы делаем Яндекс
    Поделиться публикацией
    Комментарии 9
    • +4
      Неоднократно поднимался вопрос о том, что наиболее финансово выгодными и наименее рискованными являются проекты, связанные с обработкой и data mining'ом больших массивов данных.

      С другой стороны, никто не пишет, как такие проекты монетизировать. А если и пишут, то в форме «такой проект заинтересует МВД/Газпром/Метеоцентр/Энергопром» (нужно подчеркнуть), при этом никто не говорит «а мы вот форсанули крутой проект в МВД», к примеру.

      Был у нас опыт в Беларуси продвижения майнингового проекта в гос. структуры. Приезжала на конференцию даже секретарь коммитета союзного государства. Было вообще очень много именитых и влиятельных людей. Всем всё очень понравилось, но на деле сказали, что «денег нет», хотя проект по сути готов и вся его финансовая рентабельность и выгодность расписана до последнего рубля.

      Кто-либо может сказать про действенные методы монетизации майн-проектов?
      • +2
        Сложно что-либо посоветовать при монетизации проектов по Data Mining через госпроекты — там мало что решает качество решения и куда больше другие факторы.

        Задач для обработки больших данных действительно много и я могу лишь посоветовать посмотреть на успешные стартапы в этой области, например, тут — angel.co/data-mining

        Основных монетизаций несколько:
        1. Продукт и инструменты для специалистов — это путь Tableau, Good Data и так далее.
        2. Целевые решения для конкретных направлений бизнеса — Aster Data и др.

        • +1
          Возможно я ошибаюсь, но госсектор в наших реалиях никогда ничего не купит. Он может выступать как источник данных и мне кажется, его можно мотивировать получением результата аналитики его же данных. Деньги же должен приносить коммерческий сектор.
          • 0
            > мотивировать получением результата аналитики его же данных

            Нельзя ли более развернуто?..
            • 0
              В госсекторе большая бюрократия, надо делать кучу отчётов. Наверно имеется ввиду предоставить служащим «халяху» — часть их работы выполняется внешним сервисом на основе данных от их департамента.
        • 0
          Небольшая ремарка про создание графиков и визуализации в Storify.
          Storify — сервис, предназначенный для курирования контента.
          Разве там есть возможность создавать визуализацию на основе открытых данных?
          • 0
            Со Storify я действительно перепутал — у них есть один из конкурентов который поддерживает такую возможность, навскидку не могу его сейчас найти — но напишу как найду.

            Storify также интересный проект благодаря их API — dev.storify.com/api/summary

            В принципе на открытых данных очень много стартапов которыми пользуются крупные медиа и бизнес — Socrata, Factual, Freebase, Enigma.io, Infochimps, DataMarket и десятки других
          • НЛО прилетело и опубликовало эту надпись здесь
            • 0
              Всё совсем не радостно если говорить про политические данные вообще, однако даже это лучше чем то что было еще несколько лет назад. Если почитать зарубежных активистов, то никто из них своё правительство не хвалит, все наоборот считают что чиновники подходят к открытости очень формально.

              Поэтому открытые данные работают только при наличии сильного общественного прессинга который мы создаём.

            Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

            Самое читаемое