dulanov Dec 16 2008 at 20:17

Как мы будем взаимодействовать с сетью данных?

10 min

1.3K

Translation

Семантический веб — общее информационное пространство связанных данных, предназначенное скорее для машин, чем для людей. Так ли это? И да и нет. Действительно, машинно-читаемые данные, наделённые точной семантикой и опубликованые в сети в совокупности с возможностью связывать данные в распределённые наборы являются основной характерной чертой семантического веба. Вместе эти особенности позволяют собирать и объединять разнородные данные в невиданных ранее масштабах, а всю рутину для нас выполнят машины.

Однако всё это бессмысленно без человека, способного пожинать плоды появляющихся возможностей. Сеть машинно-читаемых данных (семантический веб или сеть данных) далека от вычёркивания человека из процесса. Более того, она открывает огромные перспективы для взаимодействия человека и машины.

К настоящему моменту сообщество семантического веба в основном занималось разработкой технической инфраструктуры, чтобы сделать сеть данных реализуемой в принципе, и публикацией наборов связанных данных, чтобы наполнить её содержанием. Если мы хотим полностью использовать перспективы и возможности сети данных, нам нужно преодолеть этот начальный этап и работать над осознанием того, как меняется парадигма взаимодействия пользователя с сетью.

В этой статье я рассмотрю некоторые аспекты того, как наше взаимодействие с сетью данных может отличаться от взаимодействия с существующей сетью документов, и что это может означать как для пользователей, так и для создателей содержимого сети.

Семантический веб: от видения к реальности

В 1999 Якоб Нильсен (Jakob Nielsen) написал о вырисовывающемся кризисе: сеть росла с невероятной скоростью, и он предсказал, что без усиленного внимания к принципам пользовательского интерфейса, она станет бесполезной свалкой документов. С тех пор прошло почти 10 лет и сеть переживает новый виток своего развития. Возникает сеть данных или семантический веб, предвиденный более чем за десятилетие, и являющийся результатом многолетней работы над технологиями, лежащими в его основе. Хотя мы и можем считать их различными концепциями, но сеть данных — это, скорее ещё один шаг в развиитии того веба, который мы знаем, а не что-то совершенно отличное от существующей сети гипертекстовых документов.

Сегодня, даже статистика роста приводится не в терминах страниц или сайтов. Вместо этого говорят о количестве триплетов (triple), размещённых в сети данных с использованием модели описания ресурсов (Resource Description Framework, RDF) и количестве ссылок, создаваемых триплетами между различными наборами данных.

RDF — разработанная W3C спецификация утверждений о сущностях в машинно-читаемом виде. Каждое из таких утверждений состоит из трёх частей: субъекта, предиката и объекта, и называется вследствие этого триплетом. В большинстве случаев субъектом в триплете является единообразный идентификатор ресурса (Uniform Resource Identifier, URI), позволяющий идентифицировать всё, что захочет создатель данных: человека, место, документ в сети, абстрактное понятие — в общем, всё. Предикат определяет природу отношения между субъектом и объектом, берётся из словарей, размещённых в сети и идентифицируется с помощью URI. Объект RDF-триплета обычно является строковым литералом или другим URI. Если объект — URI из другого пространства имён, то есть определяет что-то, из другого набора данных, значит RDF-триплет создаёт ссылку между этими наборами, связывая изолированные островки данных в гигантское распределённое хранилище, построенное на основе архитектуры сети интернет. Это и есть настоящая сеть данных.

Когда участники первоначального проекта Linking Open Data в последний раз пытались подсчитать текущий размер сети данных, их сдержанные оценки показали, что наборы данных в сети содержат больше двух миллиардов RDF-триплетов, три миллиона из которых являются ссылками между наборами. Скорость роста этой сети так велика, что любые будущие оценки, похоже, будут устаревать уже в момент своей публикации.

Ещё одна дополнительная возможность RDF: можно объединять триплеты, содержащиеся в любом количестве документов, распределённых по сети. Документы-источники могут быть безболезненно объединены без нужды для результирующего графа соответствовать какой-либо конкретной схеме. Одно из следствий этого — значительно меньше головной боли, связанной с интеграцией разнородных данных.

Выкинь свою домашную страничку!

В сети документов отдельные люди и организации часто уделяют много внимания конструированию внешне привлекательных сайтов, создающих нужное впечатление на свою целевую аудиторию. Но если RDF позволяет объединить данные из множества источников для создания согласованного образа некоторой сущности, как это повлияет на то, как мы размещаем данные в сети? Это приведет к тому, что веб-странички в том виде, в котором мы привыкли их воспринимать сейчас, попросту исчезнут.

Разработчики Web 2.0-машапов (mashups) уже некоторое время демонстрируют это, объединяя данные из нескольких различных источников, чтобы представить их в новом виде, чего ни один из исходных источников, сам по себе, сделать не может. Сеть данных — это логическое расширение, позволяющее разработчикам создавать ссылки между источниками данных, представленными в сети, чтобы другие могли их использовать для создания широкомасштабных специализированных машапов, и одновременно облегчать интеграцию разнородных данных.

Документы всегда будут полезными вместилищами данных, но во многих случаях, я полагаю, этим их роль и ограничится. В семантическом вебе вы не сможете контролировать то, как размещённая вами информация будет представлена — это всего лишь данные. Что касается визуального дизайна, RDF представляет собой продолжение давно существующего принципа отделения содержимого от представления. У некоторых создателей содержимого это может вызывать тревогу — как поддерживать марку, имея меньший контроль над представлением? Для других появляется возможность освободиться от забот о внешнем виде, сосредоточившись на размещении актуальных, высококачественных данных, предоставив каждому возможность создавать такое представление, какое ему хочется, а не довольствоваться тем, что ему уготовано кем-то ещё.

На уровне данных их создатель может оказывать некоторое влияние на то, куда ссылаются его данные, главным образом самостоятельно создавая эти ссылки и размещая их для использования другими. Тем не менее, в сети данных никто не может с любой степенью уверенности контролировать источники, с которыми связаны его данные. В результате чего появляется возможность многократного использования данных, а это как раз то, что нужно! Как уже было описано, данные, размещённые в сети в форме, пригодной для многократного использования, позволяют создавать новые представления, ценность которых выше, чем у простой суммы составляющих их частей, чего создатели изначальных данных не могли заранее предположить.

Именно по этим причинам я предлагаю отказаться от домашних страничек. Исследователям хорошо известны трудности соединения всех кусочков их профессиональной деятельности в единое целое: проекты, документы, участие в комитетах и редколлегиях, записи в блогах и фотоальбомы, разбросанные по изолированным островкам в сети, возможно, скопированные на их личный веб-сайт или соединённые через гипертекст, а возможно и нет, учитывая связанные с этим сложности.

Домашняя страничка в сети данных может принимать различные формы. В самом простом случае это может быть просто набор RDF-триплетов, связывающих вместе, разбросанные в разных местах данные, которые мы хотим представить. Собрать этих данных в единое представление, пригодное для использования человеком — это работа машины.

Чтобы не быть голословным, в следующий раз, когда я буду печатать свою визитку, я напишу на ней не адрес своей домашней странички, а мой URI, будучи уверенным, что человек с браузером, семантическим или нет, сможет просмотреть этот URI и найти то, что сеть знает обо мне.

Как должен выглядеть семантический браузер?

Развивая описанные идеи, можно видеть, что документ, в котором размещён некоторый RDF-граф, в первую очередь указывает на источник его происхождения, а не выступает в роли жестко-заданной упаковки для этих данных.

Куда важнее самих документов сущности, описанные в них: люди, места и понятия. Здесь я использую термин «сеть данных», но на самом деле я применяю его как сокращение от «сеть данных о сущностях», произвольных сущностях. Пожалуй, мы не можем получить автомобиль по HTTP, но мы можем идентифицировать его с помощью HTTP URI и использовать сеть для получения описания автомобиля в виде RDF.

Браузеры сети данных должны работать на уровне сущностей. Создание простых браузеров для отображения RDF-триплетов и содержащих их документов — один из вариантов взаимодействия людей с этим информационным пространством. Мы видели подобный подход в ранних браузерах семантического веба, но они, пожалуй, упускают главное. Просмотр по одной странице за раз, который нам хорошо знаком по существующей сети документов, сводит на нет потенциал обобщённого представления данных, собранных из множества мест.

Таким образом, браузеры семантического веба призваны не просто выводить на экран низкоуровневое представление данных. Вместо этого, они должны обращаться с сущностями (в самом широком смысле), как с основными элементами интерфейса. Рассматриваемая сущность должна находиться в центре внимания, в то время как браузер собирает и организует относящуюся к ней информацию, прозрачным для пользователя образом.

Мы видим намёки на подобный подход в таких семантических браузерах как Tabulator и DBpedia Mobile, где рассматриваемая сущность находится в центре внимания, а конкретные документы только поставляют фрагменты данных, которые вместе составляют полную картину. Несмотря на это движение в правильном направлении, нам ещё есть куда стремиться.

Привычные браузеры, в основном, не преуспели в передаче оригинального видения сети как среды для чтения и записи. Несмотря на то, что такой подход в общем постепенно реализуется через, например, блоги, вики и специальные сервисы с поддержкой тегов, вроде Flickr, остаётся значительная степень косвенности, когда дело доходит до редактирования сетевых документов. В некоторых случаях процесс всё ещё включает в себя запуск HTML-редактора, внесение нужных правок и использование другого приложения (вроде FTP-клиента) для размещения изменённого документа.

Браузеры для семантического веба, которые я предпочитаю называть «браузерами сущностей», имеют шанс предоставить куда больше возможностей для непосредственной обработки в своих интерфейсах. Различные типы объектов предполагают различные типы действий, и знание типа объекта, на котором сфокусировано внимание пользователь, позволит браузерам предоставлять набор действий конкретно для этого объекта, и, возможно, даже адаптировать их в соответствии с контекстом.

Например, если пользователь в настоящий момент просматривает информацию о человеке, браузер может позволить ему отправить этому человеку сообщение, поделиться с ним каким-либо объектом или назначить встречу без необходимости для того человека явно указывать возможность выполнения любой из этих функций. Вместо этого семантический веб в целом может предоставить все необходимые знания и возможности для выполнения этих функций, например, определение, описывающее «назначить встречу» как действие, которое можно совершить над сущностью типа «человек», или определения того, из чего состоит встреча, или предположения о месте встречи, основанные на отношениях между участниками и времени дня.

Очевидно, сеть данных не даёт возможности оперировать с реальными вещами, такими как автомобили или собаки, которых нет и никогда не будет в онлайне. Однако, в сети данных мы можем явно ссылаться на что угодно, не только на документы. В этом и заключается большой потенциал уменьшения уровня косвенности в сетевых интерфейсах. Мы можем больше не ссылаться на веб-странички о каких-либо сущностях, мы можем ссылаться на сами эти сущности.

На случай, если остаются сомнения: всё это не какая-то мимолётная мода, а направление, реализация которого займёт годы и может принять различные формы. Произнося свою речь на конференции World Wide Web в 2007 году Билл Бакстон (Bill Buxton) из Microsoft Research заявил, что «Многообразие „веб-браузеров“ в скором будущем будет таким же, как многообразие „ink browsers“ (имеется в виду бумага) сегодня в плане различия форм, функций, расположения и важности». У меня не сложилось впечатления, что Бакстон думал о сети данных, когда делал это заявление, но оно, тем не менее, кажется правдоподобным. Настоящая сеть сущностей потребует подобного разнообразия интерфейсов, через которые мы будем её использовать. Браузер — это всего лишь один из подходов.

Кнопка «назад» для семантического веба?

Принятие перехода от документов к сущностям и от предопределённых представлений к создающимся динамически потребует не только совершенно новых интерфейсов, но также некоторых изменений в элементах взаимодействия, с которыми мы уже хорошо знакомы. Если просмотр станет не просто переходом от одного документа к другому по ссылкам, но также будет использовать обобщённое представление данных, собранных из различных источников, то понятие кнопки «назад» в интерфейсе будет иметь несколько иное значение. Браузер, скорее, должен перемещать пользователя не к предыдущему документу, а к предыдущей рассматриваемой сущности. Что ещё более важно, кнопка «отменить изменение», которую вы могли видеть в текстовых процессорах, может иметь критическое значение в среде, где огромное количество данных может быть собрано с минимальными усилиями, но не все из них могут быть подходящими для текущей задачи.

Круг потенциальных источников, предоставляющих данные о некоторой сущности будет громадным. Представьте, что вы ввели URI Лондона в адресную строку своего браузера семантической сети. Всю доступную в сети информацию о Лондоне невозможно разместить в одном интерфейсе. Пользователь должен решить, какие источники добавить в зависимости от текущей задачи или контекста, или позволить браузеру сделать это решение для него с возможностью отменить добавление определённых источников. Эта функциональность становится ещё более важной, если автоматические рассуждения, выполненные над семантическими данными в сети, создают новые знания, которые до этого не существовали в явном виде ни в одном из отдельных источников.

Управление набором источников данных становится насущной проблемой. Когда мы с несколькими коллегами оценивали демонстрацию различных технологий семантического веба делегатам европейской конференции по семантическому вебу (European Semantic Web Conference) в 2006 году, одной из основных всплывших тем была «цельность». Для использования делегатам были представлены различные приложения для семантического веба. Они ожидали, что данные будут объединены и представлены в виде единого целого. По различным причинам (описанным в других публикациях) это было невозможно, что разочаровало делегатов, оставив не самые лучшие впечатления.

Ключом к разработке браузеров сети данных будут поисковые сервисы вроде Sindice, предоставляющие способ найти другие RDF-документы в семантической сети, упоминающие некоторую сущность. Сервисы такого рода могут помочь удостовериться, что данные, получаемые пользователем, цельные, то есть, что они включают всё, что пользователь ожидает. Но остаётся ещё вопрос проверки, является ли определённое представление данных полезным.

Любая система, предназначенная для интеграции разнородных данных в реальном времени и представления результата пользователю должна будет использовать сложные модели релевантности, качества и достоверности, учитывающие текущую задачу пользователя и её контекст. Как этого можно достичь — вопрос будущего.

IEEE Internet Computing

Оригинал (Английский): How Will We Interact with the Web of Data?

Перевод: daeq, dulanov, vvvolf, jupy (выбор статьи для перевода и сам перевод выполнен в рамках группы рассылки webofdata.ru).

Лицензия: www.ieee.org/web/publications/rights/privacy.html

Tags:

Hubs:

Semantics