Pull to refresh

Что ж такое этот загадочный третий веб?

Reading time 6 min
Views 4.1K
Решил написать небольшую разъяснительную статью на эту тему.

Немного воды для начала


Совсем недавно стали появляться новости о том, то IBM и BBC принялись за разработку Web 3.0. Затем поступила информация, что между Европейским Союзом и США намечается конкуренция за право первенства в технологиях Web 3.0, или, как еще называют, Семантической Сети.

Вообщем-то Web3.0 довольно условное название, ибо не все признают и веб 2.0, потому далее буду называть это нечто семантической сетью.

Что же такое в действительности Семантический Веб и достоин ли он прийти на смену существующему интернету – основные вопросы пользователей и сетевых инвесторов. Об этом и пойдет речь.


Web1.0, Web2.0, Web3.0 — считаем перед сном


Когда мы говорим о Web, то в первую очередь подразумеваем контент. Скачать рефератик или новый софт из гигантской всепланетной свалки и заплатить за это утомлением глаз баннерной рекламой – это концепция того, что сейчас можно назвать Web 1.0. Пользователь выступает пассивным потребителем информации, которую создают 2-10 % активных участников сети.

Интернет это глобальная информационная сеть. Интернет целиком состоит из контента и различие «версий» веба это лишь различие между способами организации/подачи контента.

Веб 1.0 подразумевал полную аморфность пользователя, который выступал простым потребителем.

Под Web 2.0 обычно понимают сервисы, которые позволяют пользователями самим генерировать контент, а также распространять его посредством лент и гиперссылок. Пользователь сам выбирает, какой именно контент он должен получать, выходя в сеть, настраиваясь на чтение избранных блогов, сообществ, лент.

Осознав этот простой факт, ряд крупных корпораций (в частности, BBC, IBM, Google, Oracle) в качестве основного направления развития интернета на ближайшие 5-10 лет предложили семантическую систему Web 3.0, основанную на «умной» обработке информации. Суть её заключается в том, что не пользователи, а сами машины осуществляют поиск информации по содержимому, включая поиск по видео- и цифровым изображениям, основываясь на метаданных и метабазах. Web 3.0 должен решить самую актуальную проблему развития интернета — поиска значимой информации, отделение её от информационного мусора. Одно из решений заключается в том, чтобы ранжировать информацию по источнику авторства, в зависимости от рейтинга источника. И сам рейтинг должен быть не автоматическим, начисляемым просто за активность в сети, а определяемым другими пользователями интернета. Другие, более популярные решения, в основном строятся вокруг метаданных.

Что и как


Semantic Web (SW) является надстройкой над уже существующим WWW. Семантика однозначно характеризует найденный контент по ряду характерных признаков. SW для трактовки данных использует универсальный идентификатор ресурсов (URI; это ссылки не только на электронные адреса или какие-то Web-страницы, но и на отдельных людей, города, художественные артефакты и т.д.), онтологии и языки описания метаданных (лексический анализ для машинной обработки).

Сейчас большая часть информации в сети совершенно не понятна для компьютеров. То есть программа не может точно сказать о чем данный текст, кто такой А.С.Пушкин и собрать сообщения двух блогов в один тред по одной теме.
В SW для описания информации использует RDF (Resource Description Framework) который однозначно опишет логические связи информации.

«лед тронулся...»


Семантический веб используется не только в фантазиях Сера Тимоти Бернерса-Лии, но и в крупных корпорациях и госучреждениях, но это специальные разработки, требующие больших усилий. Например, в разведке семантическая технология используется для выявления связей между людьми при борьбе с терроризмом. Вся информация о террористах хранится в трехуровневой системе RDF, построенной на стандартной базе данных. Для управления сложным процессом обработки этих данных системе требуется 22 Тбайт оперативной памяти, и работает она нестабильно, а на восстановление системы после сбоя уходит неделя.

Попробуем же взглянуть на те технологии которые ждут нас во всемирной сети.

Возможно, вам знакомы такие технологии, как RDF, OWL Web Ontology Language и SPARQL, а также их родственники, наподобие XML. Весь этот набор букв позволяет разработчикам организовать данные в семантическую структуру.

Самый основной язык это конечно RDF. Он описывает все данные через триплеты: субъект — предикат — объект. Например, утверждение «Небо голубого цвета» в RDF-терминологии можно представить следующим образом: субъект — «небо», предикат — «имеет цвет», объект — «голубой».

Другой кит, на котором стоит Web 3.0 — Web Ontology Language (OWL). OWL – это язык онтологии для интернета на основе XML. Язык веб-онтологий OWL призван обеспечить язык, который может быть использован для описания классов и отношений между ними, которые присущи для веб-документов и приложений. В основе языка находится представление действительности в модели данных объект-свойство. Каждому элементу описания в этом языке ставится в соответствие www-адрес URI.

И что мы имеем?


Прежде всего для просмотра(или хотя б распознания присутствия на странице) семантических данных вам понадобятся RDF браузеры или расширения для браузеров HTML. Для Firefox идеальным вариантом является сочетание
Semantic Radar и Operator Toolbar
.

FreeBase — сообщество пользователей, которые создают связи к свободно представленным базам WikiPedia, Musicbranz и другим. Слинкованные данные добавляются в Wiki-стиле по мета-признакам, категориям и фольксомонии. В базе данных сейчас насчитывается около 20 000 фильмов, 350 000 музыкальных альбомов, 350 000 данных о людях, всего 873 категории. Каждую запись в базе можно обсудить, посмотреть отношения или отредактировать. Проект находится в альфа-тестировании, и поэтому доступ к базе — только по приглашениям.

DBpedia — тоже сообщество, которое извлекает структурированную информацию из Wikipedia и создает связи с другими источниками. Проект использует RDF (9,3 миллиона документов с 647,348 связями на 11 языках), что позволяет делать SPARQL-запросы к этим данным (SPARQL – стандарт языковых запросов семантической паутины)). Несколько реализаций для различных языков программирования уже существуют. На данный момент имеет связанные ссылки с базами Musicbranz, Geonames, YAGO-классификацией и содержит почти 60 тысяч данных о людях. В базе представлены такие разделы, как фильмы, музыка, политика, наука и другие, постоянно пополняющиеся.

Friend of a Friend (FOAF) — проект по созданию модели машинно-читаемых домашних страниц и социальных сетей. Сердцем проекта является спецификация, которая определяет некоторые выражения, используемые в высказываниях о ком-либо: например, имя, пол и другие характеристики. Чтобы сослаться на эти данные, используется идентификатор, включающий уникальные свойства друга (например, SHA1-сумма от E-Mail адреса, Jabber ID, или URI домашней страницы, веблога).
Основанный на RDF, определённый с помощью OWL и разработанный для лёгкой расширяемости, FOAF позволяет распределять данные между различными компьютерными окружениями.

Semanticly Linked Online Communitis(SIOC) — способ связи постов в блогах, комментариев на форумах, статей и прочих сообщений в один тред по теме или ключевым словам. С недавних пор технология подшефная W3C.

WordNet — лексическая база для английского языка. В базе собраны имена существительные, глаголы, прилагательные и наречия, которые группируются в наборы познавательных синонимов (synsets). Synsets тесно связан с помощью умозрительно-семантических и лексических отношений. Результирующая сеть значимо связанных слов и понятий может быть найдена представленным на сайте навигатором. Ко всем данным базы открыт свободный доступ с помощью машинных запросов SPARQL.

Geonames — проект сопоставления географических названий с ассоциируемыми RDF-данными. Другими словами, географическая информация будет представлена на сайте по RDF-стандартам.

Linking Open Data on the Semantic Web — собирается вообще всю открытую информацию в интернете перевести в RDF и, к тому же, занимается составлением RDF-ссылок между другими проектами Web 3.0.

Семантическая Медиавики

Всех сайтов использующих RDF и не перечислить, это и ЖЖ и недавно проскакивавший на хабре Доброметр

И в заключение


Web 3.0 на сегодняшний день в большей степени отвечает внутренним изменениям механизмов работы Сети, подчас незаметные обычному пользователю. Семантический Web – не революционное решение, которое однажды изменит мир вокруг нас, а постепенно внедряемая (и уже успешно) технология, инструмент, позволяющий в лучшей степени использовать доступные нам сейчас ресурсы.

Рекомендую


W3C Semantic Web Activity News
Semanticfind
Статьи и обсуждения о подвижках семантического веба, сопутствующих технологиях и спецификациях, семантических расширений для браузеров.
Все о SW
Тоже отличный сайт о SW

В создании статьи использованы отрывки из статей xakep.ru


P.S. Я хочу посвятить этому свой блог, делиться с людьми рецептами, переводить новости и спецификации, продвигать SW в ру/уа/байнете. Как думаете достойная тема?
Tags:
Hubs:
+36
Comments 41
Comments Comments 41

Articles