войти зарегистрироваться

Что ж такое этот загадочный третий веб?

Решил написать небольшую разъяснительную статью на эту тему.

Немного воды для начала

Совсем недавно стали появляться новости о том, то IBM и BBC принялись за разработку Web 3.0. Затем поступила информация, что между Европейским Союзом и США намечается конкуренция за право первенства в технологиях Web 3.0, или, как еще называют, Семантической Сети. Вообщем-то Web3.0 довольно условное название, ибо не все признают и веб 2.0, потому далее буду называть это нечто семантической сетью. Что же такое в действительности Семантический Веб и достоин ли он прийти на смену существующему интернету – основные вопросы пользователей и сетевых инвесторов. Об этом и пойдет речь.


Web1.0, Web2.0, Web3.0 — считаем перед сном

Когда мы говорим о Web, то в первую очередь подразумеваем контент. Скачать рефератик или новый софт из гигантской всепланетной свалки и заплатить за это утомлением глаз баннерной рекламой – это концепция того, что сейчас можно назвать Web 1.0. Пользователь выступает пассивным потребителем информации, которую создают 2-10 % активных участников сети. Интернет это глобальная информационная сеть. Интернет целиком состоит из контента и различие «версий» веба это лишь различие между способами организации/подачи контента. Веб 1.0 подразумевал полную аморфность пользователя, который выступал простым потребителем. Под Web 2.0 обычно понимают сервисы, которые позволяют пользователями самим генерировать контент, а также распространять его посредством лент и гиперссылок. Пользователь сам выбирает, какой именно контент он должен получать, выходя в сеть, настраиваясь на чтение избранных блогов, сообществ, лент. Осознав этот простой факт, ряд крупных корпораций (в частности, BBC, IBM, Google, Oracle) в качестве основного направления развития интернета на ближайшие 5-10 лет предложили семантическую систему Web 3.0, основанную на «умной» обработке информации. Суть её заключается в том, что не пользователи, а сами машины осуществляют поиск информации по содержимому, включая поиск по видео- и цифровым изображениям, основываясь на метаданных и метабазах. Web 3.0 должен решить самую актуальную проблему развития интернета - поиска значимой информации, отделение её от информационного мусора. Одно из решений заключается в том, чтобы ранжировать информацию по источнику авторства, в зависимости от рейтинга источника. И сам рейтинг должен быть не автоматическим, начисляемым просто за активность в сети, а определяемым другими пользователями интернета. Другие, более популярные решения, в основном строятся вокруг метаданных.


Что и как

Semantic Web (SW) является надстройкой над уже существующим WWW. Семантика однозначно характеризует найденный контент по ряду характерных признаков. SW для трактовки данных использует универсальный идентификатор ресурсов (URI; это ссылки не только на электронные адреса или какие-то Web-страницы, но и на отдельных людей, города, художественные артефакты и т.д.), онтологии и языки описания метаданных (лексический анализ для машинной обработки). Сейчас большая часть информации в сети совершенно не понятна для компьютеров. То есть программа не может точно сказать о чем данный текст, кто такой А.С.Пушкин и собрать сообщения двух блогов в один тред по одной теме. В SW для описания информации использует RDF (Resource Description Framework) который однозначно опишет логические связи информации.


«лед тронулся...»

Семантический веб используется не только в фантазиях Сера Тимоти Бернерса-Лии, но и в крупных корпорациях и госучреждениях, но это специальные разработки, требующие больших усилий. Например, в разведке семантическая технология используется для выявления связей между людьми при борьбе с терроризмом. Вся информация о террористах хранится в трехуровневой системе RDF, построенной на стандартной базе данных. Для управления сложным процессом обработки этих данных системе требуется 22 Тбайт оперативной памяти, и работает она нестабильно, а на восстановление системы после сбоя уходит неделя. Попробуем же взглянуть на те технологии которые ждут нас во всемирной сети. Возможно, вам знакомы такие технологии, как RDF, OWL Web Ontology Language и SPARQL, а также их родственники, наподобие XML. Весь этот набор букв позволяет разработчикам организовать данные в семантическую структуру. Самый основной язык это конечно RDF. Он описывает все данные через триплеты: субъект — предикат — объект. Например, утверждение «Небо голубого цвета» в RDF-терминологии можно представить следующим образом: субъект — «небо», предикат — «имеет цвет», объект — «голубой». Другой кит, на котором стоит Web 3.0 - Web Ontology Language (OWL). OWL – это язык онтологии для интернета на основе XML. Язык веб-онтологий OWL призван обеспечить язык, который может быть использован для описания классов и отношений между ними, которые присущи для веб-документов и приложений. В основе языка находится представление действительности в модели данных объект-свойство. Каждому элементу описания в этом языке ставится в соответствие www-адрес URI.

И что мы имеем?

Прежде всего для просмотра(или хотя б распознания присутствия на странице) семантических данных вам понадобятся RDF браузеры или расширения для браузеров HTML. Для Firefox идеальным вариантом является сочетание
Semantic Radar и Operator Toolbar .

FreeBase — сообщество пользователей, которые создают связи к свободно представленным базам WikiPedia, Musicbranz и другим. Слинкованные данные добавляются в Wiki-стиле по мета-признакам, категориям и фольксомонии. В базе данных сейчас насчитывается около 20 000 фильмов, 350 000 музыкальных альбомов, 350 000 данных о людях, всего 873 категории. Каждую запись в базе можно обсудить, посмотреть отношения или отредактировать. Проект находится в альфа-тестировании, и поэтому доступ к базе - только по приглашениям.

DBpedia — тоже сообщество, которое извлекает структурированную информацию из Wikipedia и создает связи с другими источниками. Проект использует RDF (9,3 миллиона документов с 647,348 связями на 11 языках), что позволяет делать SPARQL-запросы к этим данным (SPARQL – стандарт языковых запросов семантической паутины)). Несколько реализаций для различных языков программирования уже существуют. На данный момент имеет связанные ссылки с базами Musicbranz, Geonames, YAGO-классификацией и содержит почти 60 тысяч данных о людях. В базе представлены такие разделы, как фильмы, музыка, политика, наука и другие, постоянно пополняющиеся.

Friend of a Friend (FOAF) — проект по созданию модели машинно-читаемых домашних страниц и социальных сетей. Сердцем проекта является спецификация, которая определяет некоторые выражения, используемые в высказываниях о ком-либо: например, имя, пол и другие характеристики. Чтобы сослаться на эти данные, используется идентификатор, включающий уникальные свойства друга (например, SHA1-сумма от E-Mail адреса, Jabber ID, или URI домашней страницы, веблога).
Основанный на RDF, определённый с помощью OWL и разработанный для лёгкой расширяемости, FOAF позволяет распределять данные между различными компьютерными окружениями.

Semanticly Linked Online Communitis(SIOC) — способ связи постов в блогах, комментариев на форумах, статей и прочих сообщений в один тред по теме или ключевым словам. С недавних пор технология подшефная W3C.

WordNet — лексическая база для английского языка. В базе собраны имена существительные, глаголы, прилагательные и наречия, которые группируются в наборы познавательных синонимов (synsets). Synsets тесно связан с помощью умозрительно-семантических и лексических отношений. Результирующая сеть значимо связанных слов и понятий может быть найдена представленным на сайте навигатором. Ко всем данным базы открыт свободный доступ с помощью машинных запросов SPARQL.

Geonames — проект сопоставления географических названий с ассоциируемыми RDF-данными. Другими словами, географическая информация будет представлена на сайте по RDF-стандартам.

Linking Open Data on the Semantic Web — собирается вообще всю открытую информацию в интернете перевести в RDF и, к тому же, занимается составлением RDF-ссылок между другими проектами Web 3.0.

Семантическая Медиавики

Всех сайтов использующих RDF и не перечислить, это и ЖЖ и недавно проскакивавший на хабре Доброметр


И в заключение

Web 3.0 на сегодняшний день в большей степени отвечает внутренним изменениям механизмов работы Сети, подчас незаметные обычному пользователю. Семантический Web – не революционное решение, которое однажды изменит мир вокруг нас, а постепенно внедряемая (и уже успешно) технология, инструмент, позволяющий в лучшей степени использовать доступные нам сейчас ресурсы.


Рекомендую

W3C Semantic Web Activity News
Semanticfind
Статьи и обсуждения о подвижках семантического веба, сопутствующих технологиях и спецификациях,семантических расширений для браузеров.
Все о SW
Тоже отличный сайт о SW


В создании статьи использованы отрывки из статей xakep.ru

P.S. Я хочу посвятить этому свой блог, делиться с людьми рецептами, переводить новости и спецификации, продвигать SW в ру/уа/байнете. Как думаете достойная тема?

комментарии (41)

  • Максимально достойная. А главное - на гребне волны пойдёте!
  • Что я могу сказать.. Статья хорошая, но...
    Называется она - "Каким будет Web 3.0?"
    Автор статьи - Деймос Стренталл.
    Опубликована на сайте xakep.ru, в виде, процентов на 90 таком же.
    Я больше на этот счет посоветую почитать "Семантическая Сеть" (авт. - Тим Бернерс-Ли и др.). Там написано великолепно и горздо информативнее. Кроме того, очень хорошие статьи есть в Wiki. Это первое. Теперь - второе. Т.н. "гребень волны" уже давно занят, ибо поднялась она не 5 мин. назад и не вчера. Я не вижу большой пользы от кучи классификаций и споров о том, что есть веб 1.0, 2.0 и 3.0... Польза только одна - это помогает увидеть перемены и обращает на них внимание. Маркетинговый ход, если хотите. А веб - он везде ВЕБ. Ему все равно, как называться, ибо он развивается независимо от имен и ярлыков.
    • >Называется она - "Каким будет Web 3.0?"
      >Автор статьи - Деймос Стренталл.
      >Опубликована на сайте xakep.ru, в виде, процентов на 90 таком же

      не хорошо получается...
    • Во-первых это указано, во-вторых не на 90%. А в третих Хабр это социальное СМИ: потому копипастинг с указанием источника это нормальное дело,
      • На этот счет написано чуть ниже... И еще хорошо бы сылки на первоисточник давать полноценные, к материалу, а не просто к сайту. С тем же успехом в качестве источника можно ставить гугл. :)
        • Просто когда я это написал сайт хакер.ru был уже безнадежно закрыт и потерт из истории, искать статью заново уже не было времени. Можете мне поверить, я не хотел славы, я просто хотел растолковать смысл Семантической Паутины для Хабра и все.
          • что ж, это радует :)
  • Web 3.0 и Семантическая Сеть - разные вещи, хотя в будущем могут сильно пересечься, объединиться или поглотить одно другое.
    Подробности можете изучить у автора понятя Web X.0 Тиму О'Рейлли и его топику о Web 3.0
    • копипастинг - зло. если человек претендует на оригинальность, то для него более чем есть смысл писать что свое, творить, а не шаблонить. впрочем, это так.. к слову.
      • ой.. извините, не туда тыкнул курсором :[. это ответ на пост выше
    • О'Рейли - умный человек. Он прекрасно понимает, что без натыкивания носом люди ничего не увидят. Номера версий - простой и чертовски эффективный маркетинговый ход. Что, впрочем, заслуг автора не умаляет.
  • Связан с этой темой немного, лечить людей ею увлеченных сначала тяжело, потом до самих доходит - после нескольких месяцев не собирающейся кончаться работы,

    создаваемые человеком OWL и RDF - это тупик, количество связей растёт лавинообразно и оно просто не может быть фиксированным, предусмотреть описания для или даже сосчитать все варианты контекста - нереально

    В открытом всем ветрам интернете гарантировать достоверность и, соответственно, применять не своё семантическое описание ресурса без трудоемкой верификации, всё равно никто не будет.
    Но конечно здесь хотелось бы услышать, что об этом думают люди из Яндекса и Гугла.

    Все это (OWL и RDF, SPARQL) будет иметь какой-то смысл, только после разработок и широкого внедрения жесткого стандарта автоматизированного семантического анализа, а до этого еще далеко.

    Сейчас попытки выжать что-то полезное из OWL, SPARQL и RDF, больше похожи на сражение с мельницей известного сеньора из Ламанчи.
    • Оно реально увлекательно, но для прикладных задач пока трудно применимо. Я пытался использовать RDF (в связке с XBL и SVG) для хранения, фильтрации и графического представления большого количества связанной информации (более 100 000 фактов) средствами FF но некоторые специфические проблемы производительности и инструментария вынудили дождаться mozStorage (встроенный в браузер SQLite) и продолжать реализацию на более низком уровне. Полагаю, что продакшен приложения на основе RDF вопрос будущего, а построение больших семантических систем чрезмерно ресурсоемко. Хотя безусловно интересно.
  • Нда... согрешишь где-нибудь по-юности, всплывет это в сети, и не отмажешься потом :)
    Или встанет компьютер поздно ночью и удавит тебя кабелем питания.
    Страшно, короче.
    Клаус, делай блог. Если будешь его человеческим языком писать то пойдешь на гребне волны. Хотя дело даже не в самом гребне и блоге, а в знании, которым ты будешь обладать увлекаясь этой темой. Благодаря ему ты только блогом не ограничишься.
    • Спасибо, вы меня убедили, буду делать блог.
      • делай. тема интересная. но пиши от себя. думай, переваривай и твори.
    • >Нда... согрешишь где-нибудь по-юности, всплывет это в сети, и не отмажешься потом :)
      afaik там, у них, действует система идентификации, которая это реализует в некоторой мере. Там тебе и оценкам всем учёт, и экзамены, думаю, страховка, мед карточка и всё такое.. Приходишь на работу - о тебе уже всё известно, заведомо больше, чем нужно для работы, например. Важное отличие, как сказали выше - достоверность информации
  • Когда-то очень давно читал всё то же самое про Web 2.0 — что он будет весь из себя такой семантический-пресемантический, что править там будут все эти Dublin Core с RDF, да с OWL в придачу, что всё будет шоколаднее некуда, а на Марсе будут расти вооот такие помидоры. А Web 2.0 в итоге какой-то совсем другой оказался, и из всех этих волшебных технологий разве что только RSS прописался.

    Интересно, чем всё кончится на этот раз...
    • RSS тоже семантическая технология и в начале (0.9-1.1) базировался на RDF
      • Я вот как-то примерно о том же... ;-)
        • Но согласитесь семантика — это удобно, XHTML ориентирован на семантическую верстку. Хотите вы или нет, к этому все идет.
    • Веб 1, 2, 3, 4... Это все лишь названия. Они привлекают внимание, но качественных глобальных изменений я не вижу. Разве что прибавилось графоманов, флудерастов и т.п. Да, есть перемены. но веб есть веб. Живут и процветают как сайты нового типа, так и классического. примеров - масса. Семантический веб переведет сеть на качественно обновленный уровень. НО. Задачи - все те же. Пользователю по большому счету по барабану, как и чем обработан его запрос, и в какой это обертке преподнесено.
      • Вам бы Президенту тексты писать для разновсяких экономических форумов ;-)

        Я ни в коем случае не язвлю, просто клёво было бы озвучивать такими категориями все наши нацроекты и прочие нанотехнологии :-)))
        • вот не совсем понял - оценка позитивная или негативная? :) я сказал так, как думаю. а кто как воспринял - это уже личное дело читателя.
  • Лично я, слышал весьма прагматичное мнение, что никто вручную всю семантическую индексацию проводить не будет. Будут применены технологии наподобии тех, что используются в Google Adsense для подбора сообщений к контексту.
    • Ыменно. Ну кто же будет руками все индексировать? :) Для этого есть роботы, благо в их написании щас успехов много. Не забывайте, что технология не нова, но техническая реализация сейчас - медаль о двух палках. Есть сайты, притом, немалые, в которых применена эта вещь, но еще далеко не все создано для повсеместного её применения.
  • Солянка сборная мясная... Тема интересная и большая, а описана в терминах приготовления кулинарного рецепта: немного огурцов, посолить, мяса там всякого, ну и, короче, перемешать... А что получилось - хавайте, то есть читайте
  • Вопрос для тех, юзает Друпал. :) Есть ли реализации для Друпала? В виде модулей. Был такой проект, но он только под версию 4.7 был создан, и пока новых релизов не видно :(
    • Есть пара вещей для вордпреса знаю, а вот для Дурпала - сложно сказать.
      • а конкретнеей можно? хоть под вордпрессом посмотрю, как реализовано и что можно сделать на нынешнем уровне.
        • На SIOC-projec.org смотри, атм есть плагин для аордпресса и на semanticfind там они описывались тоже
  • Во-первых, несмотря на все мое прошлое уважение, хабр испортился. И если кто-то этого не замечает, то стоит задуматься.
    Во-вторых, социальные сети — это и есть веб 2.0 (это очень долго обсуждалось при появлении термина «вэб 2.0», интересующиеся, ищите архивы). И весь пафос этой статьи рекомендую засунуть в понятную всем точку.
    • уж если пользоваться принятой классификацией, то... Да. Веб 2.0 - это не технологии, а, прежде всего, идея. В данном случае, это - сообщества и тот принцип, что пользователи являются не только пассивными читателями, но и могут внести что-то свое. А вот с Веб 3.0 ситуация иная. Пафоса я не вижу, ибо задача и работа по ней сложная. Веб 3.0 - это уже технология. Тот самый семантический веб. Я не скачу от радости, ибо "Matrix in here now" :)) но, все же - это прогесс. Качественный.
      • Тебе меня не понять, слишком молод, про DOS если и знаешь, то по наслышке...
      • Ты вообще понял, что написал? Кто говорил о технологиях? Говорим о разных вещах...
      • Читайте и не пишите отстойных статей http://ru.wikipedia.org/wiki/Веб_2.0#.D0…
        • Статья в вики ничего нового не говорит и не удивляет. Это всё было сказано давно. И у меня нет ни малейшего желания вслепую следовать чужому мнению. У меня есть свое, я могу его аргументировать и отстоять без оскорблений. Это - во-первых. Во-вторых. Социальная сеть - это явление прежде всего общественное, социальное и человеческое. Ему плевать на технологию. Социализация подразумевает собой вхождение индивида в сообщество, принятие его норм и законов. В случае веб 2.0 - это не пофигистическое чтение статей и ковыряние в файловом архиве, а также и выражение своего мнения, общение (чем занимаемся сейчас мы ;) ), исправление или добавление полезных материалов (Wiki, хвала ей и честь). Работа Коллектива на базе сайта (набора сервисов, портале, форуме, блоге и т.п.), если хотите. Кроме того, нормальное сообщество подразумевает собой уважение своих коллег (чем обладают не все, к сожалению). Аджакс, синдикация, веб-сервисы - это все часть идеи, обложка, инструменты, мишура... А идея - она ни к чему не привязана. И закидайте меня надувными кирпичами, если это не так.
          ЗЫ. А DOS, батенька, использовал. Не извольте волноваться на этот счет. Если имеете на то желание - сидите в нем. Дело Ваше. Только на личности не переходите и не судите об умственных способностях и подобных вещах по себе или паспорту собеседника. Это дело неблагодарное и некоторые на это могут обидеться, юмора не понять и дать в ухо (ну есть такие люди, что поделать... это, кстати, не радует). Впрочем, в этой области мне действительно Вас не понять и мы говорим о разных вещах.
          • > Социализация подразумевает собой вхождение индивида в сообщество, принятие его норм и законов. В случае веб 2.0 - это ... выражение своего мнения, общение ... исправление или добавление полезных материалов

            Я за! ) Хорошо, когда "принятие его норм и законов - это выражение своего мнения".
            • :)))))))))))))) вот чорт)))) фраза удалась)))
              я имел в иду лишь то, что юзер входя в сообщество, принимает то, как оно живет, иначе он либо его изменяет, либо покидает. А вообще - не надо играть буквами. Это разные фразы и относились к разным моментам. Относительно социализации - я просто дал определение.
  • Полагаю, это все - пилотные исследования. Сил пока у человечества нету, чтобы вычленить семантику из неструктурированного веба в глобальном масштабе. Это задача дли ИИ (skynet?:).
    Полагаю, что веб30 - это среда, среда жизнедеятельности вне компьютера. Т.е. когда разные устройства, окружающие нас, будут подключены к вебу. Первая волна этого движения уже была, но прошла вместе лопанием пузыря. Жду второй...
  • правильно не фольксомония, а фольксономия (http://en.wikipedia.org/wiki/Folksonomy)
Только авторизованные пользователи могут оставлять комментарии. Авторизуйтесь, пожалуйста.