Семантическая Сеть → Google приобрёл компанию Metaweb и базу знаний Freebase
Поисковый стартап Metaweb, который разрабатывал технологии семантической разметки Веба и поддерживал открытую базу знаний Freebase (12 млн людей, мест и объектов, связанных друг с другом), на прошлой неделе куплен компанией Google. Похоже, поисковый гигант наконец-то созрел для реализации в жизнь футуристических технологий Семантической сети, которые с 2006 года обсуждались на Хабре.
Как известно, Семантическая сеть подразумевает внедрение нового формата разметки веб-документов, удобных для машинной обработки. Таким образом, любой текст может восприниматься машиной как набор фактов и иерархических понятий, а весь интернет выйдет на уровень Веб 3.0, превратившись в единую распределённую и постоянно обновляющуюся базу данных.
Как известно, Семантическая сеть подразумевает внедрение нового формата разметки веб-документов, удобных для машинной обработки. Таким образом, любой текст может восприниматься машиной как набор фактов и иерархических понятий, а весь интернет выйдет на уровень Веб 3.0, превратившись в единую распределённую и постоянно обновляющуюся базу данных.
Персональные блоги → Результаты и перспективы небольшого анализа русских текстов
Представляю читателям статистику, собранную во время создания простейшего робота-генератора русских фраз
Приведу сначала некоторые цифры.
На 12.5Мб русского текста (в основном классическая литература разных авторов), на 142114 разных слов в нём, чаще всего встречается союз «и» — 83575 раз (слова берутся во всех словоформах). И это больше, чем половина!
Вторым по частоте встречаемости оказывается предлог «в» — 52124 раз, на третьем месте — частица «не»: 36268 раз.
Глагол «сказал» (ед.ч., 3л.) встречается 6566 раз и находится на 28-м месте.
А вот слово «да» находится на 36-м месте и встречается 5039 раз, тогда как «нет» — встречается 2948 раз и находится на 53 месте.
Остальные слова выбраны достаточно случайно, исходя из предпочтений автора.

Частотность слов на корпусе текстов изучалась со времён открытия закона Ципфа для английского языка (т.е., уже более 60-ти лет), публиковались различные словари и обзоры по этой теме, но мы посмотрим на русскую речь немного внимательнее и нагляднее.
Подробные графики и примеры с выводами
Распределение слов
Приведу сначала некоторые цифры.
На 12.5Мб русского текста (в основном классическая литература разных авторов), на 142114 разных слов в нём, чаще всего встречается союз «и» — 83575 раз (слова берутся во всех словоформах). И это больше, чем половина!
Вторым по частоте встречаемости оказывается предлог «в» — 52124 раз, на третьем месте — частица «не»: 36268 раз.
Глагол «сказал» (ед.ч., 3л.) встречается 6566 раз и находится на 28-м месте.
А вот слово «да» находится на 36-м месте и встречается 5039 раз, тогда как «нет» — встречается 2948 раз и находится на 53 месте.
Остальные слова выбраны достаточно случайно, исходя из предпочтений автора.

Частотность слов на корпусе текстов изучалась со времён открытия закона Ципфа для английского языка (т.е., уже более 60-ти лет), публиковались различные словари и обзоры по этой теме, но мы посмотрим на русскую речь немного внимательнее и нагляднее.
Подробные графики и примеры с выводами
Семантическая Сеть → Семантическая паутина — что мы можем делать уже сейчас
Буквально только что в топе проскочила замечательная статья "Элементы семантической паутины". Начал писать на нее ответ, но он получился слишком большим, поэтому выделяю его в отдельный топик.
Итак, большинство комментариев делится на две категории: «Да ну, рядовому юзеру семантическая разметка информации непонятна, недоступна, и соответственно, он не будет ей заниматься» и «Да ладно, все будет хорошо, как-нибудь добредем то этого светлого будущего».
Я считаю, что правы и те, и те, и у нас, у тех, кто считает «семантическую паутину» желанным будущим, есть возможности ускорить его приход.
Итак, большинство комментариев делится на две категории: «Да ну, рядовому юзеру семантическая разметка информации непонятна, недоступна, и соответственно, он не будет ей заниматься» и «Да ладно, все будет хорошо, как-нибудь добредем то этого светлого будущего».
Я считаю, что правы и те, и те, и у нас, у тех, кто считает «семантическую паутину» желанным будущим, есть возможности ускорить его приход.
Семантическая Сеть → Простой RDF-репозиторий на PHP и MySQL для начинающих
Проблема: сложность практического освоения технологий семантической сети начинающими.
Предлагаю совместными усилиями выработать конкретное решение, позволяющее запустить у себя маленькое хранилище и научиться делать запросы.
Задача: разобраться в создании, хранении и обращении к словарю, в использовании языка запросов на начальном уровне на практике.
Если вы примете участие в обсуждении и будете подсказывать лучшие решения, то я буду обновлять этот пост по мере совместного нахождения новой информации. Надеюсь, в итоге получится небольшой урок для начинающих.
Предлагаю совместными усилиями выработать конкретное решение, позволяющее запустить у себя маленькое хранилище и научиться делать запросы.
Задача: разобраться в создании, хранении и обращении к словарю, в использовании языка запросов на начальном уровне на практике.
Если вы примете участие в обсуждении и будете подсказывать лучшие решения, то я буду обновлять этот пост по мере совместного нахождения новой информации. Надеюсь, в итоге получится небольшой урок для начинающих.
Персональные блоги → Чем так интересны семантические сети
И их проблемы.
Два дня у меня чесались пальцы, очень хотелось выдать пост, на тему, которая всплыла на хабре при помощи yzh44yzh. Что делает yzh44 в своем проекте? Он реализует специфический способ навигации при помощи такого концепта как сеть (граф). Пока его сеть с семантической имеет не особо много общего. Самое главное, чего пока не хватает – это квалифицированных соединений, без которых сеть не может называться семантической. Именно квалифицированные соединения придают сети значение, и делают семантическую сеть (далее СС) как конструкцию интересной.
Два дня у меня чесались пальцы, очень хотелось выдать пост, на тему, которая всплыла на хабре при помощи yzh44yzh. Что делает yzh44 в своем проекте? Он реализует специфический способ навигации при помощи такого концепта как сеть (граф). Пока его сеть с семантической имеет не особо много общего. Самое главное, чего пока не хватает – это квалифицированных соединений, без которых сеть не может называться семантической. Именно квалифицированные соединения придают сети значение, и делают семантическую сеть (далее СС) как конструкцию интересной.
Я пиарюсь → Взгляд в будущее
Представлю блог, в котором я в популярной форме рассказываю о том интернете, который нас ждет. Главными темами являются Семантическая сеть, её проблемы, возможные области применения, работающие примеры и конкретные идеи использования возможных технологий.Я публикую обзоры зарубежной блогосферы на тему веб 3.0. В частности создателей технологии, таких как Джон Бреслин, Данни Эйрс и других. Осуществлю адаптации спецификации для большого круга читателей, пишу о семантизации популярной CMS - Wordpress.
Буду рад конструктивной критике. И прошу не придираться к слову "веб 3.0", по поводу того, что я понимаю под этим я уже сказал.
Семантическая Сеть → RDF for dummies
С этой статьи я начинаю совй цикл постов «для новичков» где максимально популярно растолкую понятия веб 3.0. В последствии все статьи перекочуют в вики и будут «изданы» мною в виде PDF книги.
Начнем со средств, и сегодня у нас основа основ — RDF.
Начнем со средств, и сегодня у нас основа основ — RDF.
Персональные блоги → Radar Networks выпускает социальный сервис на Семантической сети
Журнал Businessweek опубликовал статью об одном из стартапов, разрабатывающем системы на базе технологий Семантической сети. Речь идёт о калифорнийском стартапе Radar Networks.
Этим летом Radar Networks планирует начать закрытое бета-тестирование своей системы, а открытая бета появится осенью. По мнению специалистов, это событие должно привлечь внимание техноэлиты, потому что таких разработок в интернете ещё нет. Компания не раскрывает всех деталей, но известно, что веб-сервис будет использовать технологии Семантической сети для извлечения и классификации информации с веб-сайтов, блогов и социальных сервисов вроде Youtube. Встроенный движок искусственного интеллекта будет постоянно изучать поведение пользователей и подстраивать систему под их нужды, то есть самообучаться.
Этим летом Radar Networks планирует начать закрытое бета-тестирование своей системы, а открытая бета появится осенью. По мнению специалистов, это событие должно привлечь внимание техноэлиты, потому что таких разработок в интернете ещё нет. Компания не раскрывает всех деталей, но известно, что веб-сервис будет использовать технологии Семантической сети для извлечения и классификации информации с веб-сайтов, блогов и социальных сервисов вроде Youtube. Встроенный движок искусственного интеллекта будет постоянно изучать поведение пользователей и подстраивать систему под их нужды, то есть самообучаться.
Персональные блоги → Тим Бернерс-Ли опять рассказывает о Семантической сети
Изобретатель веба и директор W3C, как известно, уже много лет работает над созданием Семантической сети. И хотя разработки пока далеки от завершения, Тим Бернерс-Ли рисует потрясающие картины будущего, в котором компьютеры смогут общаться друг с другом и с людьми на одном языке.
Очередное интервью патриарха опубликовано в журнале BusinessWeek. Там вышел целый номер, посвящённый будущему интернета и Семантической сети, в том числе и подкаст об этом (mp3).
Тим Бернерс-Ли рассказывает, что цель их работы в консорциуме W3C — сделать Сеть гораздо умнее, чем она есть сейчас. Он также выразил сожаление, что в своё время выбрал для новой технологии название «Семантическая сеть» (Semantic Web), потому что более точным и простым стал бы термин «Сеть данных» (Data Web). Это уже не первый раз, когда Тим обжигается на терминах. Многие до сих пор не могут простить ему непроизносимой аббревиатуры «даблвэдаблвэдаблвэ».
Очередное интервью патриарха опубликовано в журнале BusinessWeek. Там вышел целый номер, посвящённый будущему интернета и Семантической сети, в том числе и подкаст об этом (mp3).
Тим Бернерс-Ли рассказывает, что цель их работы в консорциуме W3C — сделать Сеть гораздо умнее, чем она есть сейчас. Он также выразил сожаление, что в своё время выбрал для новой технологии название «Семантическая сеть» (Semantic Web), потому что более точным и простым стал бы термин «Сеть данных» (Data Web). Это уже не первый раз, когда Тим обжигается на терминах. Многие до сих пор не могут простить ему непроизносимой аббревиатуры «даблвэдаблвэдаблвэ».
Персональные блоги → Будущее Веб 2.0
Я был в Сингапуре на прошлой неделе с презентацией о Веб 2.0, а также помогал тамошнему правительственному агентству Infocomm Development Agency выработать стратегию развития сингапурских стартапов. Меня часто спрашивали о будущем Веб 2.0 — пузырь ли это, и когда на его место придет что-то другое? К счастью, в последнее время мы в O'Reilly Radar достаточно хорошо проработали эту тему, так что я смог ясно изложить перед ними картину будущего. Она выглядит примерно так…