• Графематический модуль. Выделение предложений

      Выделение предложений из сплошного текста – процедура необходимая для дальнейшего анализа текста в любой системе анализа естественных языков.

      Что такое предложение?


      Первый ответ на этот вопрос – это что-то, заканчивающееся на символы «.», «!», или «?». Но если рассмотреть встречающиеся тексты более внимательно, то можно обнаружить, что «.» используется не только для определения конца предложения, но и для аббревиатур и сокращений, а иногда выполняет обе эти роли. Вне зависимости от этого точка в 90% случаев является индикатором конца предложения (Riley 1989).
      Читать дальше →
    • Битва мобильных браузеров: какой из телефонов дает настоящий интернет?

      • Перевод

      grades

      Еще несколько лет назад мобильный интернет на телефоне мог вызвать только желание убить себя. Да и надо было быть большим фанатом, чтобы в непонятной серой какашке на крошечном экране разглядеть тот самый, заветный «Интернет»!
      Но развитие мобильных технологий и расширение мобильных частот позволяют говорить о том, что все больше телефонов могут дать нам настоящий интернет, во всех его красках.
      В данном обзоре мы протестировали восемь распространенных мобильных браузеров. Часть из них вызвала у нас только улыбку, другая показала, что корректного отображения HTML еще не достаточно для полной ощущения интернета.
      Ну и что же можно сказать про противостояние 3G против Wi-Fi? Все, что говорят производители — это ложь! Здесь все решает мобильный веб!

      Читать дальше →
    • База IP мобильных операторов

        Немного о том, кому и зачем?


        Тем, кто работает в сфере мобильного интернета, часто бывает необходима база диапазонов IP мобильных операторов.
        Так уж сложилось, что в бесплатном доступе эту информацию найти не так легко.
        Тем, кому достаточно разбиения по странам, как вариант, можно использовать базу maxmind. Там есть и бесплатный вариант. Но именно мобильные сети там охвачены плохо.

        В общем к сути.


        Сайт проконтент собирает под своим крылом базу мобильных айпи и выкладывает вот здесь: www.procontent.ru/dev/gateway-ips.html
        Но попробуйте кто то применить ее для дела и тут сразу же все неудобства всплывают. Нету четкого разбиения по странам, а страна и не для всех диапазонов указана, нету экспорта хоть в какой нибудь пригодный для нормальной обработки формат.
        Так вот был написан парсер, который «причешет» этот неудобный набор и даст в правильном виде.
        Брать можно тут:
        wapobzor.ru/3dparty/procontent_ips.php — csv версия
        wapobzor.ru/3dparty/procontent_ips.php?long — csv, но ip в числовом виде
        wapobzor.ru/3dparty/procontent_ips.php?php_array — в виде массива, что бы скопировать в скрипт сразу.
        wapobzor.ru/3dparty/procontent_ips.php?php_array&long — аналогично
        www.logofon.ru/xml/ips.xml — еще один вариант предложенный Nc_Soft

        Если кому то пригодится — буду рад.
        Спасибо за внимание =)

        UPD: перенес в тематический блог, спасибо за подкинутую карму :-)
        UPD2: добавил еще два варианта вывода.
        UPD3: еще вариант базы с другого источника.
      • Где погрызть гранит науки

          image Здравствуй, хабрасообщество. Я знаю, ты любишь халяву. А еще ты любишь учиться. Ведь так? А что может быть лучше для хабравчанина бесплатного образования? Вот и решил собрать специально для тебя подборку из ссылок, где можно набраться уму-разуму в области IT.
          Все нижеперечисленные ресурсы абсолютно и официально бесплатны и свободны, что не может не радовать.

          UPD. Переранжировал сайты. В категорию «Компьютерные науки» попали те сайты, которые можно внести более, чем в одну из нижеперечисленных категорий. Ранжировка производилась по большинству содержимого, то есть в некоторых сайтах, отнесенных к определенной категории, могут попадаться статьи не относящиеся к определенной, но они будут составлять абсолютное меньшинство

          Большое спасибо в помощи добавлении ресурсов vansickle, RedFox, kagen, theinterman, sM1Le.

          Англоязычные ресурсы



          Компьютерные науки



          OpenCourseWare MIT




          Одно из самых больших хранилищ учебных курсов. Здесь собраны практически все курсы, которые преподаются в Massachusets Institute of Technology, который по праву считается одним из лучших в мире. На сайте всего 1900 курсов, а тех, которые преподаются на факультете Electrical Engineering and Computer Science я насчитал более 200. Состав большинства курсов: краткие конспекты лекций, подробное описание курса, календарный план, задания на лабораторные работы, задания на курсовые проекты и экзамены, промежуточные модули. К некоторым курсам прилагаются и видеолекции.

          смотреть другие сайты