Пользователь
0,0
рейтинг
30 мая 2014 в 11:10

Разработка → 250 миллионов международных событий в одном месте


Исследователь Кавел Литару, из Джордтаунского университета, собрал каталог из 250 миллионов событий произошедших в мире с 1979, который ежедневно обновляется и доступен каждому желающему кто хочет его изучить.

Каждая запись набора имеет 58 атрибутов. А сам набор делится на 300 различных категорий. На настоящий момент каталог имеет объем 100 Гб, а хостером является Goolge.

Чтобы провести анализ пользователь может скачать весь набор или интересующую его категорию, или же использовать Google BigQuery прямо на сайте.

База автоматически пополняется из многих источников новстей со всего мира. Все они обрабатываются с помощью различных алгоритмов text mining'a и геокодирования, созданными Литару, а затем заносятся в базу. Кроме того автор отмечает, что в связи с последними успехами в обработке естественных языков, в скором времени увеличится доля не англоязычных источников.

VIA GIGAOM
@kuznetsovin
карма
55,2
рейтинг 0,0
Реклама помогает поддерживать и развивать наши сервисы

Подробнее
Реклама

Самое читаемое Разработка

Комментарии (5)

  • +2
    Кроме того автор отмечает, что в связи с последними успехами в обработке естественных языков

    Интересно было бы узнать об этих последних успехах более подробно, много раз слышал подобные фразы, а конкретики не встречал.
    • +2
      Поддерживаю
  • +1
    Что за «text maning»? :) Поправьте очепяточку.
    • 0
      это текст maнит )
  • –2
    простите, а «из многих источников новстей со всего мира» подразумевает участие Киселева и Ко?

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.