Пользователь
57,4
рейтинг
26 августа 2014 в 13:15

Разработка → Поисковая система в АНБ содержит более 850 млрд записей

В рамках проекта The Intercept опубликована очередная порция документов, переданных Эдвардом Сноуденом в СМИ. Эти документы описывают поисковую систему ICReach, работающую в АНБ.



Поисковая система, как сказано в презентации, снабжена простым интерфейсом, похожим на Google. Она осуществляет полнотекстовый поиск по более 850 млрд записям с конфиденциальной информацией: это метаданные телефонных разговоров (вызываемые номера, время и место звонка), электронной почты (имена отправителя и получателя, время отправки) и интернет-чатов, факсов, координаты сотовых телефонов и др. (всего 30 видов данных).

Хотя система не индексирует непосредственно текст сообщений, а только метаданные, но это тоже очень ценная информация для разведки. Например, можно быстро составить список всех людей, которые звонили на определённый телефонный номер в течение года. Или составить список всех людей, кто был на определённой улице или площади с 20:00 по 21:00 и имел при себе мобильный телефон.

Ранее опубликованные документы от Сноудена рассказывали о множестве программ по массовому сбору информации, которые работают в АНБ. Теперь проясняется картина, каким образом обрабатывается эта информация и как другие агентства получают к ней доступ.

В служебной записке от 2010 года сказано, что интерфейс ICReach доступен для более чем 1000 аналитиков из 23 федеральных агентств.



В другой служебной записке от 2007 года сообщается, что систему ICReach начали разрабатывать в 2005 году и она значительно расширила возможности АНБ по обработке и анализу данных.

«Разработчики ICReach впервые обеспечили разведывательному сообществу США доступ к коммуникационным метаданным, — сказано в документе. — Разработка началась более двух лет назад с базовой концепции, призванной удовлетворить растущий спрос разведывательного сообщества на такие метаданные и [появившиеся] возможности АНБ по сбору, обработке и хранению больших объёмов коммуникационных метаданных, связанных с целями разведки по всему миру». Новый поисковик разработан на смену технологически устаревшим системам CRISSCROSS и PROTON, которые запустили в ЦРУ в 90-е гг.



Поисковая система разработана с расчётом на добавление до 5 миллиардов записей ежедневно (на практике индекс пополнялся на 1-2 млрд записей в сутки). Судя по всему, поисковая система индексировала содержимое нескольких баз данных, которые пополнялись независимо друг от друга в рамках различных программ перехвата коммуникаций, действующих в АНБ.

Пилотную версию ICReach запустили в 2007 году и она в 12 раз увеличила объём метаданных, которыми спецслужбы делились между собой.

Изначально предполагалось, что обслуживание поисковой системы обойдётся в сумму от $2,5 млн до $4,5 млн в год. Но в 2010 году планировалось сделать апгрейд системы, чтобы расширить индекс за пределы 850 млрд записей, так что бюджет мог увеличиться.
Анатолий Ализар @alizar
карма
751,5
рейтинг 57,4
Пользователь
Реклама помогает поддерживать и развивать наши сервисы

Подробнее
Спецпроект

Самое читаемое Разработка

Комментарии (29)

  • +8
    Ребята из АНБ серьезно подошли к вопросу
    • +9
      Да и ради Б-га, лишь бы это реально помогало оперативно реагировать на преступления. А не просто сидеть с пачкой попкорна и изучать кто что съел на завтрак, на какие сайты ходил и кому отправлял СМС.

      Однажды принимал участие в поиске человека. Ко мне обратились родственники как к компьютерщику, чтобы найти хоть какую то зацепку в его компьютере. Хоть и удалось получить доступ к профилю соцсети и логам мессенджера, ничего так и не нашел. Единственной возможностью оставалось искать по местонахождению сотового, но эту информацию оператор не раскрыл. Хотеолось выть от беспомощности. Полиция подключилась не раньше двух дней с момента пропажи. В общем, все закончилось печально.
      • +4
        Предполагается, что данными из этой системы полиция не владеет. Только АНБ. Так что назначение этой системы выглядит пугающе неопределенным.
        • +1
          В первую очередь эта база доступна ЦРУ. Какие у них задачи вроде все знают.
          • 0
            Хорошо, и какое адекватное назначение у этой системы?
      • 0
        Авторы 4-й поправки сейчас заплакали.
  • +4
    Вот так вот сказки из фильмов про хакеров, в пару нажатий узнающих всю информацию о человеке, вплоть до того, где он вчера обедал, становятся реальностью.
  • 0
    "… до 5 миллиардов записей ежедневно"
    с учетом некоторых «сакральных знаний» — это мало на самом деле…
  • +2
    Хорошая система, рад за них.
  • +2
    И не дорого, $2,5 млн до $4,5 млн в год…
    • +2
      Цифры подозрительно неправдоподобные. Зарплаты персонала (включая надбавки за секретность) должны быть как минимум на порядок больше — неужели эту базу 10 человек админят? Плюс железо что-то стоит, плюс электричество.
      • +4
        Вообще-то 5 человек и не надо подозрений: в документе все написано.
        • +4
          Five Eyes — это не пять человек, а сотрудничающие спецслужбы 5 стран: США, Канады, Новой Зеландии, Великобритании и Австралии. en.wikipedia.org/wiki/Five_Eyes
          The «Five Eyes», often abbreviated as «FVEY», refer to an intelligence alliance comprising Australia, Canada, New Zealand, the United Kingdom and the United States. These countries are bound by the multilateral UKUSA Agreement — a treaty for joint cooperation in signals intelligence.


          Edward S.:
          The Five Eyes alliance is sort of an artifact of the post World War II era where the Anglophone countries are the major powers banded together to sort of co-operate and share the costs of intelligence gathering infrastructure...The result of this was over decades and decades some sort of a supra-national intelligence organisation that doesn’t answer to the laws of its own countries.
          • +1
            Как много страшных слов, но с точки зрения базы данных это всего лишь информация и пользователи, а обслуживают ее ~5 человек за 600К руб./мес. Это если верить документу.
  • +26
    … снабжена простым интерфейсом, похожим на Google...

    А кнопка «Im feeling lucky» наносит точеный удар по наиболее подходящим, по мнению системы, координатам.
  • +21
    Я бы почитал пост от NSA на хабре про большие данные.
    • 0
      Лучше бложек по безопасности в гос. учреждениях, вот уж где передовой опыт не помешал бы.
      • +4
        FIPS — аналог нашего ГОСТ, там всё расписано, куча рекомендаций и требований, лежит открыто, NIST регулярно публикует всё, притом они умудряются довольно простым языком объяснять всё, так чтобы те кто не в теме по уши мог разобраться.
  • +1
    Разговоры, перемещения, почта на 400млн. человек за несколько лет, что-то записей как то мало, нет?
    • +5
      мужчины в среднем менее общительны, поэтому нормально. А из 400 можно вычесть заключенных, детей, людей без телефонов и пр.
      • 0
        Ну написано, что координаты передаются вне зависимости от того. разговаривает человек или нет.
        Т.е., возьмем для 200 млн. человек:
        1. Координаты человека (пусть только сильное изменение положения). Минимум 10 в день.
        2. Электронная почта — это ж получается все записи о всем спаме? Мне лично приходит от 10 до 100 писем в день — это после спам-защиты почтовых систем, а АНБ надо полагать + 80% спама еще разгребать?
        3. Интернет-чаты, это непонятно о чем речь — о мессенджерах видимо? Ну тут вообще некоторые тысячами сообщений обмениваются в день. Ну можно взять 10-100 в среднем.
        Еще какие-то 30 видов данных, даже если по 1 записи по каждому виду уже 6млрд. в день. Может что-то вроде аналитики, например, — куда заходил, на какой сайт — тоже немало.

        • 0
          Живут же люди, катаются, веселятся, читают письма, а у меня, например, за вчера был типовой маршрут, 1 телефонный звонок и 1 чат по xmpp. Люди разные, к тому же это данные за 2007 год.
  • +2
    Интересно посмотреть на ИТ инфраструктуру, которая смогла такое потянуть. Как БД организована.
  • +1
    Это очень круто в техническом плане, хотел бы я почитать, как у них там всё устроено. Да, и для предотвращения преступлений и терактов очень полезно, лишь бы не использовали для личных целей.
  • +1
    Очень не хватает ссылки на страничку поискового интерфейса :).
  • 0
    Хм, а оборудование системы сосредоточено в одном датацентре или разнесено территориально?
  • 0
    Поисковая система в АНБ содержит более 850 млрд записей


    <CheeV> интересно а моя даза банных содержит инфу по грибам…
    <CheeV> дата батных
    <CheeV> зада
    <CheeV> блин
    <CheeV> баща данных
    <CheeV> база данных
    <CheeV> во!
    * CheeV сходит попьёт чего-нить
    ©

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.