• Введение в Data Vault



      Большинство компаний сегодня накапливают различные данные, полученные в процессе работы. Часто данные приходят из различных источников — структурированные и не очень, иногда в режиме реального времени, а иногда они доступны в строго определенные периоды. Все это разнообразие нужно структурированно хранить, чтоб потом успешно анализировать, рисовать красивые отчеты и вовремя замечать аномалии. Для этих целей проектируется хранилище данных (Data Warehouse, DWH).

      Существует несколько подходов к построению такого универсального хранилища, которые помогают архитектору избежать распространенных проблем, а самое главное обеспечить должный уровень гибкости и расширяемости DWH. Об одном из таких подходов я и хочу рассказать.

      Кому будет интересна эта статья?


      • Ищете более функциональную альтернативу схеме «звезды» и Третьей Нормальной Форме?
      • У Вас уже есть хранилище данных, но его тяжело дорабатывать?
      • Нужна хорошая поддержка историчности, а текущая архитектура для этого не подходит?
      • Возникают проблемы при сборе данных из нескольких источников?

      Если на какой-либо из этих вопросов Вы ответили утвердительно, и при этом не знакомы с Data Vault — прошу заглянуть под кат!
      Читать дальше →
    • Amazon S3 и все-все-все: выбираем объектное хранилище

        Самые известные на мировом рынке объектные хранилища — это Amazon S3 (Simple Storage Service), Google Cloud Storage и Microsoft Blobs Storage. Они надежны, доступны через интернет и масштабируются до сотен петабайт. Наиболее популярный способ доступа к объектному хранилищу — S3 RESTful API от компании Amazon. Есть и альтернатива, OpenStack Swift — поддерживает оба API и даже имеет собственное (как у Microsoft или Google, например). Дополнительно предоставляется доступ по другим файловым и блочным протоколам вроде WebDAV, NFS и FTP, но в контексте этой статьи мы тестируем только доступ по протоколу HTTPS через разнообразные API.

        Для сравнения возьмем отечественные публичные объектные хранилища. Их не так много, и мы рассмотрим наиболее заметных игроков российского рынка: Mail.Ru Cloud Solutions, servers.ru, Selectel, Техносерв и Ростелеком.
        Читать дальше →
        • +29
        • 5,9k
        • 9
      • Блокчейн: организация сети, проверка подписи и задание для студента, часть 2

          Предисловие


          В первой части было рассказано про возможности блокчейна, структуру и ЭЦП, в этой части будет рассказано про: проверку подписи, майнинг и примерную организацию сети. Отмечу, что не являюсь специалистом по распределенным системам (организация сети может быть неверной).

          Одноранговая сеть (P2P)


          Одноранговая (равноправная) сеть – это сеть, основанная на равноправии участников. Часто в такой сети отсутствуют выделенные серверы, а каждый узел (peer) является как клиентом, так и выполняет функции сервера. В отличие от архитектуры клиент-сервера, такая организация позволяет сохранять работоспособность сети при любом количестве и любом сочетании доступных узлов. Участники сети называются пиры.
          Читать дальше →
        • Блокчейн: возможности, структура, ЭЦП и задание для студента, часть 1

            Предисловие


            Работаю ассистентом в вузе (как хобби), решил написать несколько лабораторных для студентов по дисциплине «распределенные системы». В первой части будет рассказано про возможности блокчейна, структуру и ЭЦП, а во второй части про: проверку подписи, майнинг и примерную организацию сети. Отмечу, что не являюсь специалистом по распределенным системам (организация сети может быть неверной).
            Читать дальше →
          • Резервное копирование с Software-defined Storage и Erasure Coding – стоит ли игра свеч?

              По мере роста активности программ-вымогателей, таких как Petya или BadRabbit, а также в связи с ужесточением требований законодательства (например, как раз вступившим в силу №187-ФЗ «О защите критической информационной инфраструктуры») объемы данных для резервного копирования постоянно увеличиваются. В результате растет стоимость инфраструктуры хранения резервных копий. Такие технологии как Erasure Coding могут кардинально снизить затраты на их хранение. Сегодня мы расскажем насколько именно и о том, как построить Backup на базе Erasure Coding.

              image
              Читать дальше →
            • Data Modeling Zone EU 2017

              В самом начале нового рабочего года — несколько слов об одном из событий года прошедшего.

              Введение


              Data Modeling Zone — франшиза, которая объединяет конференции по вопросам построения логической архитектуры баз данных. Последние несколько лет проводилась в США и Европе, а в этом году впервые пройдет в Австралии. В 2017 году под брендом DMZ было организовано два форума, оба прошли осенью: 16—18 октября — в Хартфорде, США, а 23—25 октября — в немецком Дюссельдорфе. Мне довелось принять участие в роли слушателя в последней из них. В этой статье представлен краткий обзор презентаций, которые я увидел на конференции, и мои впечатления о ней в целом.

              Название конференции недвусмысленно намекает, что ключевой вопрос — разные аспекты построения модели данных. Большинство анонсированных тем связаны с хранилищами данных, но были и актуальные для любой информационной системы. Мои ожидания были противоречивыми: с одной стороны, в числе выступающих — признанные лидеры сообщества, с другой — обилие часовых презентаций, не предусматривающих глубокого рассмотрения вопросов.

              Основная программа была представлена пятью треками:

              • Foundational Data Modeling
              • Agile and Requirements
              • Big Data and Architecture
              • Hands-On and Case Studies
              • Advanced Data Modeling
              каждый из которых был поделен на 11 временных слотов в течение двух дней. Временная нарезка у всех пяти треков была общая, что позволило комбинировать презентации из разных блоков.

              1-й день


              Регистрация


              Вместе с бейджем участникам выдавался набор наклеек. С их помощью владелец бейджа мог указать языки, на которых говорит, и выбрать одну или несколько профессиональных ролей. Идея оригинальная и занятная, но бесполезная.

              image

              Читать дальше →
            • AdBlock похитил этот баннер, но баннеры не зубы — отрастут

              Подробнее
              Реклама
            • Apache Ignite vs Oracle СУБД

              Apache Ignite – распределенная база данных в памяти, подобные БД получают распространение и хочется сравнить с тем что уже есть и зарекомендовало себя, например реляционная СУБД Oracle. Ignite имеет широкие возможности распределенных вычислений, также есть поддержка SQL на уровне ANSI-99, в производительности SQL и хочется сделать некоторое сравнение. Настройка БД будет в обоих случаях во многом по умолчанию, в случае Oracle это XE, а в случае Ignite это два узла(node) на одном компьютере. Компьютер i5 7400 (4-ядра) 3.5Ггц, 8Гб ОЗУ, SSD диск.
              В качестве тестовых данных буду использовать данные КЛАДР (~223 тыс. записей) в качестве среды выполнения запросов DBeaver в котором настроены два подключения к Ignite и Oracle. И первое что сделаю импортирую данные в таблицы, Данные КЛАДР из DBF переведу в CSV, а затем средствами DBeaver выполню импорт в таблицы.
              Читать дальше →
            • Вышел первый набор «сетевых» программных ботов от Juniper Networks

                Современные корпоративные сети часто охватывают несколько облачных сервисов. Чтобы упростить работу с сетями, компании прибегают к методам программной автоматизации.

                Однако для создания такого ПО требуются квалифицированные разработчики, которых, согласно недавнему опросу среди клиентов и партнеров Juniper Networks, не хватает 43% компаний.

                Поэтому Juniper представили набор программных ботов, которые позволят автоматизировать работу по обслуживанию сетей. Подробнее об этом — под катом.

                Читать дальше →
              • Третья космическая скорость для MS SQL Server



                  В сентябре компания DataCore представила новую линейку продуктов MaxParallel и первый продукт из серии — MaxParallel for SQL Server. MaxParallel делает простую вещь – ускоряет работу базы данных MS SQL, не требуя для этого никаких изменений самой базы (ее оптимизации и тп.) или аппаратной части (увеличения числа процессоров, памяти и тп.).

                  В чем идея: практически все современные сервер БД являются многоядерными, и приложения с успехом используют эти ядра для параллелизации вычислений. Но процесс ввода-вывода остается последовательным и использует одно процессорное ядро. И если заставить планировщик ввода-вывода использовать больше процессорных ресурсов, БД будет работать быстрее. По крайней мере, сможет работать быстрее. Уникальность MaxParallel состоит не только в том, что она ускоряет БД без серьезного вмешательства, но также в том, что она устраняет «узкое место», которое по-другому не устранить.
                  Читать дальше →
                • Накопители WD Red — сбалансированное решение для использования в составе малых и средних NAS

                    Согласно подсчетам аналитиков компании IBM, 90% всей информации, хранящейся в настоящее время в цифровом виде, было создано только за последние два года и каждый день ее объем увеличивается еще на 2,5 квинтиллиона байт. Размеры баз данных растут экспоненциально, и удивляться тут совершенно нечему: в современном мире информация имеет стратегически важное значение для любого бизнеса, независимо от сферы деятельности. Но возникает и другая проблема: чем больше данные, которыми вы оперируете, тем больше ресурсов вам потребуется для их обработки и хранения, а также для обслуживания корпоративного ЦОДа. И как быть в такой ситуации малым предприятиям, где буквально каждая копейка на счету?
                    Читать дальше →
                  Самое читаемое