Articles / Bookmarks / Profile of atelenga / Habr

How to become an author

Александр Теленьга @atelenga

Офицер информационной безопасности

Profile Publications 2Comments 78Bookmarks 78

GlebRyaskin Dec 26 2019 at 15:08

3. Elastic stack: анализ security логов. Дашборды

6 min

9.8K

Information Security*System administration*IT Infrastructure*Big Data*TS Solution corporate blog

В прошлых статьях мы немного ознакомились со стеком elk и настройкой конфигурационного файла Logstash для парсера логов, в данной статье перейдем к самому важному с точки зрения аналитики, то что вы хотите увидеть от системы и ради чего все создавалось — это графики и таблицы объединенные в дашборды. Сегодня мы поближе ознакомимся с системой визуализации Kibana, рассмотрим как создавать графики, таблицы, и в результате построим простенький дашборд на основе логов с межсетевого экрана Check Point.

Читать дальше →

+12

GlebRyaskin Dec 26 2019 at 09:47

2. Elastic stack: анализ security логов. Logstash

7 min

20K

Information Security*System administration*IT Infrastructure*Big Data*TS Solution corporate blog

В прошлой статье мы познакомились со стеком ELK, из каких программных продуктов он состоит. И первая задача с которой сталкивается инженер при работе с ELK стеком это отправление логов для хранения в elasticsearch для последующего анализа. Однако, это просто лишь на словах, elasticsearch хранит логи в виде документов с определенными полями и значениями, а значит инженер должен используя различные инструменты распарсить сообщение, которое отправляется с конечных систем. Сделать это можно несколькими способами — самому написать программу, которая по API будет добавлять документы в базу либо использовать уже готовые решения. В рамках данного курса мы будем рассматривать решение Logstash, которое является частью ELK stack. Мы посмотрим как можно отправить логи с конечных систем в Logstash, а затем будем настраивать конфигурационный файл для парсинга и перенаправления в базу данных Elasticsearch. Для этого в качестве входящей системы берем логи с межсетевого экрана Check Point.

Читать дальше →

+10

Arseny_Info Apr 3 2017 at 14:07

Открытый курс машинного обучения. Тема 6. Построение и отбор признаков

24 min

183K

Python*Data Mining*Algorithms*Machine learning*Open Data Science corporate blog

Сообщество Open Data Science приветствует участников курса!

В рамках курса мы уже познакомились с несколькими ключевыми алгоритмами машинного обучения. Однако перед тем как переходить к более навороченным алгоритмам и подходам, хочется сделать шаг в сторону и поговорить о подготовке данных для обучения модели. Известный принцип garbage in – garbage out на 100% применим к любой задаче машинного обучения; любой опытный аналитик может вспомнить примеры из практики, когда простая модель, обученная на качественно подготовленных данных, показала себя лучше хитроумного ансамбля, построенного на недостаточно чистых данных.

UPD 01.2022: С февраля 2022 г. ML-курс ODS на русском возрождается под руководством Петра Ермакова couatl. Для русскоязычной аудитории это предпочтительный вариант (c этими статьями на Хабре – в подкрепление), англоговорящим рекомендуется mlcourse.ai в режиме самостоятельного прохождения.

Читать дальше →

+52

vradchenko Mar 27 2017 at 14:28

Открытый курс машинного обучения. Тема 5. Композиции: бэггинг, случайный лес

28 min

262K

Python*Algorithms*Mathematics*Machine learning*Open Data Science corporate blog

Пятую статью курса мы посвятим простым методам композиции: бэггингу и случайному лесу. Вы узнаете, как можно получить распределение среднего по генеральной совокупности, если у нас есть информация только о небольшой ее части; посмотрим, как с помощью композиции алгоритмов уменьшить дисперсию и таким образом улучшить точность модели; разберём, что такое случайный лес, какие его параметры нужно «подкручивать» и как найти самый важный признак. Сконцентрируемся на практике, добавив «щепотку» математики.

UPD 01.2022: С февраля 2022 г. ML-курс ODS на русском возрождается под руководством Петра Ермакова couatl. Для русскоязычной аудитории это предпочтительный вариант (c этими статьями на Хабре – в подкрепление), англоговорящим рекомендуется mlcourse.ai в режиме самостоятельного прохождения.

Видеозапись лекции по мотивам этой статьи в рамках второго запуска открытого курса (сентябрь-ноябрь 2017).

Список статей серии

Читать дальше →

+54

salium Oct 11 2011 at 01:37

Еще раз про IP-адреса, маски подсетей и вообще

7 min

1.5M

System administration*

Чуточку ликбеза. Навеяно предшествующими копипастами разной чепухи на данную тему. Уж простите, носинг персонал.

IP-адрес (v4) состоит из 32-бит. Любой уважающий себя админ, да и вообще айтишник (про сетевых инженеров молчу) должен уметь, будучи разбуженным среди ночи или находясь в состоянии сильного алкогольного опьянения, правильно отвечать на вопрос «из скольки бит состоит IP-адрес». Желательно вообще-то и про IPv6 тоже: 128 бит.

Обстоятельство первое. Всего теоретически IPv4-адресов может быть:
2³² = 2¹⁰*2¹⁰*2¹⁰*2² = 1024*1024*1024*4 ≈ 1000*1000*1000*4 = 4 млрд.
Ниже мы увидим, что довольно много из них «съедается» под всякую фигню.

Записывают IPv4-адрес, думаю, все знают, как. Четыре октета (то же, что байта, но если вы хотите блеснуть, то говорите «октет» — сразу сойдете за своего) в десятичном представлении без начальных нулей, разделенные точками: «192.168.11.10».

В заголовке IP-пакета есть поля source IP и destination IP: адреса источника (кто посылает) и назначения (кому). Как на почтовом конверте. Внутри пакетов у IP-адресов нет никаких масок. Разделителей между октетами тоже нет. Просто 32-бита на адрес назначения и еще 32 на адрес источника.

Читать дальше →

+236

yorko Mar 20 2017 at 19:38

Открытый курс машинного обучения. Тема 4. Линейные модели классификации и регрессии

30 min

517K

Python*Algorithms*Mathematics*Machine learning*Open Data Science corporate blog

Всем привет!

Сегодня мы детально обсудим очень важный класс моделей машинного обучения – линейных. Ключевое отличие нашей подачи материала от аналогичной в курсах эконометрики и статистики – это акцент на практическом применении линейных моделей в реальных задачах (хотя и математики тоже будет немало).

Пример такой задачи – это соревнование Kaggle Inclass по идентификации пользователя в Интернете по его последовательности переходов по сайтам.

UPD 01.2022: С февраля 2022 г. ML-курс ODS на русском возрождается под руководством Петра Ермакова couatl. Для русскоязычной аудитории это предпочтительный вариант (c этими статьями на Хабре – в подкрепление), англоговорящим рекомендуется mlcourse.ai в режиме самостоятельного прохождения.

Все материалы доступны на GitHub.
А вот видеозапись лекции по мотивам этой статьи в рамках второго запуска открытого курса (сентябрь-ноябрь 2017). В ней, в частности, рассмотрены два бенчмарка соревнования, полученные с помощью логистической регрессии.

Читать дальше →

+50

yorko Mar 13 2017 at 14:03

Открытый курс машинного обучения. Тема 3. Классификация, деревья решений и метод ближайших соседей

33 min

496K

Python*Data Mining*Algorithms*Machine learning*Open Data Science corporate blog

Привет всем, кто проходит курс машинного обучения на Хабре!

В первых двух частях (1, 2) мы попрактиковались в первичном анализе данных с Pandas и в построении картинок, позволяющих делать выводы по данным. Сегодня наконец перейдем к машинному обучению. Поговорим о задачах машинного обучения и рассмотрим 2 простых подхода – деревья решений и метод ближайших соседей. Также обсудим, как с помощью кросс-валидации выбирать модель для конкретных данных.

UPD 01.2022: С февраля 2022 г. ML-курс ODS на русском возрождается под руководством Петра Ермакова couatl. Для русскоязычной аудитории это предпочтительный вариант (c этими статьями на Хабре – в подкрепление), англоговорящим рекомендуется mlcourse.ai в режиме самостоятельного прохождения.

Читать дальше →

+61

miptgirl Mar 6 2017 at 15:58

Открытый курс машинного обучения. Тема 2: Визуализация данных c Python

15 min

415K

Python*Data Mining*Data visualization*Machine learning*Open Data Science corporate blog

Второе занятие посвящено визуализации данных в Python. Сначала мы посмотрим на основные методы библиотек Seaborn и Plotly, затем поанализируем знакомый нам по первой статье набор данных по оттоку клиентов телеком-оператора и подглядим в n-мерное пространство с помощью алгоритма t-SNE. Есть и видеозапись лекции по мотивам этой статьи в рамках второго запуска открытого курса (сентябрь-ноябрь 2017).

UPD 01.2022: С февраля 2022 г. ML-курс ODS на русском возрождается под руководством Петра Ермакова couatl. Для русскоязычной аудитории это предпочтительный вариант (c этими статьями на Хабре – в подкрепление), англоговорящим рекомендуется mlcourse.ai в режиме самостоятельного прохождения.

Сейчас статья уже будет существенно длиннее. Готовы? Поехали!

Читать дальше →

+52

cotique Feb 28 2017 at 12:45

Открытый курс машинного обучения. Тема 1. Первичный анализ данных с Pandas

Easy

15 min

1M

Python*Data Mining*Data visualization*Machine learning*Open Data Science corporate blog

Tutorial

Открытый курс машинного обучения mlcourse.ai сообщества OpenDataScience – это сбалансированный по теории и практике курс, дающий как знания, так и навыки (необходимые, но не достаточные) машинного обучения уровня Junior Data Scientist. Нечасто встретите и подробное описание математики, стоящей за используемыми алгоритмами, и соревнования Kaggle Inclass, и примеры бизнес-применения машинного обучения в одном курсе. С 2017 по 2019 годы Юрий Кашницкий yorko и большая команда ODS проводили живые запуски курса дважды в год – с домашними заданиями, соревнованиями и общим рейтингом учаcтников (имена героев запечатлены тут). Сейчас курс в режиме самостоятельного прохождения.

Читать дальше →

+42

heathen Feb 27 2017 at 09:09

Elixir и Angular 2 безо всяких Hello, world!, или Реализуем работу с древовидным справочником, часть 1

64 min

11K

Website development*Programming*Erlang/OTP*Functional Programming*Elixir/Phoenix*

Tutorial

КПДВ

Функциональный язык программирования Elixir набирает популярность, а один из последних фреймворков для создания одностраничных приложений — Angular 2 — недавно вышел в релиз. Давайте познакомимся с ними в паре статей, создав с нуля полноценный back-end на Elixir и Phoenix Framework, снабжающий данными клиентское приложение-frontend на базе Angular 2.

Hello, world — не наш вариант, поэтому сделанное при необходимости можно будет применить в реальных проектах: весь представленный код выложен под лицензией MIT.

Объем статьи ~~большой~~ огромный! Надеюсь на столь же огромное количество комментариев — любых. Не раз замечал, что из комментариев получаешь не меньше, чем от основной статьи, а иногда и больше.

В первой статье будет несколько вступительных слов и работа над back-end. Поехали!

Читать дальше →

+23

Alf162 Feb 20 2017 at 10:19

Обзор материалов по машинному обучению (13 — 20 февраля 2017 года)

3 min

9K

Mathematics*Machine learning*

Представляю вашему вниманию подборку материалов по машинному обучению и анализу данных за прошедшую неделю, которые показались мне интересными.

События предстоящей недели

1.

Deep Learning: Now and Future of Robotics. Skolkovo-Skoltech-NVIDIA workshop. 21 февраля.
2.

Data Science кейс-клуб. 21 февраля.
3.

Data science завтрак. 22 февраля.
4.

Тренировка по машинному обучению. 25 февраля.

Учебные курсы, конференции

1.

Онлайн-курс «Введение в обработку естественного языка» с середины марта на stepik. Страница прошлого года.
2.

Перезапуск курса «Neural Networks for Machine Learning» G.Hinton.
3.

Видео с конференции TensorFlow Developer Summit.
4.

Видео с конференции DataFest. Часть 1. Часть 2. Часть 3. Часть 4.
5.

Семинар Practical Machine Learning от Яндекса (видео). Тема: чат-боты. Запись ноябрьская, но попалась недавно.

Читать дальше →

+19

mephistopheies Feb 20 2017 at 16:01

Базовые принципы машинного обучения на примере линейной регрессии

20 min

178K

Python*Algorithms*Mathematics*Machine learning*Open Data Science corporate blog

Здравствуйте, коллеги! Это блог открытой русскоговорящей дата саентологической ложи. Нас уже легион, точнее 2500+ человек в слаке. За полтора года мы нагенерили 800к+ сообщений (ради этого слак выделил нам корпоративный аккаунт). Наши люди есть везде и, может, даже в вашей организации. Если вы интересуетесь машинным обучением, но по каким-то причинам не знаете про Open Data Science, то возможно вы в курсе мероприятий, которые организовывает сообщество. Самым масштабным из них является DataFest, который проходил недавно в офисе Mail.Ru Group, за два дня его посетило 1700 человек. Мы растем, наши ложи открываются в городах России, а также в Нью-Йорке, Дубае и даже во Львове, да, мы не воюем, а иногда даже и употребляем горячительные напитки вместе. И да, мы некоммерческая организация, наша цель — просвещение. Мы делаем все ради искусства. (пс: на фотографии вы можете наблюдать заседание ложи в одном из тайных храмов в Москве).

Мне выпала честь сделать первый пост, и я, пожалуй, отклонюсь от своей привычной нейросетевой тематики и сделаю пост о базовых понятиях машинного обучения на примере одной из самых простых и самых полезных моделей — линейной регрессии. Я буду использовать язык питон для демонстрации экспериментов и отрисовки графиков, все это вы с легкостью сможете повторить на своем компьютере. Поехали.

Читать дальше →

+75

kmike Jan 18 2009 at 07:21

Кузявые ли бутявки, т.е. пишем морфологический анализатор на Python

8 min

54K

Морфологический анализатор для русского языка — это что-то заумное? Программа, которая приводит слово к начальной форме, определяет падеж, находит словоформы — непонятно, как и подступиться? А на самом деле все не так и сложно. В статье — как я писал аналог mystem, lemmatizer и phpmorphy на Python, и что из этого получилось.

Читать дальше →

+103

GH0st3rs Jan 13 2017 at 16:04

Exploit Exercises или ещё один сайт для любителей VulnHub

20 min

14K

Information Security*Algorithms*Development for Linux*CTF*

Tutorial

Всем доброго времени суток, спасибо, что читаете мои райтапы. Сегодня речь пойдёт ещё об одном сайте, который похож на VulnHub. Это Exploit Exercises. Несмотря на небольшое количество виртуалок, и их относительно давнюю публикацию, почерпнуть что-то новое можно и там. Тем более это компенсируется разнообразием и количеством уровней.

Начать предлагается с виртуальной машины под названием Nebula. Её мы сегодня и разберём.

Читать дальше →

+17

GH0st3rs Jan 9 2017 at 01:47

VulnHub: Слепая эксплуатация и Брайнфак в DC416 Basement

11 min

7.8K

Information Security*Brainfuck*Reverse engineering*CTF*

Tutorial

Продолжаем разбор CTF с конференции DefCon Toronto's. Задания предоставлены командой VulnHub, за что им огромное спасибо. А мы рассмотрим DC416 Basement.
Ниже, вы можете ознакомиться с предыдущим райтапом:

DC416 Dick Dastardly

Читать дальше →

+11

GH0st3rs Dec 24 2016 at 19:23

VulnHub: Разбор DC416 Dick Dastardly

3 min

5.1K

Information Security*CTF*

Tutorial

Команда VulnHub подготовила целую серию квестов, с конференции DefCon Toronto's, скачать и опробовать которые вы можете по ссылке.

А в этой статье будет разбор DC416 Dick Dastardly

Читать дальше →

+7

GH0st3rs Jan 10 2017 at 13:33

VulnHub: Разбираем самый короткий квест DC416 Fortress

7 min

4.7K

Information Security*CTF*

Tutorial

Продолжаем разбор CTF с конференции DefCon Toronto's. Задания предоставлены командой VulnHub, за что им огромное спасибо. На этот раз остановимся на небольшом DC416 Fortress, тут всего 3 флага. Так что будет не сложно.

Ниже, вы можете ознакомиться с предыдущими разборами:

Читать дальше →

+11

mtivkov Jan 9 2017 at 15:28

Биологические предпосылки деградации компаний

25 min

90K

Start-up developmentPersonnel Management*IT careerBusiness Models*

Современные научные представления говорят о существовании у процессов функционирования человеческого мозга определенных особенностей, которые:

на личном уровне подталкивают к прокастинации;
в стартапе по мере его успеха и роста приводят к потере прежней творческой «внутренней атмосферы» и нарастанию бюрократии;
в больших компаниях приводят к «иерархическому регрессу».

Благодаря этим особенностям мышления человека, среднее время нормальной жизни коммерческих компаний составляет 15 лет, а изначальные «Империи добра», типа Гугл и Яндекс, неумолимо со временем приобретают черты «Империй зла».

Некоторые компании сопротивляются этому, а некоторые даже и не понимают, почему приходит в упадок их внутренняя корпоративная культура. Почему попытки привить хорошие и правильные принципы и практики организации бизнеса не дают ожидаемых результатов…

Читать дальше →

+76

Сбер corporate blog December 29 2016

DS, ML и люди, которые этим занимаются. Взгляд Сбербанка

Через банк проходят сотни миллионов транзакций ежедневно, поэтому на серверах накапливаются большие данные: сведения о самих клиентах, паттерны их покупок, требования в целом. По сути, банки превращаются в IT-компании так, как это произошло с телеком-операторами. Они предоставляют все больше цифровых сервисов и услуг, а собираемые ими данные и извлекаемая из них информация активно используются в создании новых сервисов. Применить эту информацию можно в множестве приложений, от классических задач оптимизации обработки транзакций и кибербезопасности с выявлением мошенничества, вплоть до создания персональных финансовых ассистентов и сверх-таргетированного маркетинга.

Читать дальше

+32

Mariakozlova Nov 15 2016 at 12:38

23 бесплатных инструмента расследования инцидентов для специалиста по информационной безопасности

5 min

80K

System administration*Antivirus protection*Network technologies*Data recovery*HOSTING.cafe corporate blog

Recovery Mode

Translation

Утечки данных происходят почти каждый день. Согласно индексу утечки данных, с 2013 года более 4,762,376,960 записей было утеряно или украдено.

Читать дальше →

+35

1