20 февраля в 19:20

Книга «Основы Data Science и Big Data. Python и наука о данных»

imageData Science — это совокупность понятий и методов, позволяющих придать смысл и понятный вид огромным объемам данных.

Каждая из глав этой книги посвящена одному из самых интересных аспектов анализа и обработки данных. Вы начнете с теоретических основ, затем перейдете к алгоритмам машинного обучения, работе с огромными массивами данных, NoSQL, потоковым данным, глубокому анализу текстов и визуализации информации. В многочисленных практических примерах использованы сценарии Python.

Обработка и анализ данных — одна из самых горячих областей IT, где постоянно требуются разработчики, которым по плечу проекты любого уровня, от социальных сетей до обучаемых систем. Надеемся, книга станет отправной точкой для вашего путешествия в увлекательный мир Data Science.


Анализировать данные умеют все люди. Способность нашего мозга видеть взаимосвязи, приходить к выводам на основании фактов и учиться на опыте — вот что делает человека человеком. Выживание человека в большей степени, чем любого другого биологического вида на планете, зависит от мозга; человечество сделало максимальную ставку на эту особенность, чтобы занять свое место в природе. Пока эта стратегия работает, и вряд ли мы захотим ее поменять в ближайшем будущем.

Однако в том, что касается тривиальной обработки чисел, возможности нашего мозга ограниченны. Он не справляется с объемом данных, который мы в состоянии воспринять за один раз, и с нашей любознательностью. По этой причине мы доверяем машинам часть своей работы: выявление закономерностей, формирование связей и получение ответов на многочисленные вопросы.

Стремление к знаниям заложено в наших генах. Применение компьютеров для выполнения части работы в наши гены не заложено, но без них не обойтись.

Структура книги


В главах 1 и 2 приводятся общие теоретические основы, необходимые для понимания других глав книги:

— Глава 1 знакомит читателя с data science и большими данными. Она завершается практическим примером Hadoop.
— Глава 2 посвящена процессу data science. В ней описаны шаги, присутствующие почти в каждом проекте data science.

В главах 3–5 описано применение принципов машинного обучения к наборам данных постепенно увеличивающихся размеров:

— В главе 3 рассматриваются относительно небольшие данные, легко помещающиеся в памяти среднего компьютера.
— В главе 4 задача усложняется: в ней рассматриваются «большие данные», которые могут храниться на вашем компьютере, но не помещаются в памяти, вследствие чего обработка таких данных без вычислительного кластера создает проблемы.
— В главе 5 мы наконец-то добираемся до настоящих больших данных, с которыми невозможно работать без многих компьютеров.

В главах 6–9 рассматриваются некоторые интересные вопросы data science, более или менее независимые друг от друга:

— В главе 6 рассматривается архитектура NoSQL и ее отличие от реляционных баз данных.
— В главе 7 data science применяется к потоковым данным. Здесь основная проблема связана не с размером, а со скоростью генерирования данных и потерей актуальности старых данных.
— Глава 8 посвящена глубокому анализу текста. Не все данные существуют в числовой форме. Глубокий анализ и аналитика текста начинают играть важную роль в текстовых форматах: электронной почте, блогах, контенте веб-сайтов и т. д.
— В главе 9 основное внимание уделяется последней части процесса data science (визуализации данных и построению прототипа приложения), для чего мы рассмотрим ряд полезных инструментов HTML5.

В приложениях А–Г рассматриваются процедуры установки и настройки систем Elasticsearch, Neo4j и MySQL, упоминаемых в главах книги, а также Anaconda — программного пакета Python, чрезвычайно полезного в data science.

Для кого написана эта книга


Эта книга знакомит читателя с областью data science. Опытные специалисты data science поймут, что по некоторым темам материал изложен в лучшем случае поверхностно. Другим читателям сообщим, что для извлечения максимальной пользы из книги потребуются некоторые предварительные условия: чтобы браться за практические примеры, желательно обладать хотя бы минимальными познаниями в SQL, Python, HTML5 и статистике или машинном обучении.

Об авторах


image Дэви Силен — опытный предприниматель, автор книг и профессор. Вместе с Арно и Мо он является совладельцем Optimately и Maiton — двух компаний data science, базирующихся в Бельгии и Великобритании соответственно, а также одним из совладельцев еще одной компании data science в Сомалиленде. Все эти компании специализируются на стратегической обработке «больших данных»; многие крупные компании время от времени обращаются к ним за консультациями. Дэви является внештатным преподавателем школы менеджмента IESEG в Лилле (Франция), где он преподает и участвует в исследованиях в области теории «больших данных».
image Мохамед Али — предприниматель и консультант в области data science. Вместе с Арно и Мо он является совладельцем Optimately и Maiton — двух компаний data science, базирующихся в Бельгии и Великобритании соответственно. Его увлечения лежат в двух областях: data science и экологически рациональные проекты. Последнее направление воплотилось в создании третьей компании, базирующейся в Сомалиленде.
image Арно Мейсман — целеустремленный предприниматель и специалист data science. Вместе с Дэви и Мо он является совладельцем Optimately и Maiton — двух компаний data science, базирующихся в Бельгии и Великобритании соответственно, а также одним из совладельцев еще одной компании data science в Сомалиленде. Все эти компании специализируются на стратегической обработке «больших данных»; многие крупные компании время от времени обращаются к ним за консультациями. Арно — специалист data science с широким кругом интересов, от розничной торговли до игровой аналитики. Он полагает, что информация, полученная в результате обработки данных, в сочетании с некоторым воображением, поможет нам улучшить этот мир.

» Более подробно с книгой можно ознакомиться на сайте издательства
» Оглавление
» Отрывок

Для Хаброжителей скидка 25% по купону — Data Science
Автор: @ph_piter
Похожие публикации

Комментарии (24)

  • –7
    Есть ссылка на торрент?
  • +2
    O'relly и Питер — лучшее, что есть в учебной литературе по программированию =)
    • 0
      Только вот эта книга от издательства Manning, а не O'Reiily
    • 0
      Ой ли? Майкрософт-пресс, Дмк-пресс, Вильямс-паблишинг? На чем основано это утверждение?
  • 0
    Случайно не планируете издавать «Head First Python, 2nd Edition»? Очень бы хотелось.
    Извините за офтоп.
    • 0
      К сожалению, не будет.
  • –2
    Мохамед Али
  • 0
    Скоро будет электронная версия книги «Грокаем алгоритмы»? Извиняюсь за оффтоп
    • 0
      Скорее всего на следующей неделе.
  • 0
    Спасибо заказал как раз искал что-нибудь из бумажного.
    • 0

      Тоже, тем более содержание книги по главам выглядит довольно интересным.

  • 0
    А книги по тестированию на Python планируются переводить? Сложно договориться с издателями на этот счет?
    • 0
      Эта тема будет раскрыта только, как составная часть других книг.
  • 0
    А вы бьете своих редакторов за ошибки?
    • +2
      Говоря прямолинейно, бывает такое и строже.
  • 0
    А планируется книга Android Programming от big nerd ranch 3 издание?
    • +1
      Да, уже переводится.
      • 0
        Куплю и бумажную и электронную!

        PS
        Еще бы книгу какую нибудь по Android UI и жизнь стала бы прекрасной :)
  • 0
    Прошу прощения, что не в тему, но в топик «Книга «Изучаем Node. Переходим на сторону сервера. 2-е изд. дополненное и переработанное»» уже не могу написать. К вам в личку тоже.
    Электронная версия (epub) неправильная, не работает навигация по оглавлению.
    С кем можно пообщаться по этому вопросу.
    Еще раз сорри за оффтоп.
    • 0
      Отправили на проверку верстальщику. С вами свяжемся.
  • 0

    Посмотрел содержание, и сначала загорелся купить, ибо книжка сочетает в себе и организационные и технические моменты — этого часто не хватает. Но после просмотра отрывка стало немного грустно — к сожалению, есть вопросы и по оформлению и по содержанию.


    Насчет оформления: очень странно, что в PDF-варианте издания 2017 года нету нормальных ссылок, а просто набранные курсивом адреса сайтов. Больше того, если скопировать адрес оригинального издания, то попадаешь на страницу 404! Судя по всему, при верстке один из дефисов в адресе превратился в "мягкий" перенос.


    По содержанию: Жалко, что авторы толком не объясняют, что происходит в их коде. В открытом отрывке есть пример на линейную регрессию одномерной функции, но при этом в результате получается две переменные, x1 и x2 и это не объясняется. Скорее всего, если разобраться с документацией в sсikit, то это все станет понятно… Но зачем тогда книжку писать? Хватит десятка ссылок на пакеты.


    Еще одно замечание, возможно на первый взгляд странное: авторы, когда генерируют случайные точки для регрессии, не задают фиксированную "затравку" генератора (seed). В результате, они-то конечно предупреждают читателя, что у него может быть несколько отличающийся результат. Но с другой стороны — это очень плохой стиль, и такой код совершенно нельзя тестировать автоматически! Вряд ли конечно получится полный бред, но все-таки это "пахучий" код.


    Хочу посмотреть более полные примеры в оригинале и более подробно код. Но пока не бегу покупать и другим не могу посоветовать :(

  • 0
    Или в описании про Мохамеда ошибочно упомянут Мо, либо перепутаны тексты об авторах Мо с Арно.
    • 0

      В самой книге, кстати, такая же опечатка.

  • 0
    Зачем переводить map-reduce, как «отображение-свертка»? Зачем приучать людей к какой-то идиотской терминологии, если все уже прекрасно используют английские слова в речи?

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Самое читаемое Разработка