Книга «Основы Data Science и Big Data. Python и наука о данных»

    imageData Science — это совокупность понятий и методов, позволяющих придать смысл и понятный вид огромным объемам данных.

    Каждая из глав этой книги посвящена одному из самых интересных аспектов анализа и обработки данных. Вы начнете с теоретических основ, затем перейдете к алгоритмам машинного обучения, работе с огромными массивами данных, NoSQL, потоковым данным, глубокому анализу текстов и визуализации информации. В многочисленных практических примерах использованы сценарии Python.

    Обработка и анализ данных — одна из самых горячих областей IT, где постоянно требуются разработчики, которым по плечу проекты любого уровня, от социальных сетей до обучаемых систем. Надеемся, книга станет отправной точкой для вашего путешествия в увлекательный мир Data Science.


    Анализировать данные умеют все люди. Способность нашего мозга видеть взаимосвязи, приходить к выводам на основании фактов и учиться на опыте — вот что делает человека человеком. Выживание человека в большей степени, чем любого другого биологического вида на планете, зависит от мозга; человечество сделало максимальную ставку на эту особенность, чтобы занять свое место в природе. Пока эта стратегия работает, и вряд ли мы захотим ее поменять в ближайшем будущем.

    Однако в том, что касается тривиальной обработки чисел, возможности нашего мозга ограниченны. Он не справляется с объемом данных, который мы в состоянии воспринять за один раз, и с нашей любознательностью. По этой причине мы доверяем машинам часть своей работы: выявление закономерностей, формирование связей и получение ответов на многочисленные вопросы.

    Стремление к знаниям заложено в наших генах. Применение компьютеров для выполнения части работы в наши гены не заложено, но без них не обойтись.

    Структура книги


    В главах 1 и 2 приводятся общие теоретические основы, необходимые для понимания других глав книги:

    — Глава 1 знакомит читателя с data science и большими данными. Она завершается практическим примером Hadoop.
    — Глава 2 посвящена процессу data science. В ней описаны шаги, присутствующие почти в каждом проекте data science.

    В главах 3–5 описано применение принципов машинного обучения к наборам данных постепенно увеличивающихся размеров:

    — В главе 3 рассматриваются относительно небольшие данные, легко помещающиеся в памяти среднего компьютера.
    — В главе 4 задача усложняется: в ней рассматриваются «большие данные», которые могут храниться на вашем компьютере, но не помещаются в памяти, вследствие чего обработка таких данных без вычислительного кластера создает проблемы.
    — В главе 5 мы наконец-то добираемся до настоящих больших данных, с которыми невозможно работать без многих компьютеров.

    В главах 6–9 рассматриваются некоторые интересные вопросы data science, более или менее независимые друг от друга:

    — В главе 6 рассматривается архитектура NoSQL и ее отличие от реляционных баз данных.
    — В главе 7 data science применяется к потоковым данным. Здесь основная проблема связана не с размером, а со скоростью генерирования данных и потерей актуальности старых данных.
    — Глава 8 посвящена глубокому анализу текста. Не все данные существуют в числовой форме. Глубокий анализ и аналитика текста начинают играть важную роль в текстовых форматах: электронной почте, блогах, контенте веб-сайтов и т. д.
    — В главе 9 основное внимание уделяется последней части процесса data science (визуализации данных и построению прототипа приложения), для чего мы рассмотрим ряд полезных инструментов HTML5.

    В приложениях А–Г рассматриваются процедуры установки и настройки систем Elasticsearch, Neo4j и MySQL, упоминаемых в главах книги, а также Anaconda — программного пакета Python, чрезвычайно полезного в data science.

    Для кого написана эта книга


    Эта книга знакомит читателя с областью data science. Опытные специалисты data science поймут, что по некоторым темам материал изложен в лучшем случае поверхностно. Другим читателям сообщим, что для извлечения максимальной пользы из книги потребуются некоторые предварительные условия: чтобы браться за практические примеры, желательно обладать хотя бы минимальными познаниями в SQL, Python, HTML5 и статистике или машинном обучении.

    Об авторах


    image Дэви Силен — опытный предприниматель, автор книг и профессор. Вместе с Арно и Мо он является совладельцем Optimately и Maiton — двух компаний data science, базирующихся в Бельгии и Великобритании соответственно, а также одним из совладельцев еще одной компании data science в Сомалиленде. Все эти компании специализируются на стратегической обработке «больших данных»; многие крупные компании время от времени обращаются к ним за консультациями. Дэви является внештатным преподавателем школы менеджмента IESEG в Лилле (Франция), где он преподает и участвует в исследованиях в области теории «больших данных».
    image Мохамед Али — предприниматель и консультант в области data science. Вместе с Арно и Мо он является совладельцем Optimately и Maiton — двух компаний data science, базирующихся в Бельгии и Великобритании соответственно. Его увлечения лежат в двух областях: data science и экологически рациональные проекты. Последнее направление воплотилось в создании третьей компании, базирующейся в Сомалиленде.
    image Арно Мейсман — целеустремленный предприниматель и специалист data science. Вместе с Дэви и Мо он является совладельцем Optimately и Maiton — двух компаний data science, базирующихся в Бельгии и Великобритании соответственно, а также одним из совладельцев еще одной компании data science в Сомалиленде. Все эти компании специализируются на стратегической обработке «больших данных»; многие крупные компании время от времени обращаются к ним за консультациями. Арно — специалист data science с широким кругом интересов, от розничной торговли до игровой аналитики. Он полагает, что информация, полученная в результате обработки данных, в сочетании с некоторым воображением, поможет нам улучшить этот мир.

    » Более подробно с книгой можно ознакомиться на сайте издательства
    » Оглавление
    » Отрывок

    Для Хаброжителей скидка 25% по купону — Data Science
    Метки:
    Поделиться публикацией
    Похожие публикации
    Комментарии 24
    • –7
      Есть ссылка на торрент?
      • +2
        O'relly и Питер — лучшее, что есть в учебной литературе по программированию =)
        • 0
          Только вот эта книга от издательства Manning, а не O'Reiily
          • 0
            Ой ли? Майкрософт-пресс, Дмк-пресс, Вильямс-паблишинг? На чем основано это утверждение?
          • 0
            Случайно не планируете издавать «Head First Python, 2nd Edition»? Очень бы хотелось.
            Извините за офтоп.
            • 0
              К сожалению, не будет.
            • –2
              Мохамед Али
              • 0
                Скоро будет электронная версия книги «Грокаем алгоритмы»? Извиняюсь за оффтоп
                • 0
                  Скорее всего на следующей неделе.
                • 0
                  Спасибо заказал как раз искал что-нибудь из бумажного.
                  • 0

                    Тоже, тем более содержание книги по главам выглядит довольно интересным.

                  • 0
                    А книги по тестированию на Python планируются переводить? Сложно договориться с издателями на этот счет?
                    • 0
                      Эта тема будет раскрыта только, как составная часть других книг.
                    • 0
                      А вы бьете своих редакторов за ошибки?
                      • +2
                        Говоря прямолинейно, бывает такое и строже.
                      • 0
                        А планируется книга Android Programming от big nerd ranch 3 издание?
                        • +1
                          Да, уже переводится.
                          • 0
                            Куплю и бумажную и электронную!

                            PS
                            Еще бы книгу какую нибудь по Android UI и жизнь стала бы прекрасной :)
                        • 0
                          Прошу прощения, что не в тему, но в топик «Книга «Изучаем Node. Переходим на сторону сервера. 2-е изд. дополненное и переработанное»» уже не могу написать. К вам в личку тоже.
                          Электронная версия (epub) неправильная, не работает навигация по оглавлению.
                          С кем можно пообщаться по этому вопросу.
                          Еще раз сорри за оффтоп.
                          • 0
                            Отправили на проверку верстальщику. С вами свяжемся.
                          • 0

                            Посмотрел содержание, и сначала загорелся купить, ибо книжка сочетает в себе и организационные и технические моменты — этого часто не хватает. Но после просмотра отрывка стало немного грустно — к сожалению, есть вопросы и по оформлению и по содержанию.


                            Насчет оформления: очень странно, что в PDF-варианте издания 2017 года нету нормальных ссылок, а просто набранные курсивом адреса сайтов. Больше того, если скопировать адрес оригинального издания, то попадаешь на страницу 404! Судя по всему, при верстке один из дефисов в адресе превратился в "мягкий" перенос.


                            По содержанию: Жалко, что авторы толком не объясняют, что происходит в их коде. В открытом отрывке есть пример на линейную регрессию одномерной функции, но при этом в результате получается две переменные, x1 и x2 и это не объясняется. Скорее всего, если разобраться с документацией в sсikit, то это все станет понятно… Но зачем тогда книжку писать? Хватит десятка ссылок на пакеты.


                            Еще одно замечание, возможно на первый взгляд странное: авторы, когда генерируют случайные точки для регрессии, не задают фиксированную "затравку" генератора (seed). В результате, они-то конечно предупреждают читателя, что у него может быть несколько отличающийся результат. Но с другой стороны — это очень плохой стиль, и такой код совершенно нельзя тестировать автоматически! Вряд ли конечно получится полный бред, но все-таки это "пахучий" код.


                            Хочу посмотреть более полные примеры в оригинале и более подробно код. Но пока не бегу покупать и другим не могу посоветовать :(

                            • 0
                              Или в описании про Мохамеда ошибочно упомянут Мо, либо перепутаны тексты об авторах Мо с Арно.
                              • 0

                                В самой книге, кстати, такая же опечатка.

                              • 0
                                Зачем переводить map-reduce, как «отображение-свертка»? Зачем приучать людей к какой-то идиотской терминологии, если все уже прекрасно используют английские слова в речи?

                                Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                Самое читаемое