alexzeynikov Oct 14 2013 at 09:21

Большие данные — неотъемлемая часть нашей жизни

5 min

10K

В прошлой статье речь шла о том, как Big Data вообще и продукты LSI в частности позволяют предсказывать погоду, и почему это так важно. С момента выхода той статьи произошло одно интересное событие, подтверждающее важность затронутой темы. Всем известная компания Monsanto, мировой лидер биотехнологии растений приобрела компанию The Climate Corporation из Сан-Франциско за 930 миллионов долларов, последняя как раз занимается анализом «больших данных» связанных с погодой и климатом. По словам СЕО Monsanto: «Climate Corporation фокусируется на том, чтоб предоставить сельскому хозяйству больше возможностей за счет науки обработки данных». Но, разумеется, не одними только прогнозами состояния атмосферы полезны для нас «большие данные», давайте рассмотрим еще пару интересных применений.

Каждый год, в конце осени — начале зимы, мы все с определенной покорностью ожидаем начала неизбежной эпидемии гриппа. Несмотря на относительную «безопасность» этой болезни, часто она способна дать огромные осложнения, а ежегодное число жертв по всему миру по данным ВОЗ составляет от 250 до 500 тысяч человек.

Вирусы гриппа относятся к семейству Ortomyxoviridae, которое включает в себя роды Influenza A, B, С. Принадлежность к одному из этих типов определяется антигенными свойствами внутренних белков вириона (M1 и NP). Дальнейшее деление проводится согласно подтипам поверхностных белков гемагглютинина (HA) и нейраминидазы (NA). В настоящее время известно 16 подтипов гемагглютинина и 9 подтипов нейраминидазы. К опасным для людей эпидемиям приводят вирусы, содержащие три подтипа HA (H1,H2,H3) и два подтипа NA (N1, N2). Именно эти характеристики и дают извесные нам «кодовые имена» вирусов. Если в определенном году вирус гриппа чем-то отличался от «классического», то к названию добавляется еще и год (наверное все помнят эпидемию, вызванную штаммом 2009 H1N1).

В общем для классификации вирусов гриппа ВОЗ использует классификацию, включающую в себя много признаков.

— Антигенный тип: A, B и C
— Происхождение: свиной, лошадиный, куриный и т.п.
— Географический район обнаружения: китайский, голландский и т.п.
— Номер штамма: 7, 15 и т.п.
— Год обнаружения: 56, 2009 и т.п.
— Подвиды гемагглютинина и нейраминидазы: H1N1, H5N1, и т.д.

Как видите, вирусы гриппа очень сильно отличаются друг от друга, и даже в ходе одной эпидемии они могут изменяться, передаваясь от человека к человеку. Несложно догадаться, что именно тут и вступают в игру знакомые нам большие данные: статистика о заболевании, накапливаемая национальными организациями здравоохранения действительно обширна и подробна, а для эффективной борьбы с эпидемией, необходимо уметь эти данные быстро анализировать.

Сотрудники Центров по контролю и профилактике заболеваний США анализируют эти данные, используя разные инструменты для того, чтобы определить, какие именно штаммы вирусов будут угрожать США, и на основании этого создают вакцину. От точности этого предсказания и зависит, насколько эффективной будет вакцинация, сколько людей заболеют, а сколько останутся здоровыми. Например, в 2012/2013 годах основным штаммом был грипп А H3N2, но так же наблюдались небольшие очаги гриппа B и гриппа А H1N1.

Кроме определения доминирующего вируса, CDC (сокращенное название Центров) анализируют данные для того, чтобы отследить распространение вируса и его потенциальный эффект на население. Для этого анализируются огромные массивы данных, включающие в себя информацию о прошлых эпидемиях, прививках, данные о населении и даже прогнозы погоды. Результатами этой работы становятся предсказания, где в первую очередь ожидать ударов вируса, какой силы будет эпидемия, и сколько по времени она продлится. Это помогает произвести достаточное количество вакцины, правильно «подгадать» со временем ее производства и проведением вакцинации и правильно ее распределить. От этих прогнозов напрямую зависит: насколько эффективным будет использование вакцины в этом году.

Как и в случае с прогнозами погоды, в этом случае эффективно себя показывает такой инструмент как Apache Hadoop, для ускорения работы которого у LSI есть аппаратные решения линейки Nytro, узнать о которой подробней вы сможете на нашем сайте.

Прогнозирование погоды и предсказания, касающиеся гриппа роднит одно: от точности этих предсказаний зависят жизни людей. К сожалению, таких областей, в которых на карту поставленны жизни и здоровье — очень много. А есть ли какие-то не столь жизненно важные области, в которых Big Data тем не менее играет большую роль? На самом деле их немало, расскажу про очень неожиданное применение больших данных в индустрии производства одежды и моды.

Август во многих странах по всему миру означает не только конец лета, но и начало занятий в школах. Школьники многих национальностей с родителями едут в магазины для покупки канцтоваров, школьных принадлежностей и зачастую школьной формы. Во времена наших родителей, выбор в магазинах был не так велик, поэтому многие ученики носили одинаковые куртки и пальто.

В наш век развитого консьюмеризма выбор стал намного шире. Огромные мегамоллы и супермаркеты поменьше, специализированные магазины и онлайн-порталы — все это приводит к наличию немалого выбора. Если добавить к этому огромное разнообразие фасонов, материалов, стилей, производителей и размеров — становится понятны проблемы, с которыми приходится сталкиваться типичным ритейлерам.

Все участники производственной цепочки опираются на Big Data в своей работе. Начинается это все с производителей материи. Они анализируют прошлогодние заказы, предложения конкурентов, модные тренды, рынок сырья и стоимость производства. Отслеживание любого из этих факторов в одиночку — занятие несложное, но по мере роста количества связанных факторов, сложность анализа возрастает многократно. В одном из своих отчетов 2012 года, аналитики Gartner подчеркнули, что главные проблемы, встающие перед Big Data как раз и состоят в работе в тех случаях, когда нужно анализировать взаимодействие между собой двух и более источников данных.

Следующие участники в цепочке производства — крупные компании-производители одежды. Именно они задают тренды на рынке, поэтому задачи, стоящие перед ними — еще сложней. Они используют инструменты «больших данных» для создания планов производства. Анализируя такую информацию как исторические данные о продажах, прогнозы погоды, демографические и экономические данные, они выбирают правильные цвета, фасоны, модели и ценовые рамки для производимой ими одежды.

Последними в этой линии стоят потребители. Именно они покупают одежду. При этом, все, что висит на вешалках и лежит на полках магазинов (а так же выставлено на продажу в онлайне) было выбрано и заказано от полугода до 9 месяцев назад. Возьмем в качестве примера крупнейшего ретейлера на рынке США — Kohl's. Им необходимо учитывать прогнозы погоды, чтоб знать где будут продаваться купальники, а где — теплые куртки, экономическую ситуацию и данные о конкурентах, чтоб правильно сформировать ценовую политику, демографические данные чтоб лучше оценить потребности людей и размерную сетку. Чем точнее будут эти прогнозы, тем меньше товаров потом будет продаваться с большими скидками на распродажах, и тем выше будет прибыль компании.

Разумеется, прибыль компании несоизмерима с человеческими жизнями, но и тут Big Data показывает себя важнейшим и ценнейшим инструментом, необходимым для достижения успеха. LSI является одной из тех компаний, которые способны предложить решения, действительно ускоряющие и упрощающие работу с большими данными.

Tags:

Hubs: