Pull to refresh

Одно слово для выпускника: статистика (перевод)

Reading time 5 min
Views 2.6K
Original author: Steve Lohr
For Graduates, Just One Word: Statistics

 

Оригинал

Взял на себя смелость перевести интересную статью из The New York Times.


 

Закончив Гарвард по специальности  “Археология и антропология”, Кэрри Граймс изучала виды поселений Майя, отмечая на карте места, где были найдены  артефакты. Но потом ее увлекло то, что она называет “все эти математические и компьютерные штуки”, которые были частью ее работы.



“Люди думают о археологии как о том, что делал Индиана Джонс, но на самом деле большая часть работы – анализ данных,” – говорит Кэрри.

Сейчас Мисс Граймс занимается “раскопками” другого рода. Она работает в Google, где она занимается статистическим анализом огромных объемов данных для того, чтобы отыскать способы улучшить поисковые механизмы Google.

Мисс Граймс – статистик Интернет-поколения, одна из тех многих, кто меняет имидж профессии, которая раньше считалась прибежищем для математиков-бездельников. Теперь статистики ощущают все больший спрос на свои услуги.

“Я продолжаю утверждать, что самой привлекательной профессией в ближайшие десять лет будет статистика,” – говорит Хэл Вэриан, главный экономист в Google. “И я не шучу!”

Растущий статус статистиков, которые могут зарабатывать 125 000 долларов в год в ведущих компаниях сразу после получения докторской степени, – это следствие взрывного роста объемов баз данных.  Вычислительная математика и Интернет создают все новые возможности анализа данных – данные сенсоров, записи с камер слежения, переписка в социальных сетях и многое другое. Темпы роста объемов цифровых данных в обозримом будущем не уменьшатся, а к 2012 году увеличатся пятикратно, согласно исследованию компании IDC.

Данные – это всего лишь материал, из которого извлекаются знания. “Мы быстро движемся к миру, где все измеряется и записывается,” – говорит Эрик Брайнйолфсон, экономист и директор Центра Цифрового бизнеса MIT. “Но сложным вопросом остается способность людей использовать, анализировать и извлекать из данных что-то осмысленное.”

Новое поколение статистиков энергично берется за эту проблему. Они используют мощные компьютеры и сложные математические модели для поиска интерпретируемых моделей в больших хранилищах данных. Приложения крайне разнообразны: от улучшения Интернет-поиска и интернет-рекламы до лечения рака и оптимизации доставки еды.

Даже недавно закончившийся конкурс Netflix, за победу в котором полагался один миллион долларов каждому, кто сможет значительно улучшить систему рекомендаций фильмов пользователям, был соревнованием между средствами современной статистики.

Но не смотря на все это, статистики – это лишь малая часть множества экспертов, которые используют статистику для анализа данных. Вычислительные и численные методы имеют большее значение, чем могло бы показаться. Поэтому новые специалисты в анализе данных приходят из таких областей как экономика, информатика и математика.

Специалисты по анализу данных крайне востребованы в Белом Доме сегодня. “Чистые, достоверные данные – это первый ”шаг к координации нашей долгосрочной экономической политики и ключевых приоритетов в политике” – говорит Питер Орзаг, директор Office of Management and Budget  в своей майской речи. Позже в тот же день, мистер Орзаг признался в своем блоге, что его речь о значении статистики была “близка моему (нужно признаться педантичному) сердцу.”

Компания IBM, видя перспективу в анализе данных, создала подразделение “Бизнес-аналитики и служб оптимизации” в апреле. Это подразделение привлечет более 200 математиков, статистиков и других аналитиков в исследовательские лаборатории – но этого недостаточно.   IBM планирует привлечь и переобучить 4000 аналитиков из своих сотрудников.

  Еще один показатель роста активности в этой области – приблизительно 6400 человек, посещающих профессиональную статистическую конференцию в Вашингтоне на этой неделе, вместо 5400 в прошлые годы, согласно информации от Американской Статистической Ассоциации. Участники, мужчины и женщины, молодые и уже седеющие, выглядели как любая другая толпа туристов в столице. Но их восторженные диалоги были посвящены случайности, параметрам, регрессии и кластеризации. Исследование данных развивается как профессия, которая традиционно была менее заметной и прибыльной, как например определение ставок для страхования жизни.

Мисс Граймс, в свои 32 года уже получила ученую степень по статистике в Стэнфорде в 2003 году и в этом же году поступила на работу в Google. Сейчас она одна из многих статистиков в группе из 250 аналитиков данных. Она использует статистическое моделирование чтобы помочь сделать поисковые технологии лучше.

Для примера: Мисс Граймс работает над алгоритмом, настраивающим поискового робота. Модель повысила вероятность того, что робот будет часто проверять постоянно обновляемые страницы и реже проверять необновляемые.

Цель, по словам Мисс Граймс, в том чтобы получить небольшую выгоду в эффективности вычислений. “Повышение эффективности на процент или два может дать огромный эффект, если операция повторяется миллионы и миллиарды раз, как мы у нас в Google,” добавляет Кэрри.

Новый мир в исследованиях открывается благодаря объему данных в Сети. Традиционно, социальные науки следили за поведением с помощью интервью и опросов. “Но Сеть предоставляет эту замечательную возможность наблюдать как себя ведут миллионы людей,” – говорит Джон Кляйнберг, специалист по социальным сетям в Cornell.

К примеру, в только что опубликованном исследовании, Кляйнберг и двое его коллег следили за течением идей в Сети. Они следили за 1.6 миллионами новостных сайтов и блогов в течении президентской кампании 2008 года, используя алгоритмы, которые искали и отслеживали фразы, связанные с новостями.

  Исследователи из Cornell выяснили, что, в общем, традиционные методы ведут, а блоги следуют, обычно с отставанием в два с половиной часа. Но немного блогов были самыми быстрыми в цитировании, которые потом получили широкое распространение.

Огромные источники данных в Сети,  по словам экспертов, несут опасность.  Их объем может просто “раздавить” статистические модели. Исследователи предупреждают, что сильная корреляция между данными не всегда значит причинно-следственную связь между ними.

Например, в конце 40ых годов двадцатого века, до изобретения вакцины от полиомиелита, эксперты по здравоохранению в Америке заметили что случаев заболевания становится больше при увеличении потребления мороженого и прохладительных напитков, по словам Дэвида Алана Грира, историка и статистика из George Washington University. Удаление таких лакомств из меню даже было рекомендовано как диета от полиомиелита. Позже оказалось, что вспышки полиомиелита чаще случались в жаркие месяцы лета, когда люди ели больше мороженого.

“Взрыв” данных притягивает продолжительные исследования в статистике, что также открывает новые границы.

“Ключ к тому, чтобы позволить компьютерам делать то, в чем они хороши – искать в этих массивах данных то, что кажется странным с точки зрения математики,” – Говорит Даниэль Грул, исследователь из IBM, чья последняя работа посвящена анализу медицинских данных для улучшения качества обслуживания. “А людям остается то, что они делают лучше всего, – интерпретировать эти аномалии.” 
Tags:
Hubs:
+44
Comments 34
Comments Comments 34

Articles