Из физиков в Data Science (Из двигателей науки в офисный планктон)

Вступление


Не так давно, а именно двенадцать месяцев назад, начался мой последний год аспирантуры на физическом факультете ВУЗа под названием University of California, Davis. Вставал законный вопрос — что делать дальше? За преподаванием, движением науки и прочими развлечениями год пройдёт очень быстро. Решать надо было заранее. Основной план был найти позицию постдока, причем где-нибудь в Токио, Рио де Жанейро или Сингапуре, так что вроде как и путешествуешь, а вроде как и работаешь. И по идее под это дело у меня всё было подготовлено: и статьи, и знакомые, и знаний в определённых областях физики конденсированных сред — на троих. Я начал активно гуглить сайты разных вузов, в интересующих меня географически частях мира, написал научно ориентированный CV, подписался на рассылки где публикуются вакансии постдоков, намекнул всем знакомым, что если что — то мне надо сказать в первую очередь. Я даже по скайпу с какими то профессорами общался на тему работы в их научных группах. В общем всё куда-то катилось.

Примерно в то же время к нам в городок заехал один мой знакомый, который в свое время тоже выпустился с нашего доблестного факультета, но на пару лет раньше. Последние пару лет он мыкался и тыкался в разные конторы и вот наконец нашёл работу на позицию под названием Data Scientist. Посидели в баре, потрепались — то, чем он занимается, особенно не зацепило (когда каждый день пытаешься разобраться что и куда квантовать, чтобы описать свойства наноматериалов, рассказы о том, как в некой базе данных что-то куда-то аггрегируется и почему это важно для каких-то продаж офисных принадлежностей, вообще не цепляет), но зацепила зарплата. Для справки, в США грязными, то есть до вычета налогов:

  1. Аспирант — $27k
  2. Постдок — $45k
  3. Профессор — $117k


А мой знакомый без профильного образования и без опыта работы сходу был принят на $100k. То есть лихо объехал весь недружный коллектив постдоков. (Как выяснилось позже он ещё и продешевил, ему надо было на 130-150k идти, так бы и профессуру обошёл.)

Но не в деньгах счастье и даже не в их количестве. Деньги — это, всё-таки, инструмент и не более того.

Знакомый уехал, и я окунулся обратно в пучину академической среды. Я как раз лекции в той четверти читал, то есть и лекцию подготовить, и quiz'ы, и на email'ы студентов ответить. Замотался я. Но как четверть закончилась я снова начал думать о том, куда податься после окончания обучения.

Что меня всегда смущало в академической среде, так это то, насколько она закостенелая, всмысле не динамичная. Все сидят в зоне комфорта и отказываются из неё вылезать. Скучно. А вот судя по фильмам про Кремниевую Долину, там всё динамично и молодёжно. Но в программисты идти не хотелось, во-первых, не интересно, а, во-вторых, меня туда и не возьмут. Всё мои околопрограммистские знания — это самообучение, а фундаментального образования в этой области нет. Тут как раз ещё один знакомый проявился, который как раз недавно выпустился и он тоже устроился на позицию Data Scientist'а. И то ли он сам по себе на уши вешает лучше, то ли его работа и правда была интереснее, но в этот раз меня зацепило.

Начал гуглить: не понятно ничего. Data Science упоминается в совершенно различных контекстах, описания требований на позицию Data Scientist принципиально отличаются от вакансии к вакансии. Куча красивых слов про большие данные и искусственный интеллект, но в общую картину они никак не скаладывалются.

Надо было с чего-то начинать. И первый шаг, который я сделал — это записался на специализацию Data Science на Coursera. В специализации 9 курсов, каждый в месяц длинной, так что всё это в теории растягивается на 9 месяцев, но этого времени у меня не было. Шел январь, а выпускаться я собирался в июне. То есть времени для того, чтобы набраться знаний в совершенно новой для меня области, да ещё и работу найти, толком не оставалось. Поэтому эти 9 курсов я брал по три за раз. Иногда было тяжко, но в целом это реально.

Что я из этой специалиазации вынес: Data Science — дело тёмное, в том смысле, что каждый пытается натянуть эти два слова на всё что хоть как-то связано с данными. Но стало понятно, что универсальный Data Scientist должен знать статистику, разбираться в машинном обучении и уметь писать код на R, Python, Java, Scala.

Шёл март. Некая структура в голове появилась, но так как эта специализация очень базовая по уровню, да и лекторы, с точки зрения уровня их преподавания и общей организации курсов, скажем честно, на троечку, то многого я оттуда не вынес. Но! В одном из курсов был упомянут сайт на котором можно практиковать своё знание машинного обучения, а именно kaggle.com. И в моём случае информация о существовании этого сайта сильно помогла мне с дальнейшим посиком работы. Я потыркался, пару соревнований с треском завалил, но потом втянулся и последующие много месяцев не смотря на хроническое отсутствие времени участвовал во всех соревнованиях.

Параллельно я написал первую версию своего резюме, попробовал улучшить свой профиль на LinkedIn, даже пару интервью получил. Но в целом время шло, работу я искал не очень активно, слово за слово — июнь, защитился, больше откладывать поиск работы нельзя. И вот тут я закатал рукава и начал действовать.

Основная часть


До этого были сказки. А теперь я попытаюсь писать более структурировано, потому что поиск работы — это дело серьёзное.

Процесс интервью на позицию Data Scientist в США состоит из следующих стадий:
  1. Резюме попадает к рекрутеру.
  2. Если резюме рекрутеру понравилось — вы попадаете на следующую ступень, а именно телефонный разговор с рекрутером.
  3. Если этот телефонный разговор прошёл успешно — вы переходите на следующую ступень, а именно разговор с членом Data Science team.
  4. Если и этот разговор прошёл успешно — вы переходите на следующую ступень, а именно телефонное техническое интервью. Обычно в расшареных google docs, collabedit или в каком-нибудь похожем инструменте.
  5. Как правило, если сомнений в ваших технических навыках нет, то вас пригласят на on-site интервью, где вас будут интервьюировать куча разных людей на протяжении многих часов с перерывом на обед.
  6. Если прошлая стадия прошла нормально вам сделают предложение о работе и вы начнёте оговаривать детали. (negotiation)


Это стандартный набор, но вопрос как нанять правильного Data Scientist'a стоит очень остро. Поэтому в каждой компании немного свой подход, например, после технического интервью вам могут на дом дать некие данные, которые надо как-то проанализировать, и представить в виде презентации на onsite интервью (Пример — Pivotal, Bidgely, Uptake), или же это задание дадут перед техническим интервью(Пример — Capital One). Могут попросить решить задачки на HackerRank (Опять же Capital One). А могут пропустить техническое и сразу пригласить на onsite(Пример Affirm).

Между каждой из ступеней может проходить от одного дня до нескольких недель, поэтому начинать надо заранее! В больших компаниях вроде LinkedIn или Google, можно смело подавать на работу за 9 месяцев до окончания обучения. (Это был один из моих серьёзных просчётов, я никак не ожидал, что поиск работы требует так много времени.)

Каждая из ступеней этого процесса требует различных навыков. Итак.

Резюме / профиль на LinkedIn


Во-первых, вы должны хорошо выглядеть на бумаге. А это профиль в LinkedIn и ваше резюме. (Кому интересно, может зайти ко мне на LinkedIn и скопировать оттуда всё, что вам понравится. Сработало для меня, может и вам как-то поможет.)

Распространённая ошибка людей, которые составляют резюме/заполняют LinkedIn — они вставляют в него то, чем они гордятся, а вовсе не то, что там на самом деле надо писать. Например, критерием вашей личной крутизны в академической среде являются ваши статьи (порядок авторов важен, лучше быть первым — это жутко модно), выступления на конференциях и прочие достижения, которые в общем-то всем, вне вашего замкнутого мирка безразличны. Они вам дороги, вы о них усиленно думали на протяжении последних многих лет, но о них писать не надо. В крайнем случае можно упомянуть.

Писать в резюме надо то, что продаётся на это конкретную вакансию. В теории лучше писать отдельное резюме для различных вакансий, но это очень муторно. Основная задача резюме — это чтобы рекрутер с вами связался и назначил телефонный разговор.

Весь опыт работы у меня — это промышленный альпинизм, преподавание и движение науки в университете и служба в армии. Это не продать.

Научные публикации и выступления на конференциях по темам, которые с Data Science напрямую не связаны — не продать.

Образование — это продаётся, но плохо. У меня сложилось стойкое впечатление, что в San Francisco Bay Area никто не хочет смотреть на ваше резюме если у вас нет опыта работы, PhD по чему-то, или как минимум степени магистра по специальности Computer Science. Осложняется это ещё и тем, что выпускники (Fresh Grads) делятся на людей первого сорта (выпускники Stanford и UC Berkley) и на всех остальных. Это распространено и вполне ожидаемо, что вы не получите phone screening только потому что у ваc нет PhD, а даже если оно у вас есть, то phone screening вы всё-равно не получите, потому что вы не со Stanford'a. (Есть достаточно много стартапов у которых жёсткое правило. Набирать только из top schools. Про большие компании не знаю, но думаю, что они более адекватно относятся к процессу и такой фигнёй страдают меньше). Короче, в резюме идёт образование, но без подробностей (имя университета, специализация, период обучения).

Хорошо ценится, если то, чем вы занимались во время обучения в университете связано с анализом данных, особенно если рекрутер может понять хотя бы на уровне идеи, как эти знания можно применить в компании. (Тут можно врать, но не очень сильно.)

Несколько строчек в моём резюме посвящены результатам соревнований по машинному обучению упомянутому выше. Я в kaggle вбухивал достаточно много времени, поэтому в резюме он у меня вписался хорошо.

Важный, но неочевидный кусок резюме — это Communication and Leadership. Идея в том, что академическая среда деформирует личность в том плане, что общаться с «ботаниками» тяжело. Плюс часто в команде работать они не умеют. Тут мне моё преподавание пригодилось, как минимум как строчка в резюме, которая пытается сказать, что я умею объяснять технически сложные темы людям, которые в этом мало что понимают.

И всё-равно куча свободного места. Туда я вствил названия online курсов, которые я брал на coursera и edx на связянную с Data Science тематикой и подсекцию назвал Independent Coursework. Любят американцы слово Independent, да и Coursework звучит хорошо.

Собственно и всё. По сути только научная степень, kaggle и куча воды. Но и бог с ним. Задача резюме получить phone screening.

Вышло как-то вот так.

Как сделать так, чтобы ваше резюме попало к рекрутеру?
  1. LinkedIn — список вакансий, которые создали на самом LinkedIn, а также те вакансии, которые LinkedIn надёргал с других ресурсов. Недостаток — легкий доступ к списку вакансий и как следствие много апликантов. 300 — 1000 апликантов на одну вакансию — это нормально. Из достоинств — вакансий много, можно массово подавать во всё, что можно.
  2. dice.com — какие-то вакансии есть и там, но я ни одного интервью с ними не получил.
  3. monster.com — тоже ксть какие-то вакансии, но я на нём зарегестрировался достаточно поздно
  4. Секция jobs на kaggle.com
  5. Знакомые, которые где-то работают могут вас посоветовать. (Я так получил интервью с Google и Pebble)
  6. Знакомые, которые получили job offer, отклонили его, но вместо себя посоветовали вас. (Я так получил интервью с Uptake и Bidgely)
  7. Career Fair в UC Davis было бесполезное, а на Career Fair в Stanford или Berkley без соответствующего студенческого билета не просочится. Но это я поздно спохватился. Если бы раньше мозг включил, может быть что-нибудь бы и придумал.
  8. Meetups — в Bay Area чуть не каждый день проводятся всевозможные митапы на темы связанные с Data Science. Там как минимум можно с кем-то познакомится, а как максимум, можно и впечатлить (Недавний пример — надо мне было пробки переждать, я зашёл на митап, который проходил неподалёку под названием Deep Learning в Natural Language Processing. И мне эта тема никогда не давалась. По отдельности и нейронные сети и NLP работают, а когда их скрещиваешь — резльтат у меня получался средненький. Вот я и зашёл просветится. Но не угадал. Там все были неопытные, поэтому я два часа у доски им лекцию читал о том, что знаю на эту тему и на следующий день пара присутствующих на митапе написали, что у них на работе есть вакансия ну вот как раз для меня. Но это скорее исключение. Да и митапы где я ничему не учусь мне не нравятся.).


И вот вроде бы у вас замечательное резюме, и вы его рассылаете, но что-то вам не отвечают. Одна из проблем состоит в том, что в большие компании, где рекрутеры опытные, море кандидатов, причём их рекомендуют, а вы сами по себе. Вы теряетесь в общей массе. Но, рекрутеры адекватные. (В хорошую сторону отмечаю Googe, Pivotal и LinkedIn. В LinkedIn особо отмечаю Михаила Обухова, я вот не знаю, что он там понаписал в отчете по итогам интервью, но спрашивал хорошие вопросы и исключительно по делу)

Со стартапами ситуация другая — там рекрутеры юные и неопытные и не очень знают что они хотят в резюме увидеть. Например, объявления о работе у крупных компаний они короткие, но конкретные, а у многих мелких стартапов — море требований. Например, был один стартап, который хотел от потенциального Data Scientist'a:

  1. Знания алгоритмов машинного обучения на уровне эксперта.
  2. Знания статистики на уровне эксперта
  3. Знания генетики на уровне эксперта.
  4. Умение писать production quality code
  5. Умение работать со всевозможными базами данных.
  6. Естественно, у вас должна быть PhD по технической специальности.

И ещё простыня требований. Причём работу они кандидатам не предлагали, а предлагали низкооплачиваемый контракт на несколько месяцев, по итогам которого возможно вас бы перевели на полную ставку. Найти кандидата, который подходит под эти критерии, да ещё и согласится работать за еду — нереально.

Это я к тому, что рассылать своё резюме надо везде и всюду. Даже если это вакансия вам не интересна. Каждое интервью — это опыт прохождения интервью. А этот опыт для того, кто этого делать не умеет, на вес золота.

Phone Screening


Вам звонит рекрутер. Что он хочет? А хочет он (гораздо чаще это она) дополнить ваше резюме комментариями.
Типичные вопросы:
  1. Почему вы хотите работать в нашей компании?
  2. Закончили вы ваше образование и если нет, то когда заканчиваете?
  3. Интервьюируитесь ли с другими компаниями?
  4. Каков ваш визовый статус? И когда ваша виза позволит вам выйти на работу?
  5. Каков ваш опыт работы с данными?
  6. Куча вопросов по резюме ответами на которые вы должны убедить её, что она не получит по шапке за трату драгоценного времени, когда передаст ваше резюме с комментариями кому-то, кому она должна его передать.


Тут всё прямолинейно. Чем лучше у вас резюме — тем меньше дурацких вопросов вам зададут. Причём когда я говорю, что резюме хорошее я не говорю, что вы там освещены хорошо — я говорю, что рекрутеру это освещение понравится. По сути ваше резюме должно быть подстроено под её/его ожидания от вас. Обычно с этой на следующую ступень переходится без проблем, хотя есть исключения — один раз я пролетел, потому что контора работает с какими-то секретными данными, и меня в силу российского гражданства к ним допускать нельзя.

Разговор с членом Data Science team


Разговор похож на разговор с рекрутером, но более технический. Про визу тут уже не спрашивают.

Начинаются мутные мотивы. Народ приходит в Data Science со всевозможных направлений: Computer Science, Statistics, Physics, Math, Economics, Biology, и т.д. Причём интервьюировать обычно начинают почти сразу. То есть опыта работы толком нет, опыта интервьюирования тоже толком нет, но есть идеи и желание попрактиковаться. И тут им попадаетесь вы…

Хотят они от вас много разных вещей.

Типичные вопросы:
  1. Приведите пример вашей работы с данными?
  2. Вот вам такая задача, как бы вы к ней подступились?
  3. А вот какие проблемы были бы у нас если бы мы взяли эти данные, этот алгоритм и попытались ответить на этот вопрос?


Тут у меня выстреливал кагл. После полу года работы над различными задачками на эту тему я могу трепаться часами. Но без кагла я бы тут сильно плыл. Спектр вопросов с одной сторны узок — про данные и про ваш опыт, но с сдругой он необъятен, потому что спросить могут про что угодно из Machine Learning, Statistics, про Use Case, причём не обязательно, что вопрос будет на базовом уровне. И по темам разным гоняют. Могут про Natural Language Processing, могут про Credit Card Fraud Detection, а могут про Recommender Systems. И нет никаких гарантий, что они сами в этой теме разбираются хоть как-то. Часто любят задавать вопросы на которые не знают ответа и сами с ними мучаются по работе. Вы тренируетесь проходить интервью, а они на вас тренируются интервьюировать людей, а как известно, дурацкие вопросы проще задавать, чем на них отвечать.

Был такой случай. В Pebble меня парень спросил:"Гики нашей продукцией пользуются, а вот как бы нам начать продвигать наши часы в негиковскую среду?". Я ему и ответил:"Я и без Data Science скажу — увольте вашего дизайнера. В ваших часах ни один уважающий себя президент третью мировую войну не объявит, даже если захочет. Он просто постесняется на публике повиться с вашей продукцией на руке.". Следующим утром я получил email о том, что я им не подхожу. Но и бог с ними.

Что помогает — зайти на GlassDoor и посмотреть какие вопросы задают подающим на позицию Data Analyst, Data Scientist, Software Developer, и всех их прорешать. Это не панацея, но часто на интревью попадаются задачки, которые где-то встречались.

На одних знаниях на этой ступени не выехать, надо ещё головой соображать. Например, был такой вопрос — а вот как бы вы воспроизвели алгоритм Swype? Опыт соревнований на кагле мне помог, идеи генерировал как фонтан, и, как выяснилось, мой интервьюер сильно проникся.

Опять же в больших кампаниях или больших стартапах более внятные вопросы, более адекватные интервьюеры. В лучшую сторону отмечаю (LinkedIn, Google, Pivotal, Bidgely, Affirm). В худшую (Pivotal, Pebble, Turn, Workday, Leap Motion). (Pivotal дважды, потому что эту стадию я дважды проходил. И один раз попал на самоуверенную тётку с невысоким коэффициентом интеллекта и с ней у меня не срослось.)

Техническое интервью


Интервьюировать вас будет член Data Science team. На двоих рашаривается google docs или collabedit или что-то вроде того. При этом вы находитесь в состоянии телефонного разговора. Так что вам надо будет одновременно и говорить, и печатать. Телефонная гарнитура будет очень кстати.

Вопросы будут разные.
  1. Задачки про вероятность, особенное любят задачки на теорему Байеса.
  2. Статистика
  3. Программирование. Обычно это python, R, Java.
  4. Машинное обучение — теория
  5. Алгоритмы и структуры данных
  6. MapReduce


Спектр вопросов необъятный. Если вас интервьюирует человек у которого специализация в университете была статистика или данная вакансия требует глубоких статистических знаний — вас будут жёстко прессовать на эту тему. Если у него образование в Computer Science — вас просклоняют по этой теме, и т.д.

Готовиться — решать задачки с GlassDoor и улучшать свой background по всем направлениям.

Onsite interview


Это марафон на несколько часов в офисе компании. Причём если вы добираетесь из другого города вам оплатят перелёт и гостиницу. (Я так в Чикаго очень приятно слетал)

Куча разных людей с вами общается по полчаса-час каждый. По середине, как правило, обед.

Обычно по одному за раз. Но в LinkedIn работают красиво, парами. Опытный тебя прессует, а второй, который недавно устроился, учится, у старшего товарища, хотя иногда тоже вопросы задаёт.

Тут и написание кода на доске, и как бы вы атаковали эту проблему, и вопросы по теории, и просто разговоры за жизнь.

Onsite дело мутное, и интровёртность, которая вырабатывается за время обучения в аспирантуре сильно мешает. Тут вас проверяют и на технические навыки, и пытаются определить ваш коэффициент интеллекта, вашу манеру мышления и вообще смогут они с вами работать или нет. То, что вас пригласили к ним в офис на onsite не означает, что вам дадут работу, но, как миниум, означает, что вас рассматривают серьёзно. Статистически примерно половина кандидатов, которые добрались до этой стадии получают предложение о работе.

Заключение


Поиск работы в области Data Science в San Franciscoв Bay area — это непросто. Особенно если заниматься этим как я, в последний момент. Это нервный процесс, который занимает много сил и времени. Во многом, потому что сам по себе процесс долгий. И при этом вы интервьюируетесь со многими компаниями параллельно. Два — три интервью в день — это нормально. По началу напрягает, а потом привыкаешь. Я выпустился в июне, а получил предложение о работе только в октябре. Да, это первая работа, а её найти в любом случае тяжело. Но каждый день из этих месяцев — это отмирающие нервные клетки, которые не восстанавливаются, причём не только у вас, но и у ваших друзей, семьи и всех тех, кому вы не безразличны.

Можно ли срезать угол и не прорубаться через все эти стадии или хотя бы их упростить? Да можно. Существуют организации, которые занимаются тем, что берут талантливых выпускников, обучают и помогают трудоустроиться (Пример Insight Fellowship, Data Science Incubator). Но! Число мест сильно ограничено, а число желающих огромно. И на бумаге они почти наверняка выглядят лучше вас. Но я знаю несколько человек, которые прошли отбор в Insight и проблем с поиском работы у них не было. Так что всем своим знакомым, которым предстоит вся эта эпопея с поиском работы в Data Science я рекомендую активно подавать в эти организации.

Другая возможность срезать угол — это internship в какой-нибудь компании. Если бы я был умнее, я бы пытался протиснуться в какой-нибудь internship каждое лето, что я учился в UC Davis. Жизнь была бы сильно проще.

Встаёт вопрос: а стоило ли оно того и что вообще изменилось?

Альтернативой поиска работы в Data Science была позиция постдока. Из преимуществ — тот же знакомый рабочий процесс, что и в аспирантуре, море свободного времени. Из недостатков, число вакансий на позицию постдока сильно ограничено и найти такую вакансию гораздо сложнее, чем найти работу. То есть выбрать место где жить и работать, практически нет. По деньгам всё печально, да и непонятно что с перспективой. Примерно 3% тех, кто после аспирантуры идёт на постдок, после 5-10 лет постдока находят себе позицию профессора, опять же там где им эту позицию дадут, а не там где им хочется. Как правило, почти все (есть искренне радующие исключения) мои знакомые постдоки параллельно двигают науку и занимаются поиском работы, причём многие именно в Data Science.

Позиция Data Scientist'a:
  • Приятнее по деньгам. Например, во время обучения в аспирантуре я вечно жил в каких-то халупах, снимая их сдругими, обычно малознакомыми или не интересными мне людьми. Сейчас я снимаю однокомнатную квартиру и когда я прихожу домой чувства отвращения у меня моя квартира не вызывает. Это хоть и временный, но дом.
  • Неприятнее по времени. Мне не нравится продавать своё время за деньги. Я предпочитаю продавать его за знания. И нет никаких гарантий, что в течение рабочего дня вы будете заниматься тем, что вам интересно. Это печальный факт. Отчасти решается тем, что рабочее время тратится не только на работу, но и на самообучение. Но тем не менее после многих лет работы над какими-то фундаментальными задачами, поиск багов в недокументированном коде, воспринимается, как трансформация в офисный планктон. Но есть надежда, что после вводного периода задачи будут интереснее.
  • На данном этапе много знаний идёт со стороны психологии. Последние много лет я вращался в академической среде, и чем живут студенты, аспиранты, профессура я представляю. Их систему ценностей, то чем они живут и дышут. Они как родные. Это скучно. А вот чем живут люди в Кремниевой Долине, как тут всё устроено и функциониует, и кто все эти люди — этого я не знаю и сейчас в этом направлении знания вливаются широкой рекой.
  • При поиске работы я сильно влетал на том, что не было связей и строчки в резюме о том, что у меня есть опыт работы. Сейчас появляется и то, и другое. Предполагается, что если мне захочется поменять работу, жизнь будет чуть проще.
  • Опять же проще выбирать место работы/жительства. Надоест в Кремниевой Долине — поеду, как и планировал в первом абзаце, в Токио, Рио или Сингапур.


Что изменилось? Да ничего по сути сильно не изменилось. Как и в аспирантуре весь день я сижу за компьютером, уставившись в монитор, и тыкаю пальцами в клавиши на клавиатуре, а в свободное время скалолазание, танцы, пиво, сноуборд зимой и прочие развлечения.

Как и что будет через год я не знаю, но пока всё идёт нормально.

Вторая часть.
Поделиться публикацией
AdBlock похитил этот баннер, но баннеры не зубы — отрастут

Подробнее
Реклама
Комментарии 16
  • +1
    Простите, а зачем вы в таком большом количестве употребляете английские слова?
    Computer Science, Statistics, Physics, Math, Economics, Biology

    Это уже что-то вроде проф-деформации и вы забываете как пишется «Экономика» по-русски?
    Просто возможно есть какие-то объективные причины, которые мне не понятны (не имею отношения к США).
    • +6
      Зря вас минусуют, хороший вопрос, поэтому попытаюсь ответить развёрнуто.

      Пост написан на смеси английского и русского по ряду причин.

      • Язык действительно со временем забывается, вернее вы его помните, но английские аналоги вам кажутся более подходящими к месту.
      • Имена собственные, такие как названия университетов или компаний, я предпочитаю сохранять на языке оригинала, например, чтобы не думать, как лучше написать БЕркли или БЁркли.
      • Какие-то слова я не знаю как перевести, ну например Compuer Science. Поэтому в указанном вами предложении я оставил все научные направления на английском, оправдываясь тем, что я их воспринимаю как технические термины. Или например слово meetup. Вот как его перевести? «Тематический междусобойчик»? Вроде бы и то, а вроде бы и нет.
      • Какие-то слова я переводить не хочу. Например, слово email. Вроде бы можно электронной почтой, но это длинно. Но с другой стороны я лихо перевожу graduate school как аспирантуру, хотя так делать нельзя.
      • Околотехнические термины как Natural Language processing, Deep learning, Data Scientist перевести можно, но не хочется. Пусть уж они будут на языке оригинала.
      • Physics, Math, Biology — я могу смело перевести на русский, а вот Economics уже нет, потому что, если рассматривать их как научные направления, то, что в России, что в США, физики, математики и биологи занимаются очень похожими вещами, а вот экономиcты — нет. Поэтому я и предпочитаю рассмативать их в различном контексте.
    • 0
      Полагаю, что у всех по-разному, но у меня русские слова перешли в пассивное состояние где-то через два года эмиграции. Правда, я по-русски совсем не разговаривала.

      После обратного переезда пять лет спустя, восстанавливать язык было и есть тяжело. Если пять лет не просто не использовал слово «слива», а заменил его на «plum», то вспомнить, как называется по-русски этот черный фрукт на прилавке практически нереально. Три года ушло просто на восстановление нормального ритма речи, без затыков. Грамматика так и не вернулась, хоть целенаправленно много читаю и пишу. Придется брать учебник в зубы. ))
      • 0
        часто даже в русскоязычных компаниях английские термины становятся общеупотребительным сленгом.

        То есть да, формально вы правы, надо писать по-русски. Но с другой стороны, статью читает ЦА, которая именно так и общается.
      • 0
        Я и без Data Science скажу — увольте вашего дизайнера. В ваших часах ни одни уважающий себя президент войну не объявит даже если захочет.

        Это Вы дословно так ответили, я имею ввиду «объявление войны»?
        Многие американцы, которые мне встречались, негативно относятся ко всему, что связано с войной, им как бы стыдно за свое правительство. Возможно именно это повлияло на отказ.
        С другой стороны, возможно, они тупо обиделись на негатив в сторону их продукта. Тут я с Вами согласен.
        • +1
          По-моему, так и сказал. Вообще нежеление подстраиваться под чувтсва и настроение собеседника не раз мне аукнулось при прохождении onsite интервью.

          Выражение про «объявление войны» это не я придумал. Не так давно Обама вышел на публику в костюме в светлых тонах, и это сильно муссировалось в американских СМИ. Один из репортёров высказался на тему его костюма, как я про эти часы. Контекст практически идентичный, поэтому я на автомате и сказал, не подумав о ранимой душе своего интервьюера.
        • 0
          К чему такие мучения за такую низкую зарплату? Что мешает выучить Java + пару тройку ходовых фреймворков и получить вполне разумную зарплату т.е. очевидно выше чем у профессора из Девиса тысяч на 30-40?

          И к слову сказать главное — здесь в «Долине» просто немеряно русских. Съездили бы на пикник, пообщались с народом, в линкидине законтачили — все проще было бы работу искать.

          Ну, а вцелом поздравляю — первую работу найти тем более находясь на визе — огромное дело.

          Удачи.
          • +2
            Спасибо.

            Ну, например, потому что машинное обучение мне интересно, нейронные сети так и вообще заставляют моё сердце биться чаще. А вот Java с фреймворками, во моей душе отклика вообще не находит. И как только зарплата проходит определённый минимальный уровень, на первый план выходит удовольствие от работы. У разных людей этот уровень разный. Я знаю пару постдоков у которых глаза горят от того, чем они занимаются. И плевали они на низкую зарплату. Они счастливы. И в то же время я знаю людей, которые зарабатывают прилично, но и работа им не нравится, и на личную жизнь это накладывает отпечаток, в общем деньги это важно, но не очень.

            На тему русских — это да. Тут их море. На той неделе в корейскую баню в Santa Clara ходил, там вообще не одного не русскоговорящего не было, даже кореец, который на входе сидит и деньги собирает и тот что-то мог по русски сказать.

            Не было у меня опыта поиска работы. Пикники и прочие грамотные идеи они просты, когда кто-то вам об этом скажет, но они совершенно не очевидны, если пытаться на них самому выйти. Плюс все мои знакомые, русские и не только, были исключительно в академической среде.

            Приспичит новую работу искать, буду действовать по-другому. Но это будет потом.
          • 0
            Очень клевая статья. Спасибо! Особо порадовал предпоследний абзац про «что изменилось».

            А в науку возвращаться не планируете? Возможно ли это вообще после ухода из американской академ. среды? А почему постдоки так мало получают? Они финансируются из бюджета или частные инвестиции? Вообще американская наука нынче в каком состоянии?)
            • 0
              Из науки я и не уходил. Я ушёл из академической среды. Учёный, это всё-таки не профессия — это диагноз. По сути профессора и постдоки занимаются тем, что находят задачу, которую ещё никто никогда не решал, решают её и публикуют отчёт(статью). Профессора ещё и преподают время от времени.

              => Преподавание — захочется мне повещать у доски и просветить слушателей на какую-нибудь тему — организую meetup или выступлю на какой-нибудь конференции по Data Science. Сейчас их море. Ну или в том году я время от времени проводил уроки танцев в университетском клубе. При желании можно что-нибудь провести в какой-нибудь местной танцевальной студии.
              Так что вопрос недостатка преподавания в моей жизни решается.

              => Статьи..… Статьи публиковать надо. Чтобы опубликовать статью нужен материал для публикации и текст, который опишет ваши результаты. Статьи по профильной тематике могут помочь при поиске работы. У меня в планах опубликовать что-нибудь на тему нейронных сетей. Но пока я работаю над задачей. Как будет ближе к чему-то публикуемому буду думать. Написание текста статьи и последующая полировка занимает много времени. Как с этим быть я пока не знаю. Есть у меня пара идей как это время минимизировать, но в данном случае буду решать проблемы по мере их поступления.

              Собираюсь ли я вернуться в физику в том смысле, что работать над какими-то физическими задачами? Пока я этого не вижу. Ну разве что через алгоритмы машинного обучения. Например, недавнее соревнование про распад тау лептона на кагле. Победители вполне могут публиковаться.

              Можно ли вернуться в академическую среду после того, как из неё ушёл? Не знаю, не пробовал, но по идее это должно быть ещё и проще. Хотя бы потому что у тех кто варится в академической среде, как правило, отвратительный уровень программирования, что приводит к очень неэффективному расходованию времени. Как следствие, я предполагаю, если вы умееть писать хорший код и физику ещё не забыли — вам будут сильно рады. Но опять же я не знаю, не пробовал.

              Насколько я знаю, в США постдоки финансируются с грантов, которые выбил профессор той группы, в которой данный постдок работает. Почему платят мало? Вот хорший текст на эту тему, правда по английски. Сводится он к тому, что в силу различных причин желающих получить позицию постдока очень много, поэтому на них можно экономить и платить им мало.

              Американская наука в замечательном состоянии. Есть деньги, есть люди. И, что самое главное, система построена так, что двинать науку там эффективно. Возможно, лет через 10, различные online курсы потеснят финансовые потоки, которе текут от студентов к университету и что-то поменяется. Или если все выпускники технических факультетов ломанутся куда-нибудь, например, в Data Science и никто не захочет оставаться в академии, то тоже что-нибудь поменяется. Но столько желающих из Китая, Индии, Европы, и т.д. которые готовы быть постдоками в США и заниматься любимой наукой, причём так, что им ещё и платили…
            • 0
              Понравилось.
              • +1
                Спасибо, интересно.

                Я недавно тоже готовился на собеседования на вакансии по Data Science, и в результате получился этот список. Может кому-то он будет полезен.
                • 0
                  Интересная статья, спасибо!

                  А можете рассказать про работу? Чем приходится заниматься, какие знания и навыки действительно используются, какие технологии и языки для исследований и продакшена (если различаются)?
                  • 0
                    Чем занимается наш стартап:
                    Представьте, что компания, поставляет вам электичество имеет некий прибор, который этой компании выдаёт график потребления энергии, как функцию от времени с некой периодичностью. Например PG & E, которая поставляет электроэнергию в дома на тихоокеанском побережье США снимает такие данные ра в 15 минут.

                    Так вот существует задача, которая называется energy disaggregation, которая по идее по данному графику скажет когда и сколько было потрачено на чайник, на телевизор, кондиционер, обогрев бассейна, и т.д.

                    Тема модная, потому что в доллары хорошо переводится.

                    Вот наш стартап этим и занмается.

                    Тут я бы мог наплести как мы применяем конволюционные нейронные сети, чтобы предсказать что и когда применяется. И есть у меня мнение, что с точки зрения точности фиг кто их переплюнет. Похожая по стилю задача решалась вот на этом соревновании и победитель именно так к этой задаче и подошёл.

                    Но, что мы имеем на самом деле:

                    Вообще всё написано на Java, за исключением самой главной части, а именно алгоритма, который занимается этим самым disaggregation.

                    До недавнего времени в компании был только один Data Scientist — девушка, которая писала весь код, который этим energy disggregation и занимался. Причём писала она его на MatLab, причём всилу того, что своий код она понимала, и в то же время ей надо было постоянно воплощать какие-то фичи. И как следствие мы имеем кучу скриптов на матлабе, которые как-то друг с другом связаны, без тестов, без документации, с непонятными названиями переменных, ну и багов тоже хватает. Команда, которая занимается продажами своё дело знает. Поэтому куча проектов, с различными требованиями и меньше их не становится. И больших проблем не было, пока девушка пахала за троих, но потом её переманил Facebook и тут-то все и прищурились и до сих пор глаза толком раскрыть не могут.

                    Сейчас у нас два офиса. Один в кремниевой долине — второй в Индии. В Индии в основном члены Data Science.

                    Матлаб я в глаза никогда не видел, пока не начал тут работать => знание python, Java тут пригогдилось. В третьем языке проще разбираться чем в первом.

                    Алгоритмы и структуры данных — не сильно, но иногда проскакивает. Где лучше object, а где достаточно structure, нужен ли тут binary search и почему HashMap тут сработает на ура.

                    Машинное обучение где-то используется, на базовом уровне, но кусок проекта над которым я работаю с этим не связан, так что я не смотрел пока. Но где-то в коде используется SVM, где-то kd-tree, так что хотя бы для того, чтобы понимать, что происходит, знание алгоритмов машинного обучения на каком-то уровне требуется.

                    Статистика — по мелочам.

                    Как я понимаю, во многих компаниях дело обстоит так — Data Scientist что-то изобретает, потом объясняет это Software Developer и тот уже используя production quality code это и воплощает.

                    Тут не так. Компания на той стадии, когда происходит трансоформация из какого-то быстрорастущего хаоса, который позволяется на начальных стадиях, во что-то более медленное, но структурированное c возможностью обобщения.

                    Так как этот energy diasggregation тема мощная и молодая по уму надо выделять отдельную группу, которая бы занималась разработкой алгоритмов, а не мешать и разработку, и вполощение. Но тут до этого пока далеко, поэтому фиксим баги, воплощаем новые фичи.

                    Из каких-то моих специфическизх навыков, ну например физика, или машинное обучение тут ничего не используется. Просто надо быстро соображать и уметь писать код. Но хитрый. В смысле — вот задача, алгоритм придумай сам. И сейчас из-за того, что у меня нет глубоких знаний в Signal Processing и Computer Vision, изобретаю какие-то велоcипеды, параллельно пытаясь прокачать background в этих направлениях.

                    На тему матлаба. Всем понятно, что с него надо слезать. Но чтобы переписать коду нужно время и сильная мотивация, а тут есть работающий код, который просто где-то как-то правится или модифицируется. Но, видится мне, скоро встрянем по масштабируемости, точности алгоритмов, ещё чему-нибудь и, возможно, это добавит мотивации для перехода. По уму, конечно, надо прототипировать на питоне, а в production на Java. Меня в матлабе больше всего напрягает остутствие вменяемой IDE, типа IntelliJ, приходится делать очень много лишних движений, которые сильно понижают продуктивность.

                    Сильно помогает умение игнорировать людей. Начиная от того, что встать и уйти в пять вечера, не смотря на то, что принято уходить позже и заканчивая тем, что я пропускаю видеоконференции в неурочное время, а в силу того, что у нас и Индии разница во много часовых поясов, такие назначаются достаточно часто. Но пока мне вслух за это никто не предъявил, желания тратить своё личное время на работу я не вижу.
                  • 0
                    Вам следует понять мотивацию девушки и так же было бы неплохо со временем перейти в топовую контору в тот же фейсбук. Судя по всему девушка была незаменимой и сознательно не документировала свой код в МатЛабе. Я бы ее не осуждал с учетом того, что контора аутсорсит в Индию, а поразмышял бы на досуге что да как и какой урок для себя можно из этого довольно простецкого факта можно вынести.
                    Удачи

                    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.