Pull to refresh
14
0
Александр Труфанов @Truf

User

Send message

Помню BOINC. SETI не баловался, но по-моему Gerasim@Home считал.

Если бы они имели отношение к религиозным культам, то точно нашли бы то, что искали.

Также плохо. Я уже не помню детали. Помню, что практически ото всех идей пришлось отказаться, т.к. либо данные не лезли в выделенный на облаке RAM, либо все начинало жутко тормозить и я боялся что тестер просто решит что все зависло, либо долго реализовывать, да и просто не хотелось. Я под спойлером «визг, писк, истерика» в статье об этом писал. Я даже не уверен, был ли у меня там stemming. Биграммы точно были. Stop-list каких-то слов был, вроде. Очень небольшой. Возможно триграммы по минимуму, самые частые, и то вряд ли. Никакого POS detection'а — не влез. Никакого, естественно адаптивного обучения модели под пользователя. А какое качество может быть такими методами? Только вывод наиболее частых окончаний коротких словосочетаний, из очень маленькой БД, составленной по небольшому корпусу. Помню, я заморочился с GUI, чтобы было как на телефоне, и сделал реальное окошко ввода, которое после того, как увидит пробел (конец слова), автоматически делает prediction, и новые suggested words выводит на 5 кнопках под ним. И по нажатию на эти кнопки, слово само вставляется и опять выполнялся prediction. В общем, даже ничего не вводя, а тыкая на эти кнопочки можно было набрать осмысленную фразу. И из этого я заключал, что все работает. И проверял остальных я, вроде, также. Знаешь, что после «I'm going » в топ 5 должен попадать «home» или «to», а после «happy» в suggestions скорее всего должен быть «birthday». Если оно там оказалось, значит какой-то prediction человек сделал. На R в облаке ничего серьезнее я представить не смог. И оно никому не надо, имхо.
Самое смешное, что бета работает на 15.04 если проигнорировать этот прописанный в deb dependance на версию библиотеки. Т.к. новый libc, видимо, binary compatible. И это не удивительно.
Если вам настолько некогда, что вы пол года одну строчку в deb поменять не можете, так напишите крупными буквами на deb.2gis.ru и beta.2gis.ru о том, что проект на холде. И работает сборка только в Ubuntu\Kubuntu v.A, v.B и v.C. Или убейте эти промо странички. Иначе это как-то, не по взрослому.
И он ничем не отличается от полученного оффлайн способом? Нигде не вписано что обучение велось заочно или онлайн? Если так, то это круто что MOOC до такого дошел.
А что за диплом выдается, как он котируется? Есть ли скан или макет?
Суд по сообщениям в группе в ВК он никому не нужен и загибается.
>Является ли описанная задача задачей машинного обучения?

Если я правильно понимаю, то является, и это — active learning.
Грубо говоря, функция F (допустим линейная y=AX+c, где X — вектор признаков, A — вектор их весов) будет выдавать число > 0, если объект принадлежит классу 1, и < 0 — если классу 2. Есле abs(F(x)) < eps, то к классу 3 (не определился). Это обычный классификатор, который вы обучаете, предъявляя объекты с готовыми ответами. Потом можете либо просто применять функцию F на объекты, либо выдрать из нее коэффициенты и изучать, какие зависимости они описывают.

Экзотическим здесь является именно процесс обучения путем опроса пользователя.

Мне кажется, это реализовано в одном из режимов Vowpal Wabbit. Правда, я VW в таком режиме никогда не использовал. По моим ощущениям, в нем он должен классифицировать объекты, а в случае, если классификатор сомневается больше чем задано — то запрашивать правильный ответ у пользователя. В идеале, со временем он все реже и реже будет прибегать к помощи оператора.

Вот статья мейнтенера VW про этот алгоритм (он не единственный, реализованный в VW): papers.nips.cc/paper/4014-agnostic-active-learning-without-constraints.pdf
И т.к. VW — opensource, то его всегда можно допилить (что я периодически делаю) и легко подключить к любой внешней системе (в виде статической библиотеки, например).

>Если этого не достаточно, то можно предъявлять пары объектов и спрашивать, какой из них больше подходит.

А вот этого VW точно не умеет и не будет уметь. Он реализует online learning для работы с большими объемами данных. Он хранит только коэффициенты функции (регрессора) и не хранит сами данные. Update and forget. Поэтому сравнивать 2 объекта не может.
Интересно, что они сделали под WinPhone… Он ведь наглухо огорожен.
Я у bcs взял термнал ROX для торговли на NYSE. Ежемесячная комиссия за пользование терминалом — 0. Поэтому и взял, т. к. посылаю приказы раз в пол года. Правда они его считают «ориентированным на профессионалов» (читай: если что разбирайтесь с ним сами по инструкции) и на сайте bcs публикуется старая нерабочая версия — нужно качать с сайта самих leksecurities.
Я недавно посмотрел интересное видео на эту тему: Our Brain On Coffee
И из него вытекает, что «заряд энергии», которое дает кофе — это не совсем то, что энергия, получаемая с пищей в килокалориях. А следовательно, диета к эффекту кофе будет иметь очень непрямое отношение, если вообще будет. И соскочить с него не поможет — можете балансировать питание, можете не балансировать — отказаться от кофе будет одинаково тяжело.
Если же брать просто продуктивность и диету — то она может влиять не нее, т.к. при недоедании работать нельзя, а при переедании хочется спать. Имхо.
Мое личное мнение следующее.
Я бы сделал две оговорки: во-первых я учился по куче источников разом и в голове у меня каша. В смысле, что я уже не смогу сказать откуда я узнал то или иное. Поэтому, про качество обучения на coursera мне, как ни странно, говорить тяжело. Во-вторых, мое представление о западном образовании все же довольно теоретическое.

Как мне кажется, данная специализация, да и любой другой курс на coursera — прекрасный образец западной подготовки кадров.
Про западный подход
Оно не дает фундаментальных знаний — но дает достаточно прикладных. Поэтому, оно не работает (и не предполагается) без допиливания. Под допиливанием я понимаю самообразование, либо систему менторства непосредственно в компании.

В случае coursera:
Во-первых, чтобы быть отличником не обязательно знать всё или ответить на все вопросы. Просто наберите >90%. Это сильно контрастирует с подходом в наших школах.
Во-вторых, материал подается в довольно свободной манере. Некоторые вещи опускаются, по некоторым даются только направления для дальнейшего изучения (ссылки на книги, сайты). Отсюда возникает чувство «галопом по Европам». Я замечал, что в тесте могут попасться вещи, которые в лекции не давались, или давались поверхностно. У нас не принято спрашивать со студента то, что ты ему не объяснял лично. Поэтому преподаватель зачитывает учебник вслух. Но учитывая пункт 1 — это нормально для них. Т.е. студент учит необходимый минимум и, если ему это интересно, или он считает, что ему это нужно — доучивает что-то дополнительно. Доп знания тоже могут оценить, но в любом случае он — отличник. В этом есть своя гибкость.
В-третьих, знания не фундаментальные, а в значительной степени прикладные. Не смотря на слово science в названии, здесь data scientist — это профессия, у которой есть инструменты и которая дает продукт (отчеты). Инструменты и технологии стараются освещать наиболее современные. И гоняют по полной производственной цепочке — сбор данных, обработка, анализ, отчет, публикация отчета/презентации. Все примеры — из какой-то предметной области. То, что в случае другой предметной области может быть совсем по-другому, считается само собой разумеющимся — сами разберетесь. И в этом тоже есть смысл. Но это совсем холиварная тема.


Если по существу
может ли человек, не сталкивавшийся раньше с R и data science, чему-то реально научиться на этом курсе?

Именно такой и может. Я — научился. Особенно в стеке средств R, т.к. это прикладной момент. На нем и фокус был.
Собственно data science, конечно, слишком обширная тема, чтобы ее могли дать глубоко. Я бы даже сказал, что это зоопарк направлений, и термин довольно часто применяется в разных значениях. К примеру. machine learning и natural language processing, затрагиваемые в рамках специализации, также присутствуют в виде отдельных, более подробных курсов от других вузов. И там оно тоже поверхностно. NLP можно год учить отдельно от ML. Любое применение DS к предметной области вытекает в отдельную субдисциплину. В глубину вообще можно уходить бесконечно. Меня лично устраивает глубина, к примеру, видеолекций по машинному обучению от ШАД Яндекса. И то там под конец торопятся и, вероятно, не все интересное успели рассказать. Но на практике такая глубина может быть не нужна — мне, например, более чем достаточно. Тут нужно исходить из того, сколько вам нужно для комфортной работы.
Достаточно ли будет одних курсов для работы в любой компании — вряд ли. В Яндекс точно не возьмут.
А вот если у вас уже есть фундаментальные знание — то coursera'ой вы его не углубите. Оно вообще тяжело дается и редко сильно меняется — на то оно и фундаментальное.

Стоит ли оно того с точки зрения полученных знаний, а не корочки как таковой?

Если есть понимание того, что вам нужен R и иже с ним — то стоит. Если R не нужен, то можно надергать курсов конкретно по ML, data science и (опционально) big data. Поискать их применение в интересующей вас области. Рекомендательные системы, маркетинговые исследования, business intelligence, или там, Genomic Data Science. И раз не нужен R, то скорее всего, потребуется Python. Если нужен big data — учить big data.

Вообще у меня сложилось мнение, что фундаментальными в DS можно назвать только тер. вер., статистику и machine learning с численными методами. Все остальное — техника (R, big data, in memory computing), либо практическое приложение, либо зоопарк (data mining, business intelligence). И это нужно набирать дополнительно как блюда из меню — по мере необходимости.
Эмм.
Представители «Яндекса» отрицают факт закрытия проекта:

«Мы запустили Яндекс.Кит 19 февраля 2014 года. В прошлом году мы договорились о предустановке Яндекс.Кита на устройствах Explay, Huawei, Smarto, DEXP, — сообщили в пресс-службе «Яндекса», — Сейчас этот продукт активно не развивается, в том числе и из-за противодействия со стороны Google. На текущий момент на Яндекс.Ките, насколько мы знаем, остались в продаже некоторые планшеты Smarto и DEXP».
Это хороший вопрос. Я не стал его включать в пост, но ответ на него у меня был — и частный и generic.

Лично для меня этот вопрос не стоял — т.к. я все равно бы грыз гранит науки в этом направлении (а работу я не ищу). И скорее всего, пересмотрел бы большинство из этих курсов в свободном режиме, без сдачи тестов и пр. — просто в рамках самообразования. Я так иногда делаю — записываюсь на курс только для того, чтобы взглянуть на материалы. Смотрю что нравится и ухожу с него. Я просто пожертвовал flexibility в этом вопросе ради сертификата. Если вы в такой же ситуации, то вопрос будет только в стоимости сертификации.

Для человека, который хочет корочку по Data Science, чтобы получить работу в Data Science, полезность такой сертификации менее очевидна и субъективна.

А. Допустим, вы считаете, что сертификат вам нужен. Тогда можно рассмотреть альтернативы: если не Coursera, то что? Либо ШАД и пр. академические проекты обучения, либо другие MOOC с сертификацией. Если другие MOOC — то чем они лучше coursera придется еще сильно подумать. Если ШАД — то тут я растекусь на еще один абзац.

ШАД
ШАД — это серьезные ребята с фундаментальным академическим подходом, обучением два года в нерабочее время, набором весной. Конечно, лично я их корочку котировал бы куда выше coursera'вских. Но меня остановило:
1. Кто знает о ШАД за бугром? Придется самому всем объяснять как это круто?
2. Набор раз в год, а решение принималось осенью.
3. 2 года учебы вместо 6 мес.
4. Невозможно бежать впереди паровоза — ускорить пункт 3 никак не получится.
5. Трачу время на то, что и так знаю: C++, Java и пр. фундаментальные около data science вещи.
6. Я слишком стар и счастливо забыл многое из того, что нужно показать на вступительном экзамене. По моим прикидкам, месяц мне нужен только на подготовку к нему.


В общем, если вы студент последних курсов ВУЗа — то вам и ШАД и Инфосфера Mail.ru. А для прочих такой метод обучения, возможно, будет чрезмерным.

Б. Допустим сертификат не нужен.
Всем понятно, что дипломы и корочки — это просто ачивки, помогающие HR вас найти и принять решение, т.к. сами они ничего не понимают в вашей предметной области. (В этом плане с ШАД проблемы по п.1, но не большие, т.к. даже иностранные компании используют локальные HR агенства, а не ищут сами). Если вы преодолеете первое собеседование, то далее будут собеседование с людьми, которые знают Data science и будут разбираться в ваших компетенциях по-существу. Т.о. все что вам нужно — повысить свой visibility, чтобы получить шанс поговорить с этими людьми — а дальше visibility вам не поможет. Если у вас есть способы повысить свой visibility без сомнительных корочек (опыт работы в data science, публикации, участие в проектах, связи и пр.) — то вам они, конечно, не нужны. И да, голый сертификат visibility вам не сделает.

Стоит ли оно 11т.р./18т.р./28т.р.? — всецело зависит от вашего текущего/ожидаемого дохода. Рассматривайте это как рискованную венчурную инвестицию исходя из своего финансового положения.

Итого, как видите, ответ получается общим. Если его применить к конкретному человеку, то его степени свободы схлопнутся, и он превратиться в какую-то простую, но никому другому не подходящую инструкцию. Поэтому, я это графоманство и исключил из поста.

Кстати, небольшой инсайд из coursera'вской рассылки:

Well, here we are at the end of the first Data Science Specialization Capstone session. Since April, the specialization has accumulated more than 2.8 million enrollments and issued more than 85,000 verified certificates. More than 500 participants joined this capstone session.


Я не понимаю, откуда эти цифры. От какого апреля считают, как сосчитали 85000 и почему только 500 находятся на capstone. Возможно, большинство дергают единичные verified курсы и не собирают full house из них для специализации, хотя трекаются как проходящие специализацию.
Считаю, что Яндекс поступает правильно и имеет все шансы выиграть дело. Интересно, каковы будут результаты этой судебной победы? Более того, опрометчиво было не использовать этот рычаг раньше.
Советую курс Антропогенез на postnauka.ru/courses/17393
Емнип, 2-е видео как раз про мозг и размеры. Где-то мне попадался источник конкретно про историю развития теор подходов к измерению мозга, но я его не вспомнил.
Если не ошибаюсь, то серьезная наука в массе отказалась от теории зависимости интеллекта от размера мозга. В том числе, и от его удельной массы к телу. Во-первых из-за серьезной вариативности этого признака у людей — в разы он может отличаться, а у женщин так статистически меньше, чем у мужчин. Во-вторых, потому что мозг не орган, а совокупность отдельных органов, в разные исторические периоды возникших и за разные вещи отвечающих. И сравнивать нужно, грубо, кору головного мозга. А, к примеру, у птиц, если не ошибаюсь, она серьезно иначе устроена, чем у млекопитающих — эволюционно давно разошлись мы с ними. У неандертальца мозг был больше нашего, а у нас исторически уменьшается.
Вот ответ HERE:
«Offering local navigation allowed us to meet the price point while still providing a great location experience.» В общем, сэкономили.
Ну думаю, что расчет на это. Та же Европа состоит из довольно небольших стран и выехать за пределы одной из них может человек любого достатка.
С чем связано текущее ограничение и в чем суть этого ограничения, видимо, нужно спрашивать у Navteq.
Действительно, речь о голосовой turn-by-turn навигации для авто. (сам не вожу)
Посмотрел в RDA, действительно, просит выбрать только один регион для нее (любой). Доступна вся РФ. Никаких опций по докупке других стран или разблокировании этой опции не нашел. Не знаю, с чем это связано и что будет происходить при выезде из выбранного региона.
Так и есть, большинство API просто wrapper'ы — все имена классов и пр совпадают. В теории, меняется только имя библиотеки, на которую ссылается приложение, и apk пересобирается. Это так для Maps. Правда, нужно еще ключ на карты запросить и вшить, вроде вместо gmap'овского. А вот с In-App Purchase придется повозится, если используется.
1
23 ...

Information

Rating
Does not participate
Location
Россия
Registered
Activity