yoklm Oct 23 2014 at 11:03

Как заставить данные говорить

8 min

14K

Data Mining*

From sandbox

+14

Comments 23

Komzpa Oct 23 2014 at 11:09

А можно увидеть ваши исходные данные, набор трансформаций и нормализованный набор данных где-нибудь на github?

yoklm Oct 23 2014 at 14:29

Постараюсь к вечеру по мск выложить файлы.

Komzpa Oct 24 2014 at 13:26

И где?

Помнится, не так давно кому-то захотелось пересчитать все рассчёты в пейперах на какую-то тему, и обнаружилось, что исходных данных нет у примерно 80% работ. Вернее, они есть, но «где-то у кого-то на флешке неизвестно где, если мы ещё не переписали поверх новой версией скрипта или не потёрли». А что, пейпер-то написан, делов-то, кто проверять будет.

На данный момент у меня нет оснований верить ни единому слову из поста, потому что я даже не знаю, каким способом вы выщемливали из всего многообразия телефонные разговоры, например, и не приписали ли нечаянно к телефонным разговорам ещё что-нибудь.

yoklm Oct 24 2014 at 18:22

Вы в конец поста посмотрите на апдейт. К вечеру не получилось, у всех свои дела.

tangro Oct 23 2014 at 13:30

Давайте уточнять: Вы анализируете не реальность, а данные из одного источника. Т.е. получаете ответ не на вопрос «Какова внешняя политика России в последние годы?» а ответ на вопрос «Какой внешнюю политику России показывает сайт kremlin.ru?» — и это единственное, что Вы узнали после всего анализа.

Scratch Oct 23 2014 at 14:39

Такие вещи как факт встречи или телефонного разговора не зависят от политических взглядов. Так что, каким бы ни был субъективным сайт кремля, это одни из немногих фактов, которые действительно можно использовать

tangro Oct 23 2014 at 17:16

Мы знаем о чём сказано, но мы не знаем о чем не сказано. По хорошему для анализа этих данных нужно было бы просканить сайты министерсв иностранных дел ВСЕХ стран мира и взять оттуда информацию о встречах\звонках с Россией.

-1

yoklm Oct 23 2014 at 14:40

Да. Я использую официальный источник для ответа на вопрос и открыто об этом говорю.
Можно добавить другие источники, например, сообщения пресс-служб других стран, но получится другая база данных, понадобится её нормализовать. Для демонстрации метода достаточно данных с кремлин.ру.

Mistx Oct 23 2014 at 14:48

Мне кажется, что для получения относительно достоверной картины, необходимо использовать несколько разнородных источников данных, тогда уровень доверия к факту того или иного события будет совпадать с доверительным интервалом выборки источников.

-1

kenoma Oct 23 2014 at 14:06

Интересно, а как вы решаете задачи, требующие кластеризации данных (поиск «общих новостных тем», например) в экселе?

yoklm Oct 23 2014 at 14:50

Через условное форматирование по словоформам в заголовках и тизерах новостей. Пришлось повозиться, конечно, но занятие оказалось увлекательным.

kenoma Oct 23 2014 at 18:09

А можно поподробнее, что то не очень хорошо себе представляю эту процедуру. Человек-машинный метод?

yoklm Oct 23 2014 at 19:01

1. Условное форматирование.
2. Выделение ячеек заголовка или тизера новости по вхождению текста (например, «поздравление»).
3. Группировка по цвету ячейки.
4. Проставляю соответствующие значения в тип события.

kenoma Oct 23 2014 at 20:15

Такой подход оправдан только если у вас объемы данных небольшие и вы уверены, что ничего не пропустите. Да и вообще, у вас слишком много ручной работы, что меня лично пугает. Я бы на вашем месте посмотрел бы в сторону того же самого R и его инструментарий для работы с text mining'ом, глядишь, и программисту бы меньше работы было.

yoklm Oct 23 2014 at 20:23

Согласна. Меня тоже пугает. В сторону R смотрю на Сoursera с огромным интересом.

Toshiro Oct 23 2014 at 17:11

[1]

Важная деталь: необходимо использовать реляционную модель организации данных. Проще говоря, каждая новая запись должна располагаться в новой строке, атрибуты помещаться в столбцах и принадлежать одному типу данных (дата, текст, число и др.). Мы ведь стремимся к созданию однородной и качественной базы данных.

Вы описали табличную базу данных. В реляционной должны быть выделены сущности, физически вынесенные в отдельные таблицы, взаимодействующие посредством механизма ключей — первичных, внешних, составных и т.д. Я ожидал, что вы по ходу статьи опишете способы выявления сущностей в наборе данных и определение их атрибутов, но вы пишете именно о табличном подходе к хранению данных.

[2]

Приступать к исследованию с желанием доказать готовую гипотезу можно, но не стоит забывать о возможном существовании альтернатив.

Разве в ситуации, когда вы хотите доказать какую-либо гипотезу, при формировании списка критериев оценки — вы не выстраиваете как условия для доказательства так и для опровержения? Если есть численный критерий, поддающийся оценке, всегда можно построить для него шкалу имеющую 2 направления — доказательство либо опровержение.

[3]
И наконец, вы начинаете статью словами «Недостаток данных не позволяет принимать решения, но и изобилие не даёт представление о том, что происходит», и призываете «приступить к поискам ответов». В начале примера вы задали конкретный вопрос для исследования — «Какова внешняя политика России в последние годы»? И далее разделили этот основной вопрос на 3 под-вопроса.

Однако, в заключении статьи вы не ответили ни на 3 этих под-вопроса, ни на основной. И не сформулировали как результат — в чем же заключается преимущество описанного вами метода работы с данными, перед другими, при получении этих ответов. Объяснитесь, пожалуйста.

yoklm Oct 23 2014 at 18:27

1. Реляционный подход подразумевает в том числе и правильную организацию двумерных таблиц, о чём и идет речь. В данном случае можно взять независимый источник о событиях, связать с таблицами официальных пресс-релизов разных стран, получите, что хотите.

2. Ещё ни разу не встречала клиентов, которые хотят слушать опровержения своим гипотезам. Для себя у меня есть списки критериев для оценки тех или иных метрик в веб-аналитике.

3. Если вы внимательно читали подписи к графикам в последней части поста, то там можно найти ответы на заданные вопросы в том или ином виде. Резюмировать не стала, так как не хочу затрагивать фактологию.

Toshiro Oct 24 2014 at 12:08

1. Под правильной организацией двумерных таблиц, вы имеете ввиду нормализацию? Но у вас в статье нет ни разделения исходной таблицы на реляционные сущности, ни их приведения к нормальным формам. Это табличный подход к организации данных, а не реляционный.

2. Т.е. вы не считаете, что обязанность аналитика — это сказать заказчику, если его гипотеза провальна согласно банальной математике, и убедить его не выбрасывать деньги на ветер, пытаясь поровну разложить 5 яиц в 3 корзины?

3. Это некорректно. Вы задали конкретные вопросы во введении. Если в результате выполненных операций вы не можете в заключении дать на них конкретные ответы, с той или иной погрешностью — описанный метод не имеет практической ценности.

-1

DikSoft Oct 24 2014 at 01:29

Не учтен самый важный параметр: по чьей инициативе состоялся разговор или встреча.

-1

UFO just landed and posted this here

DikSoft Oct 24 2014 at 20:52

Статья показывает, что фильтрация на входе так же важна, как и дальнейший анализ. Анализ, кстати, шикарен.
Однако, исходные данные в примере — полный фэйл. То, что состоялся телефонный разговор и об этом пресс служба не смогла не сообщить, ни разу не говорит о том, что это направление было России интересно, или Россия была активна на этом направлении.

Отбрасывание вектора активности делает весь полученный вывод просто красивым математическим этюдом. Без какой-либо практической пользы.

yoklm Oct 24 2014 at 21:24

То, что состоялся телефонный разговор и об этом пресс служба не смогла не сообщить, ни разу не говорит о том, что это направление было России интересно, или Россия была активна на этом направлении.

Данные самые адекватные из всех открытых (не СМИ же парсить в конце концов). Факты встреч и телефонных разговоров как раз и являются маркерами интересов и активности во внешнеполитических взаимоотношениях.

DikSoft Oct 24 2014 at 22:14

— но не направлением интереса самой России и её внешней политики. Это не мы США и Германией интересуемся, это они нас на место ставят. Если грубо упростить.

Аналогия: вас постоянно затапливает сосед и вы на это реагируете т.е. общаетесь. Это что, значит, что вы соседом интересуетесь и он входит в сферу Ваших притязаний? Смысл теряется без полноценного критерия отбора данных. И задача не решается в итоге.

Show the best of all time