Pull to refresh
36
0
Александр Беспалов @magisterbes

Прикладной математик

Send message
Я скорее про то, что я сам не проходил с данными весь процесс от их извлечения до финальных выводов анализа и это может быть могло как-то повлиять. Если вы уверены в своих данных, естественно, это плюс к уверенности в анализе.
Да, я это и имел в виду. И это как раз то, чего хотелось не делать, потому что интуитивно кажется, что при этом какая-то информация теряется. =)
Ну, собственно, этим все и закончилось, в некотором смысле. По-сути, последний вариант это вариант векторизации с точностью до слов(а не до букв). И на этом длинном векторе в данном случае строится классификатор типа — «а давайте отсортируем элементы вектора, чтобы „хорошие“ были справа, а „плохие“ слева.» И дальше отсечка по индексу в векторе. Если такой запихнуть в сеть, она тоже с этим справится, но это уже излишне.

И этом, в том числе, некоторая печаль, потому что в предложениях по одному слову и мера между словами не очень определена(в этой постановке), поэтому просто надо брать все существующие комбинации, как отдельные неделимые элементы вектора. Embedding формата word2vec тут не прокатывает, потому что у слов нет ближайшего контекста. Опять-таки, в рамках этой зачади.
Скажите, что понимается под «взаимодействием с каналом»?

Я не вводил такое понятие, но наверное, под этим можно понимать, например, клик на рекламное объявление, который бы зафиксирован. В статье по большей части про то, что кликнуть на N разных реклам лучше, чем N раз на одну и ту же.

«Если информацию о показах нельзя получить с привязкой к конкретному ID, то и цепочку на ней не построишь»

Да.

«Правильно ли понимаю, что под «цепочкой взаимодействия с каналом» в данной статье понимается именно серия переходов на сайт?»

Ну или не на сайт. Мало ли какие действия фиксируются как рекламные. Важно, что они каким-то способом привязаны к одному ID пользователя и отсортированы по времени по возрастанию. Опять-таки я не вводил понятия «цепочка взаимодействия с каналом». Для меня это понимается как частный случай цепочки в которой несколько кликов по разным рекламным действиям, но только как бы с одним действием, поэтому «с каналом».
Например, данные из GA могут переноситься в raw формате в BigQuery, хотя сам GA дает только агрегированные. Но по большому счету, с моей стороны, все начиналось с того, что «есть данные...» Даже если кто-то их как-то и доставал из моей организации и настраивал хранилище и связь с источниками, я не вникал.

Я понимаю, что это грозит некоторой необъективностью, но тут надо работать с тем, что есть.
Ну так тогда и хорошо, что реклама мотивирует людей смотреть другую рекламу, а не сразу бежать и покупать, потому что все равно сразу никто не бежит и не покупает.
Это было бы прекрасно, если бы было правдой, с учетом средних конверсий 1 на 100, 1 на 1000 человек. А при одиночном просмотре рекламы 1 на 100 000. Такое маленькое количество лохов…

Написать скрипт в селениуме, который бы шел по странице и все качал с нее?

Я прошарил собственных подписчиков, коих тыщи 4 т., подписчиков друга, коих 5 т. и стал иметь в виду тещ товарищей, которые показались мне интересными.
Безусловно. Но у всех разный субъективный опыт и разные представления об адекватности.
Да. Но и без него классификатор сильно лучше подброса монетки.
Так поэтому я и не назвал это все методом поиска ботов, потому что есть куча людей с достаточно мизерной социальной жизнью внутри соцсети. Это все ищет тех, кто хочет общаться там и общается. =)
Классификатор не обязан быть идеальным. Таких людей, видимо, придется искать отдельно.
Видимо, вы не так инересны как аккаунт ВК.
Надеюсь, вы купили?
Адекватность реально существующих людей это понятие субъективное. По-моим представлениям, адекватных не отсекает. А так-то, конечно, самые адекватные вообще в соцсетях не сидят.
Ну… Тут я подумал, что окружение важнее, чем собственно наполненность страницы человека. С самой страницы можно факторов набрать, но и бота под это подстроить легко. А вот перелопатить все окружение бота это более энергозатратно.
Значит просто можно проверять на соответствие «плотности городов», и бот будет достаточно разреженным. Если это не Москва, естественно.
Так там дальше долгий кусок текста, почему с экспертами не получилось, и пришлось самим оценивать.

Например, сделать небольшое desktop приложение, которое бы применяло к картинке случайные варианты гаммы, а заинтересованные люди бы оценивали эти варианты от 0 до 10.


Заинтересованные лица это, собственно, те, кто будет жить.

Разница в фото сильно видна, наверное, людям, которые имеют какие-то касательства к работе с цветом. Я же удивился насколько похоже вышло, с учетом, конечно, что в реальности все реальное. Но это, наверное, уже вопрос моей непритязательности. Но, если бы я был более требовательным к тонкостям цвета, был бы более требовательным и к подходу в выборе метода. =)
Тут как раз анализ делался на основе оценок 3 человек, которые будут там жить. Может я не акцентировал внимание на этом, но десктопное приложение трудно расшарить миллиону людей и заставить их голосовать. Поэтому голосовали только будущие жители(включая меня)

Можно было бы конечно, сделать ВР приложение на какой-нибудь КАД системе для интерьеров. Но все равно пришлось бы выбирать как-то из вариантов. А времени бы это убило больше, потому что я не прям большой знаток таких систем. Замена цвета это грубое, но сносное приближение. В принципе, на мой непритязательный взгляд предпоследнее фото с тем, что вышло после покраски нормально соотносится с тем, что было на финальном выборе при заливке. Модель не должна быть идеальной, она должна помогать решать задачу. В данном случае даже не задачу идеальной покраски, а задачу нерешительности…

Information

Rating
Does not participate
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Works in
Date of birth
Registered
Activity