Pull to refresh
63
0
texamus @texamus

User

Send message
Да, с machine learning можно много интересных вещей делать. Гугл так грипп определяет по запросам, у них каждую осень такая страничка по регионам появляется. С биржами тоже, наверное, люди работают, но не афишируют это громко.
в 548 строчке можно заменить math.trunc на int и тогда код будет работать и в Python 2.5 (иначе только 2.6)
А вы знаете, что *всю* информацию сайта можно официально скачать по торрентам и датамайнить по самые не хочу:

blog.stackoverflow.com/category/cc-wiki-dump/

(до марта 2010 дампы имеются)
Пожалуйста. Все существенное я продублирую в почтовой рассылке.
выслал, но они обычно идут несколько дней
до завтра в посте дам ссылку, где будет код, вы сможете его форкнуть и развивать
да, я к такой мысли склоняюсь — не зря ведь за котят какую-то копеечку платят

код все же выложу, а на аукцион, наверное, пойдет домен
если есть желание участвовать в коллективном обсуждении, пожалуйста, заполните форму
spreadsheets.google.com/viewform?formkey=dEZ1dlBlVFpmU09peS15UUx0aGNNM2c6MA
если есть желание участвовать в коллективном обсуждении, пожалуйста, заполните форму spreadsheets.google.com/viewform?formkey=dEZ1dlBlVFpmU09peS15UUx0aGNNM2c6MA
если есть желание участвовать в коллективном обсуждении, пожалуйста, заполните форму spreadsheets.google.com/viewform?formkey=dEZ1dlBlVFpmU09peS15UUx0aGNNM2c6MA
Свяжусь завтра по хабрапочте.
Отлично!
Так как желающих несколько, то кажется лучшим обсудить это коллективно.
Завтра свяжусь через хабрапочту.
Спасибо.
Я добавил Update в тело записи.
До завтрашнего вечера разберемся как быть.
да, они как раз перевод субтитров около 9 месяцев назад ввели :)

все же фишка прототипа в том что субтитры на двух языках идут параллельно, как у Франка
identi.ca/ — аналог твиттера, полностью открытый и распределенный, пока массами не принимаем.

В декабре некоторые новостные сервисы шумели о том что wordpress.com а потом tumblr.com реализовали Twitter API. То есть Twitter API постепенно становится стандартом. Не знаю до какой степени социальный граф можно привязать в этих двух сервисах.

Facebook, в принципе, дает доступ к графу через API. Тут проблема в том что можно по настоящему считать проявлением социального графа. В заметке я выделял тех, кто общается и упоминает, а не фоловит. В Facebook тоже имеет смысл выделять тех, кто отмечен на одной фотографии, пишет на стену… Только такие вещи часто закрыты пользователями.

ЖЖ тоже дает некий граф, но из него все надо делать руками (не через API), хотя может быть я просто не знаю о его существовании.

Вот еще один интересный проект от Google (API объединяющий многие социальные сети)
code.google.com/apis/socialgraph/

В моей потоке промелькало упоминание Fred Wilson :)

Все же не расстраивайтесь так. Это бизнес. Любопытный пример маркетинга.
Все же и вы меня не совсем так поняли.

Поясню на примере. Если человек ставит целью считать PageRank страниц в Интернете — это развлечение. Если потом это число используется чтобы более авторитетные страницы всплывали в поиске — это польза.

Или еще. Если человек категоризирует страницы по ключевым словам — это развлечение. Если потом на основе этих ключевых слов на этих страницах продается реклама — это польза.

Если в твиттере строятся рейтинги, выделяются группы и т.п. — это развлечение. Если на основе этого что-то еще происходит — это может быть пользой.

У меня есть мысли о том что может быть пользой для этих упражнений, но они пока зреют.
Все же получаемая информация носит больше развлекательный характер. Навряд ли она того стоит :)
Если найдутся желающие — пожалуйста, пользуйтесь кодом.
Другие сообщества не смотрел, т.е. не больше 250 узлов.

Код на C++ для расчета кластеризации, который выложила бельгийская группа, использовался в их статье arxiv.org/abs/0803.0476 Там они проанализировали бельгийского оператора сотовой связи (2.6 миллиона узлов). И веб-граф с 118 миллиона узлами.

О требованиях к памяти не задумывался, но, скорее всего они пропорциональны сумме числа узлов и ребер, т.к. модулярность оптимизируется более-менее локально.

В этих упражнениях мною двигало любопытство, а чтобы браться за большие графы должно быть видение какой-то выгоды, пока его особенно нет.

На GAE не запускал. Все-таки не вижу это как единое веб-приложение, а как набор скриптов для анализа. Еще и много сторонних библиотек.

Information

Rating
Does not participate
Location
Украина
Registered
Activity