Да, с machine learning можно много интересных вещей делать. Гугл так грипп определяет по запросам, у них каждую осень такая страничка по регионам появляется. С биржами тоже, наверное, люди работают, но не афишируют это громко.
identi.ca/ — аналог твиттера, полностью открытый и распределенный, пока массами не принимаем.
В декабре некоторые новостные сервисы шумели о том что wordpress.com а потом tumblr.com реализовали Twitter API. То есть Twitter API постепенно становится стандартом. Не знаю до какой степени социальный граф можно привязать в этих двух сервисах.
Facebook, в принципе, дает доступ к графу через API. Тут проблема в том что можно по настоящему считать проявлением социального графа. В заметке я выделял тех, кто общается и упоминает, а не фоловит. В Facebook тоже имеет смысл выделять тех, кто отмечен на одной фотографии, пишет на стену… Только такие вещи часто закрыты пользователями.
ЖЖ тоже дает некий граф, но из него все надо делать руками (не через API), хотя может быть я просто не знаю о его существовании.
Поясню на примере. Если человек ставит целью считать PageRank страниц в Интернете — это развлечение. Если потом это число используется чтобы более авторитетные страницы всплывали в поиске — это польза.
Или еще. Если человек категоризирует страницы по ключевым словам — это развлечение. Если потом на основе этих ключевых слов на этих страницах продается реклама — это польза.
Если в твиттере строятся рейтинги, выделяются группы и т.п. — это развлечение. Если на основе этого что-то еще происходит — это может быть пользой.
У меня есть мысли о том что может быть пользой для этих упражнений, но они пока зреют.
Все же получаемая информация носит больше развлекательный характер. Навряд ли она того стоит :)
Если найдутся желающие — пожалуйста, пользуйтесь кодом.
Другие сообщества не смотрел, т.е. не больше 250 узлов.
Код на C++ для расчета кластеризации, который выложила бельгийская группа, использовался в их статье arxiv.org/abs/0803.0476 Там они проанализировали бельгийского оператора сотовой связи (2.6 миллиона узлов). И веб-граф с 118 миллиона узлами.
О требованиях к памяти не задумывался, но, скорее всего они пропорциональны сумме числа узлов и ребер, т.к. модулярность оптимизируется более-менее локально.
В этих упражнениях мною двигало любопытство, а чтобы браться за большие графы должно быть видение какой-то выгоды, пока его особенно нет.
На GAE не запускал. Все-таки не вижу это как единое веб-приложение, а как набор скриптов для анализа. Еще и много сторонних библиотек.
blog.stackoverflow.com/category/cc-wiki-dump/
(до марта 2010 дампы имеются)
код все же выложу, а на аукцион, наверное, пойдет домен
spreadsheets.google.com/viewform?formkey=dEZ1dlBlVFpmU09peS15UUx0aGNNM2c6MA
Так как желающих несколько, то кажется лучшим обсудить это коллективно.
Я добавил Update в тело записи.
До завтрашнего вечера разберемся как быть.
все же фишка прототипа в том что субтитры на двух языках идут параллельно, как у Франка
В декабре некоторые новостные сервисы шумели о том что wordpress.com а потом tumblr.com реализовали Twitter API. То есть Twitter API постепенно становится стандартом. Не знаю до какой степени социальный граф можно привязать в этих двух сервисах.
Facebook, в принципе, дает доступ к графу через API. Тут проблема в том что можно по настоящему считать проявлением социального графа. В заметке я выделял тех, кто общается и упоминает, а не фоловит. В Facebook тоже имеет смысл выделять тех, кто отмечен на одной фотографии, пишет на стену… Только такие вещи часто закрыты пользователями.
ЖЖ тоже дает некий граф, но из него все надо делать руками (не через API), хотя может быть я просто не знаю о его существовании.
Вот еще один интересный проект от Google (API объединяющий многие социальные сети)
code.google.com/apis/socialgraph/
…
Все же не расстраивайтесь так. Это бизнес. Любопытный пример маркетинга.
Поясню на примере. Если человек ставит целью считать PageRank страниц в Интернете — это развлечение. Если потом это число используется чтобы более авторитетные страницы всплывали в поиске — это польза.
Или еще. Если человек категоризирует страницы по ключевым словам — это развлечение. Если потом на основе этих ключевых слов на этих страницах продается реклама — это польза.
Если в твиттере строятся рейтинги, выделяются группы и т.п. — это развлечение. Если на основе этого что-то еще происходит — это может быть пользой.
У меня есть мысли о том что может быть пользой для этих упражнений, но они пока зреют.
Если найдутся желающие — пожалуйста, пользуйтесь кодом.
Код на C++ для расчета кластеризации, который выложила бельгийская группа, использовался в их статье arxiv.org/abs/0803.0476 Там они проанализировали бельгийского оператора сотовой связи (2.6 миллиона узлов). И веб-граф с 118 миллиона узлами.
О требованиях к памяти не задумывался, но, скорее всего они пропорциональны сумме числа узлов и ребер, т.к. модулярность оптимизируется более-менее локально.
В этих упражнениях мною двигало любопытство, а чтобы браться за большие графы должно быть видение какой-то выгоды, пока его особенно нет.
На GAE не запускал. Все-таки не вижу это как единое веб-приложение, а как набор скриптов для анализа. Еще и много сторонних библиотек.