Pull to refresh
106
0
Cher @Cher

User

Send message

Elasticsearch — сортируем выдачу руками

Reading time5 min
Views18K
Благодаря своей гибкости и масштабируемости, сегодня Elasticsearch находит применение во все более широком круге задач — от поиска до аналитики. Однако есть ряд вопросов, с которыми Elasticsearch не справится в одиночку.

Например, ваша поисковая выдача меняется от пользователя к пользователю. И сортировка, основанная только на данных самого документа (TF/IDF или сортировки по любым полям документа), не дает нужного результата. При этом в поисковой выдаче интернет-магазина вы хотите показать товар, который пользователь уже смотрел на первых позициях.

Другой пример. Параметр, влияющий на сортировку, меняется слишком часто: Elasticsearch построен на базе Lucene и использует append-only хранилище, обновление документов фактически отсутствует. Каждое изменение документа приводит к его переиндексации и влечет периодическое перестроение сегментов хранилища. Иными словами, если вы хотите отсортировать выдачу по количеству просмотров документа на сайте, то самое тупое, что можно сделать, — это записывать каждый просмотр в Elasticsearch. И здесь, похоже, назрел вопрос использования внешнего хранилища мета-информации, используемой для сортировки документов.


Читать дальше →
Total votes 26: ↑26 and ↓0+26
Comments16

Indexisto — прощупываем рынок

Reading time3 min
Views5.3K
Прежде чем начать любое дело, неплохо провести предварительные калькуляции. Посмотреть на конкурентов, постараться выяснить основные цифры, понять на чем держится бизнес. Для разных проектов это будут совершенно разные цифры. Если вы торгуете яхтами, вероятно бизнес держится на 5 сделках в год, которые вырастают из 100 лидов, которые вам привели 3 аккаунта, которые весь год тусовались в правильных местах с правильными людьми.

Если ты делаешь мобильное приложение показатели проще и знакомее. Сегодня мы расскажем о первых результатах тестового запуска нашего мобильного браузера контента Indexisto (читай описание проекта в статье на Хабре), осмыслим полученные показатели и подумаем о перспективах.



Читать дальше →
Total votes 23: ↑20 and ↓3+17
Comments1

Indexisto — мобильный браузер-читалка нового поколения

Reading time3 min
Views9.1K
Тернист и пивотист путь стартапера. Вот и мы в Indexisto продолжаем поиск наилучшего применения тому что умеем, и вот что получилось:

Indexisto


Мы сделали мобильный браузер-читалку (пока только Android — тыц Play Market). Далее в процессе рассказа будет понятнее почему в названии присутствует громкое слово «браузер» и почему «нового поколения».
Читать дальше →
Total votes 48: ↑38 and ↓10+28
Comments23

ElasticSearch 1.0 — новые возможности аналитики

Reading time9 min
Views32K
Многие слышали о высокоуровневом поисковом сервере ElasticSearch, но не все знают, что многие используют его не совсем по прямому назначению. Речь идет о реалтайм-аналитике различных структурированных и не очень данных.

Эта статья также назрела ввиду того, что многие крупные интернет-проекты рунета в 2014 году получили письма счастья от Google Analytics с предложением заплатить $150 000 за возможность использовать их продукт. Я лично считаю, что ничего плохого в том, чтобы оплатить труд программистов и администраторов нет. Но при этом это довольно серьезные инвестиции, и, может, вложения в собственную инфраструктуру и специалистов, даст большую гибкость в дальнейшем.

Аналитика в ElasticSearch основана на полнотекстовом поиске и фасетах. Фасеты в поиске — это некая агрегация по определенному признаку. Вы часто сталкивались с фасетами-фильтрами в интернет-магазинах: в левой или правой колонке есть уточняющие галочки. Ниже пример тестового фасетного поиска у нас на главной странице http://indexisto.com/.



Буквально неделю назад вышла стабильная версия поискового сервера ElasticSearch 1.0, в которой разработчики настолько серьезно поработали над фасетами, что даже назвали их Aggregation.

Так как тема еще не освещалась на Хабре, я хочу рассказать, что из себя представляют аггрегации в ElasticSearch, какие возможности открываются и есть ли жизнь без Hadoop.
Читать дальше →
Total votes 81: ↑75 and ↓6+69
Comments19

Доступ к контенту iFrame с другого домена

Reading time9 min
Views113K
Сегодня я хочу рассказать о том, как мы в своем проекте indexisto.com сделали аналог инструмента Google Webmaster Marker. Напомню, что Marker это инструмент в кабинете Google Webmaster, который позволяет аннотировать ваши страницы Open Graph тегами. Для этого вы просто выделяете мышкой кусок текста на странице и указываете что это title, а это рейтинг. Ваша страница при этом грузится в Iframe в кабинете вебмастера.



Теперь Google, встретив подобную страницу на вашем сайте, уже знает, что за контент на ней опубликован, и как его красиво распарсить в сущность (статью, товар, видео..)

Нам был нужен подобный функционал. Задача казалась несложной и исключительно клиентсайд. Однако на практике решение лежит на стыке клиентсайда и серверсайда («чистые» JS программисты могу ничего не знать про различные прокси серверы и очень долго подходить к снаряду). При этом я не нашел в интернетах статью которая описывала бы всю технологию от начала до конца. Также хочется сказать спасибо пользователю BeLove и нашим безопасникам за помощь.

Читать дальше →
Total votes 64: ↑61 and ↓3+58
Comments35

Как это сделано: префиксный поиск

Reading time5 min
Views44K
Мы живем во времена, когда кажется, что все просто и все есть. Нужно сделать масштабируемый проект — используем MongoDB, нужна очередь — вот RabbitMQ, нужно поднять функционал поиска — раз плюнуть: ставим Sphinx, Solr, ElasticSearch (нужное подчеркнуть).

Но здесь лишь доля правды: — при определенном везении можно поставить нужный сервер и все зашевелится. Загвоздка с поиском состоит в том, что пользователи уже порядком привыкли к высокой планке, которую задают «большие ребята», а тот поиск, что поднимется у вас «из коробки», будет явно недотягивать. И если очередь или базу данных вы можете добить железом прежде, чем будете оптимизировать, то поиск железом не добьешь.

Существую толстые книжки про настройки полнотекстового поиска, однако их мало кто читает. Сегодня я хотел бы на пальцах поговорить о том, что нужно учесть, когда вы делаете префиксный поиск с выводом результатов по мере набора слова или фразы.

Мы посмотрим, как с помощью нашего проекта http://indexisto.com сделан поиск на сайте http://maximonline.ru и сравним его с тем, что есть на других сайтах.

Для начала несколько примеров. Возьмем запрос «Битва за Лос Анджелес» и представим, что его напишут неправильно «Лос Анжелес биттва». Как видно, пользователь не знает точно, как пишется имя города, и забыл, как звучит название фильма, а также у него дрогнула рука в конце на слове «битва».

Выберем достойные проекты рунета, в которых есть префиксный поиск, и попробуем поискать там наш запрос:

Проект Правильный запрос Неправильный запрос
afisha.ru

все ОК

Не найдено
ivi.ru

все ОК

Не найдено
vk.com

все ОК

Не найдено
maximonline.ru

все ОК

все ОК

Читать дальше →
Total votes 103: ↑81 and ↓22+59
Comments37

Как это сделано: парсинг статей

Reading time4 min
Views81K


Для меня всегда было некоей магией то, как Getpocket, Readability и Вконтакте парсят ссылки на страницы и предлагают готовые статьи к просмотру без рекламы, сайдбаров и меню. При этом они практически никогда не ошибаются. А недавно подобная задача назрела и в нашем проекте, и я решил копнуть поглубже. Сразу скажу, что это «белый» парсинг, вебмастеры сами добровольно пользуются нашим сервисом.
Читать дальше →
Total votes 123: ↑112 and ↓11+101
Comments36

От создателей Indexisto — «Поиск для Хабра II»

Reading time4 min
Views13K


Хмурым осенним утром в качестве эксперимента мы запилили свой поиск для Хабра со структурой и скоростью. На все работы ушло минут 10. Тем кому лень читать тык для просмотра нового поиска (поисковый инпут прямо в теле записи в блоге)

Для получения такого поиска мы не просили доступа к базе, или заливки статей через наше API. Все делается очень просто, через обычный краулер. Для примера мы скраулили порядка 5000 статей.
Читать дальше →
Total votes 68: ↑59 and ↓9+50
Comments20

Новый взгляд на поиск по сайту

Reading time5 min
Views12K

Представляем проект indexisto.com — поиск для сайтов и мобильных приложений.
Проект в альфе, просьба отнестись с пониманием (нажимать аккуратно). Тестовая выдача сейчас по английскому контенту музыкальной тематики. Нам также очень нужны early adopter'ы, если поиск заинтересовал пишите ЛС.



Хроники

История началась пару лет назад, когда я переехал с Windows на Убунту, а потом продолжилась с переездом на Mac. Подобный переезд может дать начало десятку историй, однако у меня случилась одна — я вдруг стал пользоваться поиском по операционной системе как основным инструментом навигации.

В обеих системах поиск глубоко интегрирован, разбит на категории (файлы, программы..), работает очень быстро и имеет ряд приятных особенностей, как-то учет ранее введенных запросов в результатах выдачи. Со временем поиск научился понимать меня с первой введенной буквы.

Я так же стал замечать множество других сценариев, когда поиск здорово экономит время. Поиск по «настройкам» в Chrome, поиск по контактам в Skype, переход на человека через поиск в Facebook, подсказка URL в адресной строке Firefox с учетом частоты заходов на сайты…

В тоже время ситуация с поиском на сайтах в 99% случаев удручающая. Складывается ощущение что никто не воспринимает поисковую строку всерьез и не тратит времени на подумать. Да да, и на Хабре тоже.
С этого все началось )
Читать дальше →
Total votes 71: ↑66 and ↓5+61
Comments30

Еще раз про изучение языков

Reading time1 min
Views960
Приветствую сообщество. Все как обычно — сделал сервис и спешу поделиться ))
Без долгих раскачек о сути: все мы любим посмотреть фильмы на английском с субтитрами. Это один из способов фонового обучения, дающийся легко и не воспринимающийся как занятия. Есть только один минус — системно учить язык так довольно сложно.
Я подумал, что было бы неплохо взять лучшее и привнести немного системы. В итоге, за несколько выходных родилось вот что: fridgevideocards.com — сервис изучения новых слов. Слова отсортированы по частоте употребления (частотные словари), для каждого слова есть перевод, видео кусочек и субтитры, как пример его использования. Для некоторых языков есть еще звучание слова отдельно от видео.
Сделать сервис получилось быстро — используется youtube и его ролики с субтитрами, для перевода используется google dictionary. Я планирую неким образом зарабатывать на сервисе, но пока до конца не определился как, и будет ли вообще модель платных подписок востребована.
image
Прошу попинать.
PS: всем разом не ходить, хостинг хилый )
PPS: у меня сейчас совершенно не будет времени на маркетинг этого сервиса. Если здесь есть люди которым идея нравится и они знаю как на ней заработать — welcome: 50/50.
PPPS: кому нужны PRO акки — пишите на адрес внизу сайта с указанием логина.
Total votes 38: ↑30 and ↓8+22
Comments23

PayPal по тихому разрешил принимать платежи мерчантам из России?

Reading time1 min
Views575
Вот что я сегодня нашел на PayPal.
«Быстрые платежи PayPal
Увеличьте продажи благодаря простому процессу оформления покупки.
Получите конкурентное преимущество: принимайте платежи через PayPal на своем веб-сайте и увеличьте доход....»
ссылка
Написано на приятном уху языке, присутствует ссылка регистрации. Заманчиво.
Зарегался, подтвердил кредитку — в аккаунте есть вкладка «прием платежей».
Знающие люди подскажите, это я Америку открыл или все уже в курсе?
Total votes 2: ↑2 and ↓0+2
Comments4

I-Jet подписался с Playdom

Reading time1 min
Views481
Из твиттера I-Jet (twitter.com/iJetMedia)
«Подписали соглашение о стратегическом сотрудничестве с ведущим американским разработчиком социгр — компанией Playdom. Будем издавать их игры»
а также:
«Совместно с Playdom разворачиваем кампанию по борьбе с пиратством на российском рынке социгр.»

Ну что сказать — для I-Jet это конечно прорыв. У Playdom отличный каталог игр, и буквально каждые 2 недели выходят хорошие игрушки с очень дорогим продакшном. Для маленьких независимых российских команд это повод к печали конечно.
Total votes 7: ↑4 and ↓3+1
Comments4

Авто перемотка на #habracut — зло

Reading time1 min
Views584
Мне интересно — я один такой нервный или нет.

Когда я кликаю по ссылке «читать дальше» грузиться страничка. До момента полной загрузки страницы, а колесиком отматываю на нужное мне место и приступаю к чтению. Но тут страничка дозагружается полностью и бац, меня перебрасывает на якорь. Раздражает.

Интернет быстрый. Люди с медленным интернетом наверно расстраиваются еще больше.
Total votes 56: ↑50 and ↓6+44
Comments19

Mobad — сервис продажи мобильных с оглядкой на социалки

Reading time2 min
Views723
image
В начале апреля стартовал новый онлайн-сервис частных объявлений по продаже, обмену и покупке сотовых телефонов www.mobad.ru. Назвать этот сегмент белым пятном на карте рунета язык не повернется, поэтому сервису нужно чем-то выделяться. Упор решили делать на социальных сетях и на узкопрофильности сервиса — лучше искать объявления о продаже на сайте посвященном мобильным телефонам, чем на гигантских площадках «обо всем» типа «Из рук в руки» (кстати сами ИРР подтверждают это своими узкопрофильными ИРР неджвижимость, ИРР Авто и др.).

Итак, из интересных фич:
  • Flash интерфейс для вКонтакте (200.000 установивших приложение http://vkontakte.ru/app294669)
  • пользователь может разместить код своего объявления в собственном ЖЖ или в комьюнити, при этом объявление будет красиво графически оформлено и иметь понятный интерфейс, например: mobad.livejournal.com/972.html
  • единая база данных с объявлениями для всех внешних интерфейсов; То есть пользователи вКонтакте смотрят обявления пользователей ЖЖ
  • программный движок системы – собственная разработка команды – позволяет размещать Flash-приложение сервиса на любом сайте;
  • пользователь, размещая своё объявление, ведёт работу с самой полной базой данных марок и моделей мобильных телефонов присутствующих на российском рынке, что экономит его время на размещение своей заявки на продажу;
  • сервис даёт возможность обмена сообщениями между пользователями;

Читать дальше →
Total votes 13: ↑7 and ↓6+1
Comments2

Google Voice — что это такое?

Reading time1 min
Views6.5K
Что такое Google Voice (в девичестве Grand central)? Понятно, что один номер на всю жизнь, и переадресация с этого номера куда угодно, на стационарные, мобильные или в SIP. Плюз гугловские сладости, типа распознавание голоса в voice mail. Это все набор функций стандартной виртуальной АТС, ничего нового здесь нет.
Новое в том, что Гугл собирается раздавать номера бесплатно и во всех штатах США! Информация сейчас очень скудная, в связи с чем хотелось бы пообсуждать некоторые вещи.
  1. Как это бесплатно номера? Где они их возьмут в таком количестве? С гугловской аудиторией это миллионы номеров.
  2. Как это бесплатная переадресация? Переадресация на мобильный, по сути, означает исходящий звонок на мобильный, который тарифицируется. Кто будет платить?
  3. Как технически будут организованны исходящие (переадресованные) звонки в ТФОП или на мобильные? Они будут ставить свое оборудование по всей стране? При всем уважении к Grand Central масштабы с Гуглом несопоставимы.
  4. А если я со своим мобильным уехал путешествовать, они построят свои VoIP шлюзы по всей стране и будут гонять междугородный трафик по интернету или воспользуются каким-нибудь cheapvoip?
  5. Что у них будет внутри? SIP? Почему тогда не поддерживаются SIP девайсы кроме Gizmo.
  6. Что будет с бизнесами по продаже DID номеров? Они умрут?
  7. Сколько каналов будет на гугловском номере?
  8. Не начнут ли они штамповать функции типа IVR, очереди звонков, сообщения времени ожидания убивая бизнес АТС?

В рамках аналитики octopusline.ru
Total votes 4: ↑3 and ↓1+2
Comments11

Что такое Unified Communications

Reading time4 min
Views6.8K
Сейчас существует определенный hype вокруг термина Unified Communications. Вендоры наперебой предлагают «решения» и заманивают пользователей на семинары, на выходе из которых все складывают свои старые АТС и телефоны в кучу, обливают бензином и поджигают. При этом все рассказывают про выгоды в общем, но никто не разбирает функционал «по косточкам». Я постарался разобраться, что же имеется ввиду под этим термином, исходя из своих знаний. В комментах можно добавлять то что я упустил.

И так, Unified Communications – Объединенные коммуникации. Функционально этот термин подразумевает объединение все возможных средств общения компании в единую, легко управляемую, расширяемую и доступную из любой точки мира систему. С точки зрения бизнеса такое объединение упрощает и «обогащает» общение между сотрудниками между собой, компании с внешним миром, а так же ведет к снижению издержек на связь. С технической точки зрения Unified communication подразумевает связь по IP.
Читать дальше →
Total votes 5: ↑4 and ↓1+3
Comments4

Анонимность Skype снова под угрозой

Reading time2 min
Views4.1K
Европейские правоохранительные органы хотят иметь возможность прослушивать Skype

Долгое время Skype придерживается позиции, что перехват разговоров злоумышленников не их забота. Это не телефонная компания и они не владеют собственными кабельными сетями и телефонными линиями. Такая постановка вопроса позволяет Skype избегать ряда проблем с регулирующими органами. Например, в США существует закон, обязывающий телефонные компании предоставлять возможность прослушки телефонов по решению суда. Однако теперь Skype попал в поле зрения правоохранительных органов Европы, которые видят угрозу безопасности в том, что криминальные элементы могут совершать никем не контролируемые звонки через сервис компании.

Последние претензии появились в виде заявления Eurojust, организации координирующей усилия по борьбе с организованной преступностью в Европейском союзе. В заявлении говорится, что Итальянское подразделение организации координирует общеевропейское расследование практики использования злоумышленниками VoIP, и Skype в частности. Истоки и намерение довести расследование до конца лежат в участившихся случаях использования итальянским криминалом Skype, включая наркодилеров, торговцев оружием и проституток использовавших сервис, чтобы избежать обнаружения. Цель расследования, проводимого всеми 27 участниками Eurojust, выработать правовые нормы и технические способы перехвата интернет звонков.
Читать дальше →
Total votes 5: ↑5 and ↓0+5
Comments4

Какие SIP устройства существуют и как их подключать

Reading time1 min
Views2.5K
Мы начали выкладывать подборку собственно-писанных мини мануалов по различным консьюмерским SIP железякам. Конечно для людей «в теме» америки мы не откроем, но для простых смертных такие quick start будут полезны, тем более что мануал для одной модели dLink, к примеру, подойдет к оставшимся 90 моделям. Мы подключали устройства к нашему SIP серверу. Любые другие SIP сервера подключаются по аналогии.
179.jpg
Сегодняшние герои:
FXS шлюз AudioCodes MP-202 Mediapack
FXS шлюз Linksys PAP2T
IP телефон Polycom SoundPoint IP 320 SIP
В ближайших выпусках:
FXS шлюз Planet, телефоны GrandStream и Cisco.
Total votes 14: ↑6 and ↓8-2
Comments8

Что делать девелоперам под iPhone из России?

Reading time1 min
Views2.2K
Хотел бы поинтересоваться у общественности о тонкостях становления Registred Apple Developer и о продаже через Apple Store в целом. Из того что я знаю:
  • Для того чтобы продавать программы через Apple iTunes Store нужно купить участие в Apple Developer Connection за $99.
  • Разработка только на Mac, Леопард. IDE бесплатно.

Дальше одни вопросы:
  • Участие в Apple Developer Connection покупается за $99 через тот же Apple Store, но России в списке нет (насколько я понимаю они не работают в РФ). Предлагается отписаться в саппорт. Письмо автоматом пинают в европейское отделение, там они и гибнет: прошла неделя – ответа нет. Пытаться зарегаться в другой стране?
  • У кого есть опыт покупки, чем там оплата? Российская Visa classic проходит?
  • Если ты девелопер из штатов, с тебя удерживают налог. Если нет, то тебя просят это подтвердить, в какой форме? Насколько я знаю там нужно показать не пасспорт, а аналог штатовкого SSN. ИНН?
  • Если программа продается, возможные варианты вывода денег? Только чеки или wire тоже возможен. Если первое, то сколько идет чек, и насколько просто его обналичить.
  • Apple удерживает 30% с продаж. Какие еще минусы? Стоимость перевода чека?
Total votes 37: ↑31 and ↓6+25
Comments51
1

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Works in
Date of birth
Registered
Activity