Качество и интеграция клиентских данных
90,36
рейтинг
26 мая 2015 в 13:19

Разработка → Dadata.ru проверяет документы и знает все банки

DaData.ru — сервис автоматической проверки и исправления контактных данных (ФИО, адресов, телефонов, email, паспортов). Плюс javascript-виджет и API подсказок при вводе адреса, ФИО, организации и банковских реквизитов.

С предыдущего релиза мы стали еще круче работать с данными:
  • подсказываем банковские реквизиты,
  • возвращаем геокоординаты в подсказках по адресам,
  • проверяем действительность паспорта,
  • определяем стоимость квартиры.


Подсказки по банковским реквизитам


Помогают ввести реквизиты банка быстро и без опечаток. Источник — сайт ЦБ РФ, обновляем каждый день.

Ищут по названию, БИК и SWIFT. Возвращают все основные реквизиты, включая корсчет и РКЦ, чтобы автоматически подставить их в акт или договор.

Подсказки подключаются как jQuery-плагин к любому текстовому полю. Или через HTTP API. Бесплатны до 10 тысяч запросов в сутки.

Подсказки по адресам возвращают геокоординаты


С точностью до дома. Если не найден дом — возвращают координаты улицы; если не найдена улица — координаты центра города.



Проверяем паспорта


Дадата проверяет серию и номер паспорта по собственным алгоритмам и справочнику недействительных паспортов ФМС:



Работает в файлах и через API.

Определяем стоимость квартиры


Возвращаем среднюю рыночную стоимость квартир для городов-миллионеров России. Источники — 4 самых популярных сайта по продаже недвижимости, покрытие 20–40% домов. Пересчитываем ежегодно.



Работает при стандартизации через API (поля square_meter_price, flat_price) и в файлах.

Надеемся, что вам будет полезно что-то из перечисленного. Задавайте вопросы!
Автор: @lyalius
HumanFactorLabs
рейтинг 90,36
Качество и интеграция клиентских данных

Комментарии (52)

  • 0
    Как попробовать API/сервис определения стоимости квартиры? Ссылки в статье нет, на сайте описания тоже не нашел.
    • 0
      • 0
        У вас в Результатах обработки появляется стоимость квартиры? У меня даже на вашем примере — нет.
        • +1
          Посмотрите, сейчас есть.
          • 0
            Да, теперь появились.
          • 0
            Челябинск в статье по ссылке «для городов-миллионеров» присутствует, сервис площадь квартиры определил, но стоимость не указал.
            • 0
              Не для всех квартир с площадью есть стоимости. Покрытие 20–40% домов.
  • 0
    Какова скорость обновления из официальных источников?

    Вот косяк, например:
    С 26ого(сегодня) числа банк ПАО (а в наименовании ОАО). Причем расшифровка, серым, верная.

    image

    • 0
      У вас на скриншоте: «сведения актуальны на 26.05.2015». В базе Центрального банка на сегодня краткое наименование «ОАО АКБ «УРАЛ ФД»» — поэтому такой результат.
      • 0
        Вы можете мне не верить, но на момент публикации коммента, результат на сайте цб был тот же.

        image
        • +1
          Я вам верю :–) На сайте ЦБ показывает данные из одной базы, а распространяет другую. Не знаю, почему так.
  • 0
    У меня допустим, есть строчка в которой объединены ФИО, адрес, телефон, email. Можно ли разобрать такую строку вашим сервисом?
    • 0
      Можно, если разбить ее на отдельные поля по разделителям.
      • 0
        Разделителями являются пробелы и запятые. В этом основная проблема. Что источник «неструктурированный». Данных, конечно не много. Но хотелось бы не заниматься мартышкиным трудом :)
  • +4
    Отличный сервис, пользуемся для подсказок адресов.
  • 0
    Интересный сервис. А номера телефонов можно валидировать более точно (разбивать по операторам) еще можно проверить статус абонента HLR-запросом
    Интересно а вы собираете и храните данные из запросов?
    • 0
      Дадата определяет оператора для телефона. Обработанные данные не храним.
  • 0
    Пара вопросов:
    1. Каким образом определяются координаты для адреса? Ведь адреса берутся из ФИАС, как я понимаю.
    2. На какой территории работают геокоординаты?
    • +1
      Используем OSM. Координаты по России, статистика такая:
      • До дома (точные координаты или ближайший) — 31% адресов.
      • До улицы — 30%.
      • До населенного пункта или города — 29%.
      • Не определены — 10%.

      Т.е. на большой выборке хотя бы до улицы или до дома определяются 61% адресов, а хотя бы до населенного пункта — 90%.
      • 0
        Планируете ли расширять список используемых источников, добавляя другие гео-сервисы (Яндекс, Google, Bing, ArcGIS и т.д.)?
        • 0
          Пока нет.
        • +1
          Мы бы с радостью, но перечисленные вами источники либо нельзя использовать как это делаем мы, например, Яндекс, либо слишком дорогие.

          Скажите, а в чем состоит ваша задача, что не устраивает OSM?
          • 0
            нельзя использовать как это делаем мы

            А если задействовать библиотеки-агрегаторы, которые сводят всё в один интерфейс (что-то вроде Geocoder, только для используемого вами языка)?
            Скажите, а в чем состоит ваша задача, что не устраивает OSM?

            Я полагаю, что с добавлением еще хотя бы одного источника покрытие и качество данных возрастут. Особенно, если это будет Яндекс (для России).
            • +1
              Конечно, данные возрастут, но Яндекс мы использовать не можем. Пытались с ними договориться — даже сумму не смогли назвать, просто нельзя.

              То есть, тут вопрос не технической реализации, с ним как раз сложностей нет. Вопрос в юридической сфере.

              Качество данных действительно улучшится, но, как показывает практика, по городам там покрытие приемлемое, а в небольших населённых пунктах часто не стоит задача определения точных координат дома, достаточно центра поселка.

              • 0
                Ясно. А как с другими гео-сервисами? Уверен, что 2gis будет более лоялен в этом вопросе.
                • +1
                  С 2ГИС мы обсуждаем этот вопрос. Однако, у них есть данные только по ограниченному списку городов, для которых и в OSM неплохие данные. Хотя их подключение увеличило бы качество.
                  • 0
                    Конечно. Вы могли бы сравнивать получаемые из двух источников данные, чтобы следить за качеством.

                    В целом, ситуация понятна, спасибо за ответы.
                    • 0
                      Вы могли бы сравнивать получаемые из двух источников данные, чтобы следить за качеством.

                      Сравнивать — это довольно сложно:) Разве что пополнять места, которых нет в одном источнике, другим. Для задачи сравнения нужно как минимум три источника (или два и самолет с неограниченным запасом топлива), так как если в двух различаются координаты для одной точки, то не ясно кто из них прав:) И тут авторство справочника не играет роли: в Яндексе, когда изучали вопрос, находили интересные перлы, например координаты объекта удалены от объекта на несколько километров, судя по снимкам из космоса. Обычно это встречалось в мелких населённых пунктах.

                      Пожалуйста, обращайтесь:)
                      • 0
                        Я не имел в виду сравнение ради выяснения, кто точнее. Достаточно большое расхождение координат (более Х метров, скажем) из двух источников — повод для ручного разбора данного кейса и/или накопления статистики таковых расхождений.
      • 0
        Тогда не поленитесь упомянуть на своём сайте источник данных, как того требует лицензия OSM.
        • 0
          • +1
            Ну это же не серьёзно — на каком-то левом сайте упомянули, с таким же успехом, вы могли сослаться, что вот мы на хабре написали.
            • 0
              На этом сайте расположена наша база знаний, на нее идет ссылка с главной — см. раздел «Частые вопросы» и с форума (см. ссылка «База знаний»).

              Считаете, что этого недостаточно?
              Если да — то где нужно написать, на ваш взгляд?
              • 0
                Вот у вас на главной есть вставки «40 млн контактов» там могло появиться что-то вида «5 миллионов адресов геокодировано с помощью OpenStreetMap.org».
                Или вот где перечислены справочники, тоже совсем неплохо показать актуальность геоданных — «OpenStreetMap 01.06.2015»
                Хотя если вы так хотите разместить это в базе знаний, то я полагаю там должна быть отдельная статья «Поставщики данных», как положено с указанием лицензий, по которым они распространяются.

                Да, для разработчиков ваша база знаний ассоциируется с проектом, но рядовой пользователь о ней даже не подозревает.
  • +1
    Слушайте, вызвало интерес как вы определяете площадь квартиры? Это есть в гос. реестрах и в открытом доступе?
    • 0
      До недавнего времени было. Сейчас решаем вопрос относительно источника с новыми домами и актуализацией данных.
  • +2
    Вспоминая вордстаты популярных поисковых систем, и проведя альтернативу — мне кажется, всем было бы любопытно почитать обзор самых необычных и наоборот топовых запросов к дадате за определённый период ) жалко, что не храните какую-то подобную статистику… просто можно было бы отдельную публикацию даже сделать. пятничную))
    • +2
      Да, поисковые запросы не храним, но сложные случаи нам присылают сами пользователи с просьбой помочь с анализом. Часто адреса корректные, но крайне необычные. Обязательно напишем такую статью в ближайшем будущем:)
    • +1
      Вы просили — мы написали. Наслаждайтесь:)
  • +1
    «Города-миллионеры» — неожиданно. Я думал, они называются «города-миллионники» :)
    А тут практически аналогия с колхозами-миллионерами, но нет, оказывается, всё по-другому. Будем знать :)
  • 0
    А теперь немного внимания…
    Конечно это классно иметь такую подсказку, например, в и-магазине. И ошибок меньше и данные достоверные.
    А не боитесь ли вы, что эта информация попадет в чужие руки?
    Т.е. номер телефона, адрес проживания, номер паспорта? Ведь вы не управляете сторонним ресурсом, вы сами отдаете этому ресурсу свои данные.
    Ладно, допустим, dadata пользуется сторонними базами данных. И своей? Где вероятность того, что эта база не попадет в «плохие» руки?
    Вам нужно узнать адрес человека? Заходите в инет магазин, начинаете вбивать фамилию, выбираете нужную, а адрес система уже может подставить свою, и номер телефона или предложить выбор.
    • 0
      У нас нет баз данных людей: как своих, так и сторонних. У нас есть справочник адресов РФ, справочник телефонов, справочники имен, фамилий и отчеств, и тп, но нет справочников, в которых эти компоненты шли бы вместе.
      • 0
        И как это можно проверить?
        Я отдаю ФИО, отдаю адрес доставки/проживания, № телефона — и вы не можете их связать? Станиславский: «Не верю!»
        • 0
          Ответ — никак. Абсолютно также никак, как вы не проверите, расплачиваясь банковской карточкой, что магазин не хранит историю ваших покупок к привязке к этой карте. Также, как вы не проверите, что на дорогах и парковках камеры не снимают ваше лицо и не связывают в одной базе с номером автомобиля. И что банкоматы вас не фотографируют и не привязывают лицо к карте, и что в ресторане официант не уносит бокал и не снимает отпечатки пальцев, и что на серверах метро не хранится схема ваших перемещений, и что мобильники даже в выключенном состоянии не слушают и не передают для анализа голосовой поток и месторасположение абонента. Перечислять можно до бесконечности. Вопрос в том, что вы хотите отдавать миру, а что — нет, и тут всё зависит только от вас.

          Если вы переживаете за сохранность своих данных при пользовании интернет-магазинами (и не важно, истользующими дадату или нет), то сообщайте лживую информацию о вашем ФИО при доставке курьером, используйте адреса до востребования на разных почтовых отделениях и контакты друзей, пользуйтесь одноразовыми сим-картами, купленными около метро и 10minutemail.

          Вероятно, вас успокоит, что запросы на стандартизацию ФИО, адреса и иных контактных данных в нашем онлайн сервисе — это разные запросы. Сооветственно, с учетом потока запросов, мы физически не сможем понять что к чему относится.

          Но самое главное: даже если предположить, что если бы мы хранили такую информацию, и каким-то чудесным образом обработали большинство людей в РФ, да ещё и не раз чтобы отсеять временные данные когда люди в командировках или на работе, то что бы мы смогли с этой базой сделать? Восстанавливать имя по телефону или адресу? Единственные организации, которым это может быть интересно, и которые мне приходят на ум, мне кажется, имеют более простые и надёжные источники информации вроде налоговой, пенсионного фонда и тд. Частным же компаниям, банкам, не интересны персональные данные, если человек не является их клиентом.

          Единственное полезное применение связей, которое мне приходит на ум, это связь название организации — адрес — телефон — и, верятно, контактное лицо. Но такое уже есть в 2gis.
          • 0
            Не перегибайте палку.

            И что банкоматы вас не фотографируют и не привязывают лицо к карте,

            Фотографируют и привязываю к карте, не видели на картах фото владельцев? Это част безопасности.

            расплачиваясь банковской карточкой, что магазин не хранит историю ваших покупок к привязке к этой карте

            Не вопрос — может хранить номер моей карты, ccv код — только через доверенный ресурс.

            2gis, как ч понимаю, получает (берет) доступную информацию (возможно, что из общедоступных данных) ведь речь идет о юридическом лице.

            Что-то покупая в и-магазине я заранее предполагаю что для оплаты, доставки магазину понадобятся отнюдь не лживые данные, иначе я товар не получу, если это не цифровой товар.

            Я не хочу даже предполагать, что вы можете делать с данными пользователей. На данный момент, вы их продаете, как свою услугу.

            • 0
              Фотографируют и привязываю к карте, не видели на картах фото владельцев? Это част безопасности
              Это вы так утверждаете, что банкомат рисует вам фотографии на карточку. Или это всё же делает банк с вашего разрешения?
              Предположение состояло в том, что при всовывании карточки в банкомат, он елси и снимает вас, как лицо, то не привязывает это видео к данным считанным с карточки.

              Не вопрос — может хранить номер моей карты, ccv код — только через доверенный ресурс.
              Откуда Вы в этом так уверены, что они не поставили свой собственной считыватель, который сохраняет всю инфу на свой внутренний сервер.
              • 0
                Предположение состояло в том, что при всовывании карточки в банкомат, он елси и снимает вас, как лицо, то не привязывает это видео к данным считанным с карточки.

                Ок. поделюсь секретом…
                Если банкомат оснащен камерой, то он… фиксирует любое активное движение возле банкомата, например — подход, и также момент того когда вы вставляете карточку. Но есть одно но!!! Это разнесенные процессы по безопасности. Сам банкомат не знает о а вашей карте НИЧЕГО, в том числе и вашего пинкода, за все отвечают процессинговые центры, и передача проходит по защищенным каналам с использованием кодирующих устройств, и сертификаты получают от «надежных» источников. Но сопоставить время работы с картой и фото — не вопрос. И это… Вопрос безопасности вашей транзакции.

                Откуда Вы в этом так уверены, что они не поставили свой собственной считыватель

                Потому что CCV код будет принят банком-эмитентом только с доверенного ресурса.

                Кроме того, Я сам отдал через канал свои данные через посредника (и свой контроль за моими кошельком лежит на мне). В вашем случае — я не знаю кто собирает обо мне данные — магазин или dadata
                • 0
                  Вы противоречите сами себе.
                  Вот ваша фраза из сообщения раньше
                  Фотографируют и привязываю к карте...

                  Вы уж определитесь прежде чем писать после этой фразы вот эту
                  Если банкомат оснащен камерой, то он… фиксирует любое активное движение возле банкомата, например — подход, и также момент того когда вы вставляете карточку. Но есть одно но!!! Это разнесенные процессы по безопасности. Сам банкомат не знает о а вашей карте НИЧЕГО

                  Потому что CCV код будет принят банком-эмитентом только с доверенного ресурса.

                  Кто запрещает записать код в файлик, а потом вбить его при покупке в интернет магазине?
                  • 0
                    :) и каким образом противоречит? Банк эмитент при выпуске персонифицированной карты может вас сфотографировать, и ваше фото напечатать на карте

                    Не вижу противоречий — это разнесенные процессы (события) — ввод карты, инициализация события срабатывания камеры, повторюсь — считыватель только иницииурет событие, например, включение камеры, а внешний обработчик события не знает о карте ничего — причина — ему это никто не даст. А ведь может и дать, если обработчик является трастовым. И это… часть безопасности транзакций.
                    И это… Вопрос безопасности вашей транзакции.


                    Но вы уходите от темы.
                    Тема — безопасность моих персональных данных которые проходят через ваш сервис.
                    • 0
                      Для особо упоротых
                      На фразу
                      И что банкоматы вас не фотографируют и не привязывают лицо к карте,

                      Вы ответили
                      Фотографируют и привязываю к карте

                      Ни одного слова про банк не было.

                      Тема — безопасность моих персональных данных которые проходят через ваш сервис


                      Боюсь свалиться в оскорбления…
                      Есть приёмник данных и посредник.
                      В первом случае приёмник данных — интернет-магазин, а посредник — DADATA (он передаёт обработанные данные). Во втором случае приёмник данных процессинг система, а посредник магазин или банкомат.
                      Вам и сказали, что Вы либо доверяете посреднику, что он добросовестный, либо не доверяете. А вы полезли на ражон.
                      Увольте меня от общения с вами.
                      • 0
                        Вас никто не задерживает,
                        Читать вы не умеет — придумали (додумали) за меня.
                        Фотографируют и привязываю к карте, не видели на картах фото владельцев? Это част безопасности.

                        Где здесь про банокамат? Да, написано с ашыпками.

                        при оплате картой магазин не выступает посредником — посредником выступает сервис платежной системы (вы не в курсе? печалька)

                        Удачи вам в сборе информации о покупателях и предачи этих данных в недобросовестные руки.

        • 0
          Если вас это беспокоит — отдавайте эти компоненты отдельными файлами. Отдельно ФИО, отдельно адреса и пр. Мы даже рекомендуем это делать для большей безопасности.

          Можете даже рандомом их перемешать, чтобы мы сопоставить не могли.

Только зарегистрированные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Самое читаемое Разработка