Pull to refresh
0

Лингвистические аспекты what3words и технический анализ словарей

Reading time 3 min
Views 2.8K
Начать хотелось бы с благодарностей! Спасибо за ваше внимание и комментарии к нашему первому приветственному посту на Хабре! Ваша реакция помогла выявить наиболее интересующие вас вопросы, которые мы будем затрагивать в последующих публикациях.

Как вы уже справедливо отметили в комментариях, не смотря на то, что использование слов вместо цифр имеет ряд неоспоримых преимуществ, в таком подходе есть нюансы, которые необходимо учесть. Профессор Манчестерского университета Роберт Барр провел технический анализ what3words и наших словарей. Ниже мы приведем результаты его независимой оценки:


В то время, как словарь what3words кажется случайным набором слов, он был тщательно разработан для достижения конкретных целей.

  • 40 тысяч слов английского словаря, используемых для адресов w3w вполне достаточно для того, чтобы проиндексировать все квадраты 3 метра на 3 метра комбинациями из трех слов.
  • Каждое из 40 тысяч слов может быть использовано в каждой из трех позиций адреса w3w, что позволяет словам изредка повторяться.
  • В других языках помимо английского задействовано по 25 тысяч слов, которых достаточно для того, чтобы их комбинациями покрыть всю сушу. Английский — единственный язык из которого задействовано 40 тысяч слов, что позволяет покрыть как океан, так и сушу. Практические последствия такого решения в том, что если в настройках у вас выставлен португальский язык, вы будете получать комбинации из трех португальских слов до того момента, пока не переведете отметку в море (вероятно на несколько сотен метров от берега), после чего адрес отобразится на английском языке.


  • Словари оптимизированы таким образом, чтобы «лучшие» слова использовались для адресов в тех зонах, в которых их вероятно будут использовать носители того или иного языка. «Лучшие» слова — это короткие слова, которые при этом максимально распространены в языке. Баланс во время разбрасывания комбинаций по всему миру достигается при помощи двух независимых систем ранжирования:


  1. Лучшие слова даются самым густонаселенным (городским) районам. Следующая категория слов используется для адресов в сельской местности, и наименее хорошие слова используются для морей.
  2. В странах, для которых конкретный язык является родным, либо распространенным, для адресов используются лучшие слова из словаря этого языка. К примеру, лучшие слова французской версии w3w в первую очередь используются во Франции, Сенегале и Камеруне, а затем раскидываются на другие страны.



  • Избегается использование омофонов, слов, которые пишутся по-разному, но звучат одинаково. Используется лишь одно слово, либо избегается использование всей комбинации (омофоны как правило имеют один и тот же «soundex»-код, который применяется для сопоставления слов во избежание ошибок). Упорядочивание и отбор слов для словарей осуществляется при помощи многоступенчатого процесса, который также включает процедуру устранения оскорбительных слов.
  • При появлении похожих сочетаний слов, они распределяются таким образом, что локации с этими адресами вряд ли будут находиться в одной стране.


atoms.atoms.hike в северной части Лондона.
atom.atoms.hike в Квинте, Нью-Йорк.


Несмотря на то, что адреса w3w соответствуют стилю интернет-адресов для локаций из трех целых чисел, лингвистические аспекты использования слов вместо чисел стали предметом тщательного анализа и оптимизации.

Система w3w была оптимизирована с целью максимально упростить использование и запоминание адресов, и при этом свести возможные ошибки к минимуму. Единственный механизм коррекции ошибок встроенный в систему проверяет вероятность действия. Когда адрес w3w вводится с устройства, текущее местоположение которого известно, проверяется расстояние до вводимого адреса. Если расстояние слишком большое, и больше, чем до аналогичных по звучанию или написанию альтернативных адресов, пользователю предлагается автоматическая коррекция.

Сведя ошибки к минимуму при помощи этого механизма коррекции, w3w имеет потенциал стать более надежной заменой буквенно-цифровых кодов. Даже при использовании почтовых индексов в Великобритании, которые служат уже более 50 лет, люди ошибаются при написании более чем в 10% случаев. При этом индексы скорее проверяются лишь на предмет существования, и не проверяются на местоположение.


Впереди нас ждут следующие публикации:

Управление дронами при помощи адресов w3w

Чем слова лучше буквенно-цифровых обозначений
image
Tags:
Hubs:
-1
Comments 19
Comments Comments 19

Articles

Information

Website
what3words.com
Registered
Founded
Employees
2–10 employees
Location
Великобритания