Sivchenko_translate Dec 6 2023 at 01:07

Прекратите клепать базы данных

15 min

62K

Programming*SQL*SQLite*BrowsersWebAssembly*

Translation

+37

Comments 45

rukhi7 Dec 6 2023 at 08:11

Вот интересно, мы уже несколько лет решаем задачу перевода данных из бинарного потока сохраненного в файле в базу данных для визуализации-навигации, анализа, редактирования,

и, соответственно, обратную задачу: построения бинарного потока по данным заданным в базе данных. То есть заполняет и/или редактирует базу данных человек, а использует данные алгоритм формирования-генератор бинарного потока данных.

Проблема в том что данные в такой базе данных получаются 3-х мерные: таблицы, которые по определению двухмерные меняются со временем, то есть надо хранить-формировать несколько таблиц одного типа сущностей по периодам времени на протяжении полного периода потока данных. Кажется SQL не очень подходит для таких 3-х мерных данных, или мы чего то не знаем?

PuerteMuerte Dec 6 2023 at 08:17

Проблема в том что данные в такой базе данных получаются 3-х мерные

А что вы подразумеваете под этим? Что периодически меняется набор столбцов таблиц?

Кажется SQL не очень подходит для таких 3-х мерных данных, или мы чего то не знаем?

В таком случае - зависит от того, как вы работаете с этими данными. Если вам нужны какие-то связи по этим стоблцам, целостность данных и так далее, а меняются они нечасто, то можно продолжить использовать SQL, иметь какую-то одну родительскую таблицу и дочерние под каждую новую сущность.

Если у вас сложной логики нет, а надо работать на уровне сущности, ну, вида "извлёк сущности за какой-то период, что-то с ними сделал, положил обратно", ваш пациент - noSQL.

rukhi7 Dec 6 2023 at 10:27

В таком случае - зависит от того, как вы работаете с этими данными. Если вам нужны какие-то связи по этим стоблцам, целостность данных и так далее, а меняются они нечасто

Нельзя сказать что это человек работает с данными, состав данных определяется спецификацией на поток данных , набором спецификаций на подпотоки которые содержатся в общем-сумарном потоке данных. Целостность данных в потоке обеспечивается контрольными суммами пакетов в которых данные передаются.

В базе данных, вроде как данные некому сломать, туда не должны попадать противоречивые данные, вроде как, вот на этапе преобразования из потока в базу эту непротиворечивость неплохо бы проконтролировать, конечно. Опять же это не входит в функциональность SQL кажется?

Вроде как все сущности статично определены спецификациями, правда они могут отсутствовать на некоторых периодах в потоке, как это отобразить в базу данных в таком случае? Варианты конечно есть, но что выбрать однозначно непонятно.

В основном связи между данными по разным периодам, но для одной и той же таблицы нет связей по значениям, какое то время одни значения в таблице, в следующий период меняются значения в таблице, сама таблица не меняется, и в общем то нет зависимости между старыми и новыми данными.

Не важно как часто они меняются - главное что они в принципе меняются и с этими изменениями их надо сохранять и потом визуализировать, и иметь возможность редактировать.

Вот начинаешь писать и осознаешь как тут все непросто, сколько разной функциональности надо поддерживать.

oracle_schwerpunkte Dec 6 2023 at 11:53

Серебряной пули нет, но есть варианты
https://habr.com/ru/articles/101544/ + комменты

igor_suhorukov Dec 6 2023 at 08:22

Apache Iceberg решает похожую задачу в аналитике больших данных.

rukhi7 Dec 6 2023 at 11:00

да нет, нельзя сказать что у нас какие-то особо большие данные, таблицы максимум полей на 50 и таблиц штук 20 где-то надо сформировать из сохраненного трафика, проблема в том что нужно видеть несколько версий для некоторых из этих 20 таблиц в зависимости от позиции в трафике, и соответственно при редактировании надо иметь возвожность добавлять такие измененные таблицы для разных позиций в трафике,

то есть надо иметь возможность задавать диапазон длительности трафика на которых определены каждая из этих 20 таблиц, причем желательно независимо для каждой таблицы, как-то так.

Зато нам не нужно контролировать права пользователей, и не нужно параллельной работы пользователей. Пользователь либо человек, либо парсер потока который преобразует поток в данные базы данных, или генератор потока который преобразует данные из базы в поток. Никогда не нужно чтобы они одновременно работали. Хотя можно наверно и до этого дойти, но пока бы решить простую задачу.

igor_suhorukov Dec 6 2023 at 11:21

Так меньший объем данных не мешает использовать те же технологии, если они решают задачу. Просто посмотрите насколько применимо к вашим схемам БД Apache Iceberg и projectnessie

imdragon Dec 6 2023 at 10:26

Такие таблицы называются медленно меняющимся измерением. Современные SQL платформы работают с таким.

Ivan22 Dec 6 2023 at 11:50

SQL про них ничего не знает, это паттерн проектирования

SergeyProkhorenko Dec 7 2023 at 00:10

Знает кое-что: https://www.ispras.ru/preprints/docs/prep_30_2017.pdf https://www.youtube.com/watch?v=0nBqpZLc4xc

Но все обходятся "велосипедами", то есть, паттерном проектирования, а именно, полями start_date и end_date в таблицах с "историчностью", причем start_date входит в ключ, а для актуальных данных end_date = NULL, либо end_date = '9999-12-31'

rukhi7 Dec 7 2023 at 08:50

прежде чем рассматривать как применять язык запросов, хотелось бы определиться со структурой-способом хранения данных.

У меня вот такая проблема, например:

Есть таблица сущностей на 300 или 500 или 1000 строк - 15 полей,

Сущности в ней могут меняться каждые 350 МИЛЛИсекунд (каждую треть секунды), проблема в том что в течении например 20 секунд она не меняется и для анализа на интерфейс человеку надо выводить ЦЕЛУЮ таблицу подписанную диапазоном времени для которого она действует (хотелось бы),

Если мы анализируем трафик скажем за 10 минут (час, ...) нам неплохо бы видеть просто список точек в которых произошли изменения, можно с некоторой статистикой которая убирается в строчки, которые подписывают эти моменты изменений,

Возникает вопрос как хранить такие изменения:

переписывать целую таблицу если поменялись только пара полей из 300х15?

или

хранить только сами изменения например в виде "имя поля:новое значение:время", но тогда возникает проблема когда у нас меняется например половина таблицы.

Мы в своем проекте сделали первое пока.

А вот буржуи в таких случаях пишут что надо искать компромис, вот где он этот компромис? Где его искать?

nin-jin Dec 7 2023 at 09:26

На экран у вас влезет лишь несколько десятков строк - их и синхронизируйте в реальном времени. А остальные лишь по мере прокрутки

Ivan22 Dec 7 2023 at 12:32

В этом кейсе явно нужна субд с поддержкой инмемори таблиц
500 или 1000 строк это очень маленький объем, с таким можно все целиком переписывать.
для больших объемов возможен вариант - копить лог, а раз в N единиц времени обновлять всю таблицу и очищать лог.

kemsky Dec 7 2023 at 19:59

Есть datomic, в ней можно смотреть данные в разрезе времени и отдельных транзакций. Можно перейти на события и строить агрегаты за любые периоды.

rukhi7 Dec 8 2023 at 09:03

и мне кажется теперь что даже GIT как база данных в какой то степени подходит под мою задачу если таблицу хранить в текстовом виде!

Вряд ли нам все это подойдет, потому что нам нужна не просто локальная база данных, нам нужна временная база данных в памяти.

Нужна какая то библиотека которая позволяет задать, описать структуру таблиц и/или дерева объектов для сохранения и навигации по ним, и чтобы дальше наполнять эту структуру данными, а потом иметь возможность навигации по ним...

Просто в статье, в начале крупным шрифтом написано:

в любом достаточно сложном клиентском приложении программисту непременно придётся реализовывать такое множество фич для управления данными, что эта работа будет напоминать построение предметно‑ориентированной базы данных

и я на это повелся!

но потом все возвращается к общению с сервером:

Отправляем запрос от API на сервер и сохраняем его в локальной переменной

А тут главная проблема будет связана не с функциональностью базы данных, а с функциональностью для работы с сервером по сети (работа с данными на удалении).

Вот если бы вместо библиотеки для работы по сети иметь библиотеку для работы с локальной (а не удаленной!) базой данных.

Получается я что-то напутал, меня начальный посыл статьи ввел в заблуждение.

nin-jin Dec 8 2023 at 09:51

https://www.npmjs.com/package/mol_db

Ivan22 Dec 7 2023 at 12:27

широта распространения этих расширений говорит сама за себя

me21 Dec 6 2023 at 12:03

А почему в таблице не ввести колонку "период времени"?

rukhi7 Dec 6 2023 at 14:42

завести то можно, только этого не достаточно, потому что вместе с каждым уникальным периодом времени надо хранить еще и уникальное содержимое всей таблицы (как контейнера) которое и должно меняться в зависимости от этого периода и которые все(!) таблицы с изменяющимся содержимым надо помнить и хранить в базе данных или иметь возможность размножать при редактировании.

-1

Raspy Dec 6 2023 at 22:50

Звучит как OLAP представление, где единственным дополнительным вектором будет отрезок времени.

shasoftX Dec 6 2023 at 08:16

Как я понимаю тут происходит отправка изменений на сервер, который их к себе применяет. Т.е. фактически с клиента уходят запросы, которые сервер выполняет. А как контролировать права выполнения таких запросов? Ведь пользователь может прислать что то, что сломает сервер.

nin-jin Dec 6 2023 at 10:37

Собственно, по той же причине crdt не позволяет волшебным образом избавиться от центрального сервера. Чтобы от него избавиться нужны цифровые подписи, что относительно дорогое удовольствие.

kipar Dec 6 2023 at 14:09

я так понимаю нет. SQLite компилируется в WebASM и запускается на стороне браузера. Во всяком случае демка с SQL запросами работает и с отключенным инетом.

shasoftX Dec 6 2023 at 19:56

Запускается на стороне браузера, но при этом всё это синхронизируется с БД на сервере. А значит на сервер от клиента идут запросы который обновляют БД

kipar Dec 6 2023 at 20:16

синхронизация может работать от сервера к клиенту. А на сервер отправлять обычные API запросы без sql.

flancer Dec 6 2023 at 08:18

Интересно, а чем IndexedDB не подошла для кэширования данных из API на фронте?

igor_suhorukov Dec 6 2023 at 08:25

Иногда действительно проще встроить базу данных в фронтэнд, чем пытаться самому переизобретать фичи базы данных в браузере. Я так недавно сделал c DuckDB WebAssembly.

DarthVictor Dec 6 2023 at 12:16

Потенциально выигрышной структурой данных здесь представляется массив записей, отсортированных по дате, в сочетании с более сложной логикой запросов и обновления.

Потенциально выигрышной структурой данных здесь представляется B-дерево.

username-ka Dec 6 2023 at 13:56

Статья вызывает вьенамский синдром. Кто Apollo (GraphQL) помянет - тому глаз вон.

Не стараюсь в критику - просто ИМХО - но я бы заменил всю статью на "просто не делайте так".

По мере роста сложности приложения главной проблемой на самом деле становится согласованность:

одна и та же сущность скачивается в пяти разных местах; при этом в каждом из этих мест нужен разный набор полей или вложенных объектов
а меняется эта сущность в трёх других местах
а ещё эта сущность может измениться в результате мутации в другой объект, который даже своим названием не намекает на такой сайд-эффект; иногда этот эффект ещё не существует, но появится через месяц в результате разработки совсем другой фичи.

В 80% случаев разработчик это увидит и поставит инвалидацию какой-то части кэша после выполнения мутации. Из оставшихся 20% - примерно половину в конце концов отловит тестирование. А ещё 10% - останется в приложении и будет накапливаться.

Конечно, есть разные стратегии по обеспечению согласованности, но все из них, что я видел, объединяет одно - они не работают, когда над проектом работает больше двух человек, или кто-то из них больше "творец", чем "ремесленник", и ему сложно удерживать в голове 100500 сложных вещей в один момент времени.

Данные можно и нужно кэшировать, и да, не через useState, а хотя-бы какой-нибудь tanstack-query или rtk (конкретно про SPA, не говорю тут про Server Components). Но - исключительно в рамках одной страницы. Перешёл на другую - лучше перезагрузить.

nin-jin Dec 6 2023 at 14:23

А LiveQuery и нотификации по WebSocket в этой линии времени ещё не изобрели? Вечно путаюсь в этой фронтенд-мультивселенной...

-1

username-ka Dec 6 2023 at 17:23

Конкретно в этой линии уже было несколько циклов "придумали"->"оно сдохло".

nin-jin Dec 6 2023 at 21:02

Аааа, в этой вселенной победила идиократия..

noodles Dec 9 2023 at 12:13

Перешёл на другую - лучше перезагрузить.

+1! Что говорит о том, что хождение между страницами - и есть нормальный, равномерный во времени, природный механизм инвалидации кеша. И сам юзер это подсознательно понимает - когда хочет увидеть самые свежие данные.

Kazurus Dec 6 2023 at 15:33

В мире clojure (clojurescript для фронта) почти сразу был сделан заход на базу https://github.com/tonsky/datascript

Portnov Dec 6 2023 at 16:10

Ничонепонел. SQLite как-то запустили в браузере? переписали на яваскрипте? или на wasm странслировали?

...

может тогда не мелочиться и весь бэк вместе с postgres / mysql странслировать в wasm и засунуть в браузер?...

-1

Spaceoddity Dec 6 2023 at 19:52

yrub Dec 6 2023 at 22:52

и как это связано с sql? написанож keyval-store, по сути просто мапа... в лучшем случае это используется как легальный способ сохранить что-то браузере

Spaceoddity Dec 7 2023 at 09:52

вы не туда смотрите))

а для "легального хранения" обычно используется localStorage

Source Dec 10 2023 at 21:36

Который под капотом и есть SQLite. Во всяком случае, в некоторых браузерах.

kipar Dec 7 2023 at 18:05

там ниже WebSQL есть, это как раз SQLite который уже в браузере.

yrub Dec 6 2023 at 22:43

в принципе есть варианты с запуском через wasm, что конкретно в этом случаи хз, по-моему на хабре даже кто-то писал статью про это, как он сам делал

Henbethydd Dec 6 2023 at 17:49

"Машина Голдберга" для фронтэнда?

MiyuHogosha Dec 7 2023 at 17:18

Если уж так подходить, то любая программа - это либо траслятор, либо СУБД. Это абсолют и только ситхи судят абсолютами... ахем.

akamajoris Dec 8 2023 at 12:23

>Прекратите клепать базы данных

>Я устал ждать — поэтому взялся решать эту проблему в лоб. Написал софт, который назвал SQLSync. SQLSync — это оптимизированный под фронтенд стек базы данных,

amateur80lvl Dec 8 2023 at 20:13

Чтобы ничего подобного не делать, у меня есть две отмазки:

за такое меня давно бы уволили
не каждому браузеру доступны 16 гигов оперативки

Show the best of all time