Pull to refresh
7
0
Владимир Саморезов @vova_sam

Data scientist

Send message

разве дата сантисту надо знать оптимизацию алгоритмов?
особенно тем, кто занимается машинным обучением.

часто изучают реализацию публичных популярных библиотек, сделанных профессионалами, чтобы изучать разные паттерны разработки. никогда такого не видел:

limit = 3
page = 0
while True:
    rsp = client.get_all_users(page=page, limit=limit)
    if not rsp.get("user_ids"):
        break
    yield rsp["user_ids"]
    page += 1

и вообще лучше написать понятно и просто, чем такие извращения. Сам потом забудешь, что имел ввиду

Но ради интересна в следующем проекте найду место для генератора

если для чего то инструмент не подходит, не значит что он вообще ни для чего не подходит. LLM можно поручить рутинные задачи, на которые просто лень тратить время.
во мой последний пример. Текст, надо из него для презентации сделать таблицу. Сам потратил бы 30-40 минут. LLM - 5 минут. 35 свободных минут сделал разминку для здоровья спины

для быта. нужно было приложение для Андройд, которое берет файл csv с тренировками и читает мне порядок упражнений и время исполнения. Это чудо, но бесплатный Bing сделал основу для него. Это было реальной чудо, ибо я написал в итоге такое приложение за вечер и этим вечером уже пошел с ним на тренировку. Потом уже просто украшал. Сам я бы неделю его придумывал и создавал

Еще создается ощущение, что вы не цените время сотрудников, если вам проще отвлечь 10 человек для того, чтобы они час-два делали то, что вы сделали бы один с нормальным запросом в GPT

к сожалению этот механизм плохо работает на реальный сайтах, которые не заботились о том, чтобы такие инструменты их распознали

я написал и запустил в работу инструмент для сбора сообщений с сайта yaplakal для создания датасета для машинного обучения. там нужно активно парсить таблицы (все сообщения в таблицах). На этом ресурсе надо искать поля целенаправленно, чтобы найти нужные данные. Pandas много мусора собирает

"Саентист" выглядит как "сатанист". Надо какое то другое слово придумать

антиреклама их курсов )

такой же вероятно у них "полный" курс по NLP

Спасибо, попробовал вот эту: openbuddy-mixtral-7bx8-v16.3-32k.Q3_K_M.gguf.
Все равно для русского как-то Сайга от Ильи получше справляется и быстрее работает. все в целом хорошая модель субъективно

обновление по попытке решать практические задачи. Авторы, вы молодцы, опыт точно поможет в будущем. Но Mistral Lora от Ильи лучше работает. Ну либо несовместимость с 4 битной версией какая то

взял нативый код из https://huggingface.co/Vikhrmodels/Vikhr-7B-instruct

одна разница загрузил в 4битной версии

# Activate 4-bit precision base model loading
use_4bit = True

# Compute dtype for 4-bit base models
bnb_4bit_compute_dtype = "float16"

# Quantization type (fp4 or nf4)
bnb_4bit_quant_type = "nf4"

# Activate nested quantization for 4-bit base models (double quantization)
use_nested_quant = False

compute_dtype = getattr(torch, bnb_4bit_compute_dtype)

bnb_config = BitsAndBytesConfig(
    load_in_4bit=use_4bit,
    bnb_4bit_quant_type=bnb_4bit_quant_type,
    bnb_4bit_compute_dtype=compute_dtype,
    bnb_4bit_use_double_quant=use_nested_quant,
)

работает шустр

я так понял вот это - mixtral-8x7b-instruct-v0.1.Q6_K.gguf

мне почему Сайга от Ильи больше понравилась по адекватности на русском. Я делаю RAG для ответа на вопросы по КоАП

Без Lora от Ильи? И хватает токенайзера? 4bit квантование?

Для каких задач, если не секрет?

Я так понял это скрытая реклама gigachat. Вообще сообщать лишний раз свои персональные данные госкорпорации для доступа к языковой модели это так себе

спасибо, что поделились результатами, Никита. но тут никакого сюрприза нет. 😊 Понятно, что вы по сути оплатили услуги перевода openAI.
главное что заказчик доволен соотношением результат/цена

извините, я не понял главный посыл - это mistral 7B написал? в этом прикол?

потому что естественный интеллект так плохо не напишет - либо он вообще не понимает пока, что такое ИИ(в школе учится), либо уже умеет грамотно излагать мысли на русском языке (с пунктуацией вообще беда )

На самом деле неверно написано, что это просто аналог f-строки. Это не аналог. Данная функциональность введена для того, чтобы загружать промпты в цепочку модуля langchain (chain). По сути специнструмент для работы с langchain

Дмитрий, с прошлой недели (на выходных был на базе отдыха, но просидел в номере ;). даже на вечернее шоу с ноутом пошел) пытаюсь реализовать простую в принципе задачу. Векторизую КоАП на RAG. Почему КоАП? потому что я могу сам проверить корректность ответа.
В общем, я конечно совсем не специалист, но мне кажется, надо не "векторно" искать контекст в базе, а по словам.
Пример "Вопрос: Что грозит за оставление месте ДТП". И даже в таком вопросе, где явно есть слова-подсказки, разные версии BERT плохо находят конкретную статью кодекса по вектору. А вот "оставление" уже явно даст нужные статьи.
Но если нашли, то даже IlyaGusev/saiga_mistral_7b_gguf отлично справляется с ответами - это я проверил.
Т.е. я хочу сказать, что по моему мнению, вот так напрямую задачу поиска по базе юридической информации с помощью BERT решить не получится.
Буду дальше искать нормальный "контекстный поисковик". Скорее всего нахождение информации в базе по конктексу давно решеная задача (типа Elasticsearch).

Дмитрий, узкое место сама технология :).
в RAG по сути ответ на 80% должен давать токенизатор и разбиение, а оставшиеся 20% - уже LLM просто подобранный ответ оформляет/суммаризует. Если промпт плохой, то и ответ будет плохим. У Василия (vagon333) хорошо получилось, потому что разбиение делала мощная модель - по сути она все сделала на этапе предобработки документов.
Кстати, а почему не попробовать локальную openLLM "попросить" разбить текст по какому то критерию, как сделал Василий (vagon333) с openAI?
Еще одна проблема в вашей конкретной идее - в них в любом случае нельзя быть уверенными и нельзя использовать с коммерческой деятельности (риск то может быть огромным - скажем модель ошибется со сроками ответа на исковое заявление).

Спасибо за труд и за оформление статьи! 🙏

Можно и новости с первого и второго каналов читать.

Ну и вспомним спутник

понял. спасибо. Работал, кстати, в Инлайне у Дрожжина несколько лет назад )
я обучил предложенную Вами модель, а потом IlyaGusev/saiga_mistral_7b_lora. Так вот вторая дала субъективно лучше результаты.

Information

Rating
4,330-th
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity