Форум игр +18

Кружок любителей игр

Объявление

Информация о пользователе

Привет, Гость! Войдите или зарегистрируйтесь.


Вы здесь » Кружок любителей игр » Флудилка » Нейросети


Нейросети

Сообщений 41 страница 60 из 72

41

nomiren472 написал(а):

сам какие модели используешь?

Стараюсь семидесятки, но это тяжело. Вот как раз новая Midnight-Miqu вышла:
https://huggingface.co/mradermacher/Mid … .5-i1-GGUF

Очень хороша. С нетерпением жду развития проекта Мику. Надеюсь, что проблем с цензурой там не будет.

0

42

Vlad100 написал(а):

nomiren472 написал(а):

    сам какие модели используешь?

Стараюсь семидесятки, но это тяжело. Вот как раз новая Midnight-Miqu вышла:
https://huggingface.co/mradermacher/Mid … .5-i1-GGUF

Очень хороша. С нетерпением жду развития проекта Мику. Надеюсь, что проблем с цензурой там не будет.

а какие из более мелких? 70ые нереально использовать очень медленно и я весомой разницы с траппи не увидел (запускал мику 2 бита)

0

43

nomiren472 написал(а):

70ые нереально использовать очень медленно

900 миллисекунд на токен для Q2_K на моей довольно убогой конфигурации. У кого видеокарта с большим количеством видеопамяти и оперативная память DDR5, тем будет лучше. И нужно помнить, что новые кванты с матрицей внимания хоть и меньшего размера, но работают вдвое медленнее (XS, XSS). Если модель полностью влазит в видеопамять, то всё быстро - для того их и делали. А если нет, то нет.

А разница весомая, хотя бывают конечно более или менее удачные модели. Маленькие модели я давно не использовал, потому что раньше они вообще никуда не годились. Теперь лучше, а удачные даже гораздо лучше. Но размер (и количество параметров) всё-таки имеют значение.

Из недавних мне Crunchy-onion понравилась:
https://huggingface.co/Epiculous/Crunch … /tree/main

Микстраль, и шестой квант работает достаточно шустро. Удачная.

Отредактировано Vlad100 (2024-03-17 00:57:09)

0

44

Vlad100 написал(а):

Микстраль, и шестой квант работает достаточно шустро

Там 30+ гиг - сколько токенов в секунду на 6 кванте?

Vlad100 написал(а):

900 миллисекунд на токен для Q2_K на моей довольно убогой конфигурации.

эта траппи дает у меня 1.7 токена в секунду генерации и как по мне это медленно (еще же чтение жрет время)

ты прям наблюдаешь заметную разницу в качестве текста и удержании контекста чтобы столько ждать 70е сетки?

Отредактировано nomiren472 (2024-03-17 01:14:35)

0

45

nomiren472 написал(а):

Там 30+ гиг - сколько токенов в секунду на 6 кванте?

2,3 токена в секунду и больше, при контексте в 8к. Хватает.
Батник для Кобольда (у меня всего 8Гб видеопамяти):

Код:
koboldcpp.exe --usecublas lowvram --contextsize 8192 --blasbatchsize 512 --gpulayers 5 --threads 9 --highpriority --model Crunchy-onion-Q6_K.gguf
nomiren472 написал(а):

ты прям наблюдаешь заметную разницу в качестве текста и удержании контекста чтобы столько ждать 70е сетки?

Да и ещё раз да.

Отредактировано Vlad100 (2024-03-17 01:41:46)

0

46

Vlad100 написал(а):

Да и ещё раз да.

охренеть у меня 4 бита Crunchy-onion (28гиг) работает быстрее чем та 5 бит траппи которая в 2 раза меньше (13+ гиг)

0

47

Доброго вечера.
А что лучше попробовать для мощной видяхи (4090)?
Желательно чтобы в русский, с английским тяжело.
И хоть как то состыковать с инструкцией из первых постов.

0

48

nomiren472 написал(а):

охренеть у меня 4 бита Crunchy-onion (28гиг) работает быстрее чем та 5 бит траппи которая в 2 раза меньше (13+ гиг)

Это Микстраль, MoE- архитектура. В данном случае 8 моделей по 7В, из которых для текущего ответа выбирается два "эксперта". Но поскольку каждый их них всего по 7В, то чем больше будет квант, тем лучше. Короче ты понял :)

0

49

vffedor написал(а):

А что лучше попробовать для мощной видяхи (4090)?

Пара гайдов:
https://2ch-ai.gitgud.site/wiki/llama/
https://2ch-ai.gitgud.site/wiki/llama/g … ion-webui/

В твоём случае лучше использовать text generation webui и качать модели в формате exl2. Если такая модель полностью помещается в видеопамять, то работает очень быстро. В 24Гб видеопамяти влезет модель до 34B в 4.65 битах. Это довольно приличное качество. В text generation webui точно есть плагин-переводчик от Гугла, в Silly Tavern (это надстройка для ролевых игр) кажется тоже есть что-то такое. Жить можно.

0

50

Vlad100 написал(а):

900 миллисекунд на токен для Q2_K на моей довольно убогой конфигурации. У кого видеокарта с большим количеством видеопамяти и оперативная память DDR5, тем будет лучше

у меня miqu что 2б что 4б дают одну и туже скорость лол - 1.4 токена в секунду

0

51

nomiren472 написал(а):

у меня miqu что 2б что 4б дают одну и туже скорость лол - 1.4 токена в секунду

По идее не должно так быть, размер-то разный. Кванты новые (XS) или старые (K)?

Вообще, Midnight Miqu вчера погонял - есть недостатки. Возможно если выставить настройки вот отсюда:
https://huggingface.co/sophosympatheia/ … u-70B-v1.5

то будет лучше, но с моими дефолтными модель склонна к повторениям. Правда это не оригинальная Мику, а довольно сложный микс, и не все модели из микса удачные. Советуют попробовать чистую модель:
https://huggingface.co/miqudev/miqu-1-70b/tree/main

Отредактировано Vlad100 (2024-03-18 01:41:15)

0

52

Vlad100 написал(а):

По идее не должно так быть, размер-то разный. Кванты новые (XS) или старые (K)?
Советуют попробовать чистую модель:
https://huggingface.co/miqudev/miqu-1-70b/tree/main

для 2х бит новые кванты для 4х старые разница есть но не значительная
В любом случае слишком медленно как по мне, лучше посоветуй модели на 20/30/40/50 B параметров

Отредактировано nomiren472 (2024-03-18 09:13:37)

0

53

nomiren472 написал(а):

В любом случае слишком медленно как по мне, лучше посоветуй модели на 20/30/40/50 B параметров

Да я их не особо смотрел так-то. Можно глянуть, что из таких размеров новенького делают активисты:
https://huggingface.co/LoneStriker
https://huggingface.co/mradermacher
https://huggingface.co/dranger003

Какой там у тебя был сайт для определения рейтинга модели? Тоже показатель. Ну и личный опыт и отзывы после проб всегда приветствуются.

0

54

Vlad100 написал(а):

Какой там у тебя был сайт для определения рейтинга модели? Тоже показатель. Ну и личный опыт и отзывы после проб всегда приветствуются.

смотрю https://llm.extractum.io/list/?benchmark=hflb_arc (на разных параметрах) тут
но спрашиваю о личных впечатлениях )
мику хорошая но очень медленно
пока что мой топ это luxia-21.4b, trappi что я давал, и LHK_DPO

проверяю ggml-smaug-34b-v0.1-iq3_xxs и lumosia-moe-4x10.7

0

55

Advanced Character Creator Guide
https://yodayo.notion.site/Advanced-Cha … 195a84d8e4
(может требовать прокси для доступа из России)
5 Advanced Tips and Tricks on Creating a Better Chatbot at Yodayo Tavern (видео из ссылки выше)

0

56

Не верьте дети в Йети, верьте дети в нейросети

0

57

Vlad100
nomiren472
А попробуйте InfinityRP-v1:
https://huggingface.co/Lewdiculous/Infi … IQ-Imatrix
Не смотрите что 7B, просто попробуйте.

0

58

Slilo написал(а):

А попробуйте InfinityRP-v1:

А попробовал :) Для RP прямо хорошо! И быстро. Скачал восьмой квант, поставил 16к контекста и загрузил в Silly Tavern достаточно сложную карточку - получил интересный опыт. Со своей стороны рекомендую!

Отредактировано Vlad100 (2024-03-27 15:26:35)

0

59

Vlad100 написал(а):

Slilo написал(а):

    А попробуйте InfinityRP-v1:

А попробовал :) Для RP прямо хорошо! И быстро. Скачал восьмой квант, поставил 16к контекста и загрузил в Silly Tavern достаточно сложную карточку - получил интересный опыт. Со своей стороны рекомендую!

Да, вот я даже не могу понять. Она явно лучше подходит чем LZVL на 70b параметров, у LZVL язык что ли богаче, но такое чувство что это больше зависит от того на чем сетку учили, чем от параметров. То есть узкоспециализированная под RP справляется лучше чем общего назначения.
Думаю в будущем научаться делать какие-нибудь жирные сетки, но дообученные под конкретные задачи, вот тогда заживем ))

InfinityRP мне еще понравился тем что он умеет отвечать большими текстами на короткие фразы от меня, а не копирует мой стиль, как большенство других.

0

60

Slilo написал(а):

InfinityRP мне еще понравился тем что он умеет отвечать большими текстами на короткие фразы от меня, а не копирует мой стиль, как большенство других.

Да, он хорош. Хотя насчёт 16к контекста я погорячился, держит он только 8. Но и это хорошо. А главное, он предлагает разные варианты развития событий - выбирай на вкус. В принципе, хорошая RP-модель и должна это делать, только вот мало их, хороших.

Правда не следует переоценивать маленькие модели. Вне своей спецификации они глупы как пробки. То есть если дойдёт до воображения, креативности, то смотреть на это может быть больно. К счастью, существует такая штука, как "свайп" :)

0


Вы здесь » Кружок любителей игр » Флудилка » Нейросети