nomiren472 написал(а):70ые нереально использовать очень медленно
900 миллисекунд на токен для Q2_K на моей довольно убогой конфигурации. У кого видеокарта с большим количеством видеопамяти и оперативная память DDR5, тем будет лучше. И нужно помнить, что новые кванты с матрицей внимания хоть и меньшего размера, но работают вдвое медленнее (XS, XSS). Если модель полностью влазит в видеопамять, то всё быстро - для того их и делали. А если нет, то нет.
А разница весомая, хотя бывают конечно более или менее удачные модели. Маленькие модели я давно не использовал, потому что раньше они вообще никуда не годились. Теперь лучше, а удачные даже гораздо лучше. Но размер (и количество параметров) всё-таки имеют значение.
Из недавних мне Crunchy-onion понравилась:
https://huggingface.co/Epiculous/Crunch … /tree/main
Микстраль, и шестой квант работает достаточно шустро. Удачная.
Отредактировано Vlad100 (2024-03-17 00:57:09)