закон reddit
/ habr.com

Слив языковой модели LLaMA 3.1 размером 405B (а также 70B, 8B). Главный открытый конкурент GPT-4o

После выхода LLaMA 3 70B многие ждали обещанную модель размером 400B. Эта модель должна была составить полноценную конкуренцию с GPT-4, при этом оставаться с открытыми весами.

Правда некоторые слухи утверждали, что в открытый доступ 400B модель не попадет и будет доступна только через подписку. И тут неожиданно была слита даже не ожидаемая LLaMA 3, а улучшенная версия LLaMA 3.1.Главное изменение, помимо улучшения качества, в версии 3.1 размер контекста увеличен до 128K вместо 8K.

По некоторым бенчмаркам LLaMA 3.1 размером 8B превосходит LLaMA 3 70B. А модель на 405B конкурирует с GPT-4o.А модели 70B и 8B получены, судя по всему, путем дистилляции из 405B модели, что несколько снижает их качество, по сравнению с нативно обученными 70B моделями, но при этом по бенчмаркам они всё равно обходят предыдущую Llama 3 70B.К сожалению, репозитории huggingface с 8B и 70B быстро удаляют, поэтому актуальных ссылок пока нет, возможно, кто-то поделится в комментариях.Обсуждение на reddit и торрент файл модели 405B (суммарный вес файлов 820гб): https://www.reddit.com/r/LocalLLaMA/comments/1e98zrb/llama_31_405b_base_model_available_for_download/405B модель на huggingface: https://huggingface.co/v2ray/Llama-3.1-405B/tree/main

Читать на habr.com
Сайт imag.one - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

Сейчас читают

DMCA