Что означает 'Distill' в названии модели?

Это означает, что модель была обучена на ответах более мощной нейросети (DeepSeek R1), что позволило перенести сложные навыки рассуждения в более компактную архитектуру Llama 70B.

Поддерживает ли модель работу с длинными документами?

Да, благодаря контекстному окну в 131 072 токена, модель способна анализировать и обрабатывать очень объемные тексты и программные коды.

Можно ли использовать модель на alltokens для программирования?

Да, модель отлично справляется с написанием кода, отладкой и объяснением сложных алгоритмов благодаря интеграции логики DeepSeek R1.

DeepSeek: R1 Distill Llama 70B

DeepseekОбновлено: 23 января 2025 г.

DeepSeek R1 Distill Llama 70B — это высокопроизводительная модель, полученная путем дистилляции знаний из DeepSeek R1 в архитектуру Llama-3.3-70B. Она сочетает в себе продвинутые способности к рассуждению и логическому выводу с эффективностью и надежностью популярного семейства Llama.

Использовать через API

Метрики

Вход

100 ₽/M

Выход

100 ₽/M

Контекст

128k tokens

Параметры

Релиз

23 января 2025 г.

Поддерживаемые параметры

frequency_penaltyinclude_reasoningmax_tokenspresence_penaltyreasoningrepetition_penaltyseedstoptemperaturetop_ktop_p

Технический обзор

DeepSeek R1 Distill Llama 70B — это дистиллированная большая языковая модель, созданная на базе Llama-3.3-70B-Instruct с использованием выходных данных DeepSeek R1. Модель сочетает в себе передовые методы дистилляции для достижения высокой производительности в различных тестах, включая: - AIME 2024 pass@1: 70.0 - MATH-500 pass@1: 94.5 - Рейтинг CodeForces: 1633 Благодаря тонкой настройке на результатах DeepSeek R1, модель демонстрирует конкурентоспособную эффективность, сопоставимую с крупнейшими флагманскими моделями. На alltokens вы можете получить доступ к возможностям этой модели через API.

Кодинг

Инструменты

Длинный контекст

Мультимодальность

Веб-автоматизация

Смежные подборки

Модели для программирования

Сравнение с похожими моделями

Модель

Для чего

Контекст

Цена ₽

Модель

DeepSeek: R1 Distill Llama 70BТекущая

Для чего

Контекст

128k

Цена ₽

100 / 100

DeepSeek: R1 Distill Llama 70BТекущая

128k

100 / 100

Модель

Kwaipilot: KAT-Coder-Pro V2

Для чего

Обе модели ориентированы на решение сложных технических задач и программирование, предлагая высокую точность в генерации кода.

Контекст

256k

Цена ₽

38 / 150

Kwaipilot: KAT-Coder-Pro V2

256k

38 / 150

Модель

MiniMax: MiniMax M2.7

Для чего

Модели сопоставимы по возможностям обработки длинных контекстов и подходят для глубокого анализа текстовых данных.

Контекст

205k

Цена ₽

30 / 120

MiniMax: MiniMax M2.7

205k

30 / 120

Когда выбирать

Необходима высокая точность в задачах, требующих цепочки рассуждений (Chain of Thought).
Требуется работа с большими объемами данных благодаря контекстному окну в 128k токенов.
Нужна стабильная производительность архитектуры Llama, усиленная методами дистилляции DeepSeek.

Когда не выбирать

Требуется мультимодальное взаимодействие, так как модель работает только с текстовым вводом.
Необходима максимально легкая модель для мгновенных простых ответов без глубокого анализа.
Задачи подразумевают использование специфических узкопрофильных баз данных, не входящих в обучающую выборку Llama.