Alltokens

DeepSeek: R1 Distill Llama 70B

DeepseekDeepseekОбновлено: 23 января 2025 г.

DeepSeek R1 Distill Llama 70B — это высокопроизводительная модель, полученная путем дистилляции знаний из DeepSeek R1 в архитектуру Llama-3.3-70B. Она сочетает в себе продвинутые способности к рассуждению и логическому выводу с эффективностью и надежностью популярного семейства Llama.

Использовать через API

Метрики

Вход

87 ₽/M

Выход

100 ₽/M

Контекст

131k tokens

Параметры

14

Релиз

23 января 2025 г.

Поддерживаемые параметры

frequency_penaltyinclude_reasoninglogit_biasmax_tokensmin_ppresence_penaltyreasoningrepetition_penaltyresponse_formatseedstoptemperaturetop_ktop_p

Технический обзор

DeepSeek R1 Distill Llama 70B — это дистиллированная большая языковая модель, созданная на базе Llama-3.3-70B-Instruct с использованием выходных данных DeepSeek R1. Модель сочетает в себе передовые методы дистилляции для достижения высокой производительности в различных тестах, включая: - AIME 2024 pass@1: 70.0 - MATH-500 pass@1: 94.5 - Рейтинг CodeForces: 1633 Благодаря тонкой настройке на результатах DeepSeek R1, модель демонстрирует конкурентоспособную эффективность, сопоставимую с крупнейшими флагманскими моделями. На alltokens вы можете получить доступ к возможностям этой модели через API.

Кодинг
Инструменты
Длинный контекст
Мультимодальность
Веб-автоматизация

Смежные подборки

Сравнение с похожими моделями

Модель

Для чего

DeepSeek R1 Distill Llama 70B — это высокопроизводительная модель, полученная путем дистилляции знаний из DeepSeek R1 в архитектуру Llama-3.3-70B. Она сочетает в себе продвинутые способности к рассуждению и логическому выводу с эффективностью и надежностью популярного семейства Llama.

Контекст

131k

Цена ₽

87 / 100

Для чего

Обе модели ориентированы на решение сложных технических задач и программирование, предлагая высокую точность в генерации кода.

Контекст

256k

Цена ₽

38 / 150

Для чего

Модели сопоставимы по возможностям обработки длинных контекстов и подходят для глубокого анализа текстовых данных.

Контекст

205k

Цена ₽

35 / 150

Когда выбирать

  • Необходима высокая точность в задачах, требующих цепочки рассуждений (Chain of Thought).
  • Требуется работа с большими объемами данных благодаря контекстному окну в 128k токенов.
  • Нужна стабильная производительность архитектуры Llama, усиленная методами дистилляции DeepSeek.

Когда не выбирать

  • Требуется мультимодальное взаимодействие, так как модель работает только с текстовым вводом.
  • Необходима максимально легкая модель для мгновенных простых ответов без глубокого анализа.
  • Задачи подразумевают использование специфических узкопрофильных баз данных, не входящих в обучающую выборку Llama.

FAQ

МИРVisaMastercardСБП
AllTokens

© 2026 Alltokens. Все права защищены.

ИП Наумов Евгений Алексеевич · ИНН 434522560555 · ОГРНИП 324430000002724 · support@alltokens.ru