Tencent Hunyuan снова представляет Открытый исходный код AI! Модель Hunyuan-A13B дебютирует с 13B параметрами, бросая вызов 80B гиганту

robot
Генерация тезисов в процессе

С развитием генеративного ИИ и появлением крупных моделей, несмотря на их мощность, они также сопряжены с высокими затратами ресурсов и сложностью развертывания. Последняя версия открытой крупной языковой модели Hunyuan-A13B от Tencent Hongyuan предлагает новый легковесный и эффективный подход: несмотря на наличие в общей сложности 80 миллиардов параметров, для каждого вывода используется всего 13 миллиардов параметров, что значительно снижает стоимость вывода благодаря архитектуре «Mixture-of-Experts (MoE)», при этом не жертвуя пониманием языка и способностями к выводу.

Преодоление瓶頸 производительности и ресурсов: Технический анализ Hunyuan-A13B

Hunyuan-A13B использует разреженную архитектуру MoE, которая включает 64 экспертных модуля и одного общего эксперта. При каждой инференции активируются только 8 из этих экспертов, что в сочетании с функцией активации SwiGLU и технологией GQA (Групповое Внимание Запросов) позволяет эффективно повысить эффективность использования памяти и throughput инференции.

Кроме того, объем его предварительно обученных данных составляет 20 триллионов токенов, из которых 250 миллиардов приходят из области STEM и представляют собой высококачественные данные, усиливающие производительность модели в математике, науке и логическом мышлении. Общее обучение проходит через три основных этапа: базовое предварительное обучение, быстрое отжигание и расширенное обучение с длинным контекстом, в конечном итоге поддерживая способность обработки контекста до 256K токенов.

Выбор между двумя режимами: Быстрый vs. Глубокое мышление, свободное переключение

Hunyuan-A13B специально вводит двойной режим механизма вывода (Dual-mode Chain-of-Thought), автоматически переключаясь между режимами «быстрого мышления» и «медленного мышления» в зависимости от сложности задачи. Быстрое мышление подходит для простых повседневных запросов, подчеркивая низкую задержку и высокую эффективность; медленное мышление активирует более длинные пути вывода Chain-of-Thought, обрабатывая многослойную логику и сложные дедуктивные задачи, уравновешивая точность и использование ресурсов.

Результаты тестирования впечатляют

В нескольких признанных бенчмарках Hunyuan-A13B показал выдающиеся результаты. Он занял первое место в математическом рассуждении (таких как AIME 2024, MATH) и также оказался в числе лидеров в логическом рассуждении (таких как BBH, ZebraLogic). Даже в более сложных тестах на длинные тексты, таких как LongBench-v2 и RULER, Hunyuan-A13B продемонстрировал удивительную способность сохранять контекст и интегрировать логику, обойдя Qwen3-A22B и DeepSeek-R1, параметры которых значительно превышают его.

面对 вызовов открытой среды, возможности использования инструментов полностью обновлены.

Помимо языковых и логических способностей, Hunyuan-A13B также значительно улучшил возможности Agent. В тестах, таких как BFCL v3, ComplexFuncBench, которые касаются вызова инструментов, планирования и многократных диалогов, его производительность не только превосходит Qwen3-A22B, но и занимает первое место в тестировании C3-Bench, демонстрируя его мощные способности адаптироваться к сложным рабочим процессам.

Пропускная способность вывода информации зашкаливает, эффективность развертывания заслуживает внимания.

Согласно отчету о тестировании, Hunyuan-A13B также удивляет своей эффективностью вывода. В сочетании с существующими фреймворками вывода, такими как vLLM, TensorRT-LLM и т.д., при 32 пакетах и длине вывода 14K токенов можно достичь почти 2000 токенов/с производительности. При использовании квантовки INT8, FP8 и других точностей, производительность также сохраняется, что имеет решающее значение для развертывания в предприятиях.

Высокая производительность и высокая стоимость при этом, Открытый исходный код модели встречает новый выбор

Tencent установила новый стандарт в области открытых языковых моделей с помощью Hunyuan-A13B. Эта модель не только преодолела стереотип "маленькие модели не могут соперничать с большими", но и предлагает гибкое рассуждение и многозадачную адаптацию, став новым флагманом в области открытых LLM. Для разработчиков и компаний с ограниченными ресурсами, которые все еще стремятся к эффективным решениям AI, Hunyuan-A13B, безусловно, является мощным новым выбором, на который стоит обратить внимание.

Эта статья Tencent Hunyuan снова представляет Открытый исходный код AI большой шаг! Модель Hunyuan-A13B дебютирует, 13B параметров бросает вызов гиганту 80B, впервые появившись в Chain News ABMedia.

Посмотреть Оригинал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить