Tencent Hỗn Nguyên lại ra mắt Mã nguồn mở AI đại chiêu! Mô hình Hunyuan-A13B ra mắt, thách thức 80B quái vật với 13B tham số.

robot
Đang tạo bản tóm tắt

Khi AI sinh ra bước vào giai đoạn mới, các mô hình siêu lớn tuy mạnh mẽ, nhưng cũng đi kèm với chi phí tài nguyên cao và độ khó trong việc triển khai. Mô hình ngôn ngữ lớn mã nguồn mở Hunyuan-A13B được Tencent phát hành gần đây đã mở ra một con đường mới nhẹ nhàng và hiệu suất cao: mặc dù có tổng cộng 80 tỷ tham số, nhưng mỗi lần suy diễn chỉ kích hoạt 13 tỷ tham số, thông qua kiến trúc "Mixture-of-Experts (MoE)" đã giảm đáng kể chi phí suy diễn mà không hy sinh khả năng hiểu và suy diễn ngôn ngữ.

Phá vỡ giới hạn hiệu suất và tài nguyên: Phân tích công nghệ nền tảng của Hunyuan-A13B

Hunyuan-A13B sử dụng cấu trúc MoE thưa, tổng cộng có 64 mô-đun chuyên gia và một chuyên gia chia sẻ, trong mỗi lần suy diễn chỉ chọn 8 chuyên gia hoạt động, kết hợp với hàm kích hoạt SwiGLU và công nghệ GQA (Grouped Query Attention), có thể nâng cao hiệu quả sử dụng bộ nhớ và thông lượng suy diễn.

Ngoài ra, khối lượng dữ liệu tiền huấn luyện của nó lên tới 20 triệu tokens, trong đó có 2500 tỷ dữ liệu chất lượng cao đến từ lĩnh vực STEM, tăng cường hiệu suất của mô hình trong toán học, khoa học và suy luận logic. Quá trình huấn luyện tổng thể trải qua ba giai đoạn chính: tiền huấn luyện cơ bản, huấn luyện nhanh và huấn luyện mở rộng ngữ cảnh dài, cuối cùng hỗ trợ khả năng xử lý ngữ cảnh lên tới 256K tokens.

Lựa chọn giữa hai chế độ: Tư duy nhanh vs. Tư duy sâu tự do chuyển đổi.

Hunyuan-A13B đặc biệt giới thiệu cơ chế suy luận hai chế độ (Dual-mode Chain-of-Thought), tự động chuyển đổi giữa chế độ "suy nghĩ nhanh" và "suy nghĩ chậm" dựa trên độ phức tạp của nhiệm vụ. Suy nghĩ nhanh phù hợp cho các truy vấn đơn giản hàng ngày, nhấn mạnh vào độ trễ thấp và hiệu quả cao; suy nghĩ chậm sẽ kích hoạt các đường dẫn suy luận Chain-of-Thought dài hơn, xử lý các vấn đề logic nhiều bước và suy diễn phức tạp, cân bằng giữa độ chính xác và việc sử dụng tài nguyên.

Đánh giá kết quả nổi bật

Trong nhiều bài kiểm tra tiêu chuẩn được công nhận, Hunyuan-A13B đã thể hiện xuất sắc. Nó đứng đầu trong lý thuyết toán học (như AIME 2024, MATH) và cũng nằm trong top đầu trong lý thuyết logic (như BBH, ZebraLogic). Ngay cả trong các bài kiểm tra văn bản dài thử thách độ sâu của mô hình như LongBench-v2 và RULER, Hunyuan-A13B cũng thể hiện khả năng giữ ngữ cảnh và tích hợp logic ấn tượng, đánh bại Qwen3-A22B và DeepSeek-R1 có tham số lớn hơn nhiều.

Đối mặt với thách thức của môi trường mở, khả năng gọi công cụ được nâng cấp toàn diện.

Ngoài khả năng ngôn ngữ và suy luận, Hunyuan-A13B cũng đã nâng cao đáng kể khả năng của Agent. Trong các bài kiểm tra như BFCL v3, ComplexFuncBench liên quan đến việc gọi công cụ, lập kế hoạch và đối thoại nhiều vòng, hiệu suất của nó không chỉ vượt trội hơn Qwen3-A22B, mà còn đứng đầu trong bài kiểm tra C3-Bench, thể hiện sức mạnh to lớn trong việc thích ứng với quy trình nhiệm vụ phức tạp.

Tốc độ suy diễn vượt quá giới hạn, hiệu quả triển khai đáng được chú ý

Theo báo cáo thực nghiệm, Hunyuan-A13B cũng gây ấn tượng mạnh mẽ về hiệu suất suy luận. Kết hợp với các khung suy luận hiện có như vLLM, TensorRT-LLM, v.v., dưới độ dài đầu ra 32 batch, 14K tokens, có thể đạt gần 2000 tokens/s trong thông lượng. Trong các trường hợp sử dụng độ chính xác định dạng INT8, FP8, cũng có thể giữ hiệu suất, điều này rất quan trọng cho việc triển khai doanh nghiệp.

Hiệu suất cao và chi phí hiệu quả được đảm bảo, Mã nguồn mở mô hình đón nhận lựa chọn mới.

Tencent đã thiết lập một chuẩn mực mới cho cộng đồng mô hình ngôn ngữ mã nguồn mở thông qua Hunyuan-A13B. Mô hình này không chỉ vượt qua định kiến "mô hình nhỏ khó cạnh tranh với mô hình lớn", mà còn cung cấp khả năng suy luận linh hoạt và thích ứng với nhiều nhiệm vụ, trở thành flagship mới trong lĩnh vực LLM mã nguồn mở. Đối với các nhà phát triển và doanh nghiệp có nguồn lực hạn chế nhưng vẫn tìm kiếm giải pháp AI hiệu quả, Hunyuan-A13B chắc chắn là một lựa chọn mạnh mẽ đáng để chú ý.

Bài viết này Tencent Hỗn Nguyên lại thúc đẩy Mã nguồn mở AI lớn! Mô hình Hunyuan-A13B ra mắt, thách thức 80B quái vật với 13B tham số, lần đầu tiên xuất hiện trên Chain News ABMedia.

Xem bản gốc
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)