Công nghệ mã hóa sẽ thúc đẩy sự phát triển của ngành Bots bằng cách cung cấp bảo đảm kinh tế cho sự an toàn của Bots, đồng thời tối ưu hóa cơ sở hạ tầng kết nối, trễ và quy trình thu thập dữ liệu.
Tác giả: Paul Veradittakit, Đối tác tại Pantera Capital
Biên dịch: xiaozou, Jinse Finance
Tóm tắt:
Sự đổi mới và hiệu ứng quy mô của VLA đang thúc đẩy sự ra đời của những con robot hình người tiết kiệm chi phí, hiệu quả và đa năng.
Khi các robot kho bãi mở rộng sang thị trường robot tiêu dùng, an toàn robot, tài trợ và cơ chế đánh giá cần được khám phá sâu hơn.
Mã hóa sẽ thúc đẩy sự phát triển của ngành công nghiệp Bots bằng cách cung cấp bảo đảm kinh tế cho Bots, đồng thời tối ưu hóa cơ sở hạ tầng kết nối, Trễ và quy trình thu thập dữ liệu.
ChatGPT đã hoàn toàn thay đổi nhận thức của con người về kỳ vọng đối với trí tuệ nhân tạo. Khi các mô hình ngôn ngữ lớn bắt đầu tương tác với thế giới phần mềm bên ngoài, nhiều người đã từng nghĩ rằng AI là hình thức tối thượng. Nhưng nếu xem lại các bộ phim khoa học viễn tưởng kinh điển như "Chiến tranh giữa các vì sao", "Kẻ đột kích bạc" hay "Cảnh sát máy", chúng ta sẽ nhận ra rằng ước mơ thực sự của con người là trí tuệ nhân tạo có thể tương tác với thế giới vật lý dưới dạng robot.
Theo Pantera Capital, "thời điểm ChatGPT" trong lĩnh vực robot sắp đến. Chúng tôi sẽ đầu tiên phân tích cách mà những đột phá trong trí tuệ nhân tạo trong vài năm qua đã thay đổi bối cảnh ngành, sau đó thảo luận về công nghệ pin, tối ưu hóa trễ và cải thiện thu thập dữ liệu sẽ hình thành bức tranh tương lai như thế nào, cùng với vai trò của mã hóa trong đó. Cuối cùng, chúng tôi sẽ giải thích lý do tại sao robot an toàn, tài trợ, đánh giá và giáo dục là những lĩnh vực cần được chú trọng.
1, Yếu tố cải cách
(1)Đột phá trí tuệ nhân tạo
Tiến bộ trong lĩnh vực mô hình ngôn ngữ đa phương thức đang cung cấp cho Bots "bộ não" cần thiết để thực hiện các nhiệm vụ phức tạp. Bots chủ yếu cảm nhận môi trường thông qua hai giác quan là thị giác và thính giác.
Mô hình thị giác máy tính truyền thống (như mạng nơ-ron tích chập) mặc dù giỏi trong các nhiệm vụ phát hiện hoặc phân loại đối tượng, nhưng lại khó khăn trong việc chuyển đổi thông tin thị giác thành các lệnh hành động có mục đích. Mô hình ngôn ngữ lớn mặc dù thể hiện xuất sắc trong việc hiểu và tạo ra văn bản, nhưng lại bị hạn chế bởi khả năng nhận thức thế giới vật lý.
Thông qua mô hình Hình ảnh - Ngôn ngữ - Hành động (VLA), Bots có thể tích hợp nhận thức hình ảnh, hiểu ngôn ngữ và hành động thể chất trong một khung tính toán thống nhất. Vào tháng 2 năm 2025, Figure AI đã phát hành mô hình điều khiển người hình tổng quát Helix, mô hình VLA này đã thiết lập tiêu chuẩn mới cho ngành với khả năng tổng quát không mẫu và kiến trúc hệ thống 1/hệ thống 2. Đặc tính tổng quát không mẫu cho phép Bots thích ứng ngay lập tức với các cảnh mới, đối tượng mới và chỉ dẫn mới mà không cần phải huấn luyện lại cho từng nhiệm vụ. Kiến trúc hệ thống 1/hệ thống 2 tách biệt lý luận bậc cao và lý luận nhẹ, đạt được sự kết hợp giữa tư duy giống người và độ chính xác thời gian thực của Bots thương mại.
(2) Robot kinh tế trở thành hiện thực
Công nghệ thay đổi thế giới đều có một đặc điểm chung - khả năng phổ cập. Điện thoại thông minh, máy tính cá nhân, công nghệ in 3D đều được phổ cập với mức giá mà tầng lớp trung lưu có thể chấp nhận. Khi giá của các Bots như Unitree G1 thấp hơn giá của một chiếc Honda Accord hoặc mức thu nhập tối thiểu hàng năm 34.000 USD ở Mỹ, thật không khó để tưởng tượng một thế giới mà lao động chân tay và các công việc hàng ngày chủ yếu được hoàn thành bởi Bots.
(3)Từ kho bãi đến thị trường tiêu dùng
Công nghệ Bots đang mở rộng từ các giải pháp kho bãi sang lĩnh vực tiêu dùng. Thế giới này được thiết kế cho con người — con người có thể hoàn thành tất cả công việc của Bots chuyên nghiệp, trong khi Bots chuyên nghiệp không thể đảm nhận tất cả công việc của con người. Các công ty Bots không còn giới hạn trong việc sản xuất Bots dành riêng cho nhà máy, mà chuyển sang phát triển các Bots hình người đa năng hơn. Do đó, công nghệ Bots không chỉ tồn tại ở các kho bãi, mà còn thấm nhuần vào cuộc sống hàng ngày.
Chi phí là một trong những nút thắt chính của khả năng mở rộng. Chỉ số mà chúng tôi quan tâm nhất là chi phí tổng hợp mỗi giờ, được tính bằng cách: tổng chi phí cơ hội thời gian cho đào tạo và sạc, chi phí thực hiện nhiệm vụ và chi phí mua Bots, chia cho tổng thời gian hoạt động của Bots. Chi phí này cần phải thấp hơn mức lương trung bình của ngành liên quan mới có tính cạnh tranh.
Để thâm nhập toàn diện vào lĩnh vực kho bãi, chi phí tổng hợp của Bots mỗi giờ phải thấp hơn 31.39 đô la. Trong khi đó, ở thị trường tiêu dùng lớn nhất - lĩnh vực giáo dục tư nhân và dịch vụ y tế, chi phí này cần được kiểm soát dưới 35.18 đô la. Hiện tại, Bots đang phát triển theo hướng rẻ hơn, hiệu quả hơn và đa năng hơn.
2、Bước đột phá tiếp theo của công nghệ Bots
(1)Tối ưu hóa pin
Công nghệ pin luôn là điểm nghẽn của những chiếc robot thân thiện với người dùng. Các xe điện như BMW i3 thời kỳ đầu do hạn chế công nghệ pin dẫn đến thời gian sử dụng ngắn, chi phí cao và tính thực tiễn thấp, nên khó phổ biến, robot cũng đang gặp phải tình huống tương tự. Robot Spot của Boston Dynamics chỉ có thể sử dụng trong 90 phút cho mỗi lần sạc, trong khi đó pin của Unitree G1 có thời gian sử dụng khoảng 2 giờ. Rõ ràng người dùng không muốn phải sạc thủ công sau mỗi hai giờ, vì vậy việc tự sạc và kết nối với cơ sở hạ tầng trở thành hướng phát triển chính. Hiện tại, việc sạc robot chủ yếu có hai chế độ: thay pin hoặc sạc trực tiếp.
Chế độ thay pin cho phép thay thế nhanh chóng các bộ pin đã cạn kiệt để duy trì hoạt động liên tục, tối thiểu hóa thời gian ngừng hoạt động, phù hợp cho các cảnh trong công trường hoặc nhà máy. Quy trình này có thể được thực hiện bằng tay hoặc tự động.
Sạc cảm ứng sử dụng phương thức cung cấp năng lượng không dây, mặc dù thời gian sạc đầy tương đối lâu, nhưng có thể dễ dàng đạt được quy trình tự động hóa hoàn toàn.
(2)Trễ tối ưu
Hoạt động có độ trễ thấp có thể được chia thành hai loại: nhận thức môi trường và điều khiển từ xa. Nhận thức đề cập đến khả năng nhận thức không gian của Bots đối với môi trường, trong khi điều khiển từ xa chỉ đề cập đến việc kiểm soát thời gian thực của người điều khiển.
Theo nghiên cứu của Cintrini, hệ thống cảm nhận của Bots bắt đầu từ cảm biến giá rẻ, nhưng rào cản công nghệ nằm ở việc tích hợp phần mềm, tính toán tiêu thụ điện năng thấp và mạch điều khiển chính xác trong mili giây. Khi Bots hoàn thành việc định vị không gian, mạng nơ-ron nhẹ sẽ đánh dấu các yếu tố như chướng ngại vật, pallet hoặc con người. Sau khi nhãn cảnh được nhập vào hệ thống lập kế hoạch, nó ngay lập tức tạo ra các lệnh động cơ gửi đến chân, bộ bánh xe hoặc cánh tay cơ khí. Độ trễ cảm nhận dưới 50 mili giây tương đương với tốc độ phản xạ của con người - bất kỳ độ trễ nào vượt quá ngưỡng này sẽ khiến Bots hành động vụng về. Do đó, 90% quyết định cần được thực hiện tại chỗ thông qua mạng thị giác - ngôn ngữ - hành động đơn lẻ.
Robot tự động hoàn toàn cần đảm bảo mô hình VLA có độ trễ thấp hơn 50 mili giây; robot điều khiển từ xa yêu cầu độ trễ tín hiệu giữa đầu điều khiển và robot không vượt quá 50 mili giây. Tầm quan trọng của mô hình VLA ở đây đặc biệt nổi bật - nếu đầu vào hình ảnh và văn bản được xử lý bởi các mô hình khác nhau trước khi đưa vào mô hình ngôn ngữ lớn, độ trễ tổng thể sẽ vượt quá ngưỡng 50 mili giây.
(3)Tối ưu hóa thu thập dữ liệu
Việc thu thập dữ liệu chủ yếu có ba con đường: dữ liệu video thế giới thực, dữ liệu tổng hợp và dữ liệu điều khiển từ xa. Rào cản cốt lõi giữa dữ liệu thực và dữ liệu tổng hợp là việc thu hẹp khoảng cách giữa hành vi vật lý của Bots và video / mô hình mô phỏng. Dữ liệu video thực thiếu các chi tiết vật lý như phản hồi lực, sai số chuyển động khớp và biến dạng vật liệu; dữ liệu mô phỏng lại thiếu các biến không thể dự đoán như lỗi cảm biến, hệ số ma sát.
Phương pháp thu thập dữ liệu có tiềm năng nhất là điều khiển từ xa - do các nhà điều hành con người điều khiển Bots thực hiện nhiệm vụ. Nhưng chi phí lao động là yếu tố chính hạn chế thu thập dữ liệu điều khiển từ xa.
Việc phát triển phần cứng tùy chỉnh cũng đang cung cấp các giải pháp mới cho việc thu thập dữ liệu chất lượng cao. Công ty Mecka kết hợp giữa các phương pháp chính thống và phần cứng tùy chỉnh để thu thập dữ liệu chuyển động con người đa chiều, sau khi xử lý chuyển đổi thành bộ dữ liệu phù hợp cho việc đào tạo mạng nơ-ron của bots, kết hợp với chu kỳ lặp nhanh cung cấp cho việc đào tạo AI bots một lượng lớn dữ liệu chất lượng cao. Những đường ống công nghệ này đã cùng nhau rút ngắn con đường chuyển đổi từ dữ liệu thô đến các bots có thể triển khai.
3、Lĩnh vực khám phá chính
(1)mã hóa kỹ thuật và Bots融合
Mã hóa có thể khuyến khích các bên không tin cậy nâng cao hiệu quả mạng Bots. Dựa trên các lĩnh vực chính đã đề cập trước đó, chúng tôi cho rằng mã hóa có thể nâng cao hiệu quả trong ba lĩnh vực: tích hợp cơ sở hạ tầng, tối ưu hóa Trễ và thu thập dữ liệu.
Mạng lưới hạ tầng vật lý phi tập trung (DePIN) được kỳ vọng sẽ cách mạng hóa cơ sở hạ tầng sạc điện. Khi những con robot hình người hoạt động toàn cầu như ô tô, các trạm sạc cần phải dễ tiếp cận như các trạm xăng. Mạng lưới tập trung cần một khoản đầu tư ban đầu lớn, trong khi DePIN sẽ phân chia chi phí cho các nhà điều hành nút, giúp cơ sở hạ tầng sạc mở rộng nhanh chóng đến nhiều khu vực hơn.
DePIN còn có thể sử dụng cơ sở hạ tầng phân tán để tối ưu hóa độ trễ điều khiển từ xa. Bằng cách tổng hợp tài nguyên tính toán từ các nút biên phân tán về địa lý, các lệnh điều khiển từ xa có thể được xử lý bởi các nút địa phương hoặc nút gần nhất có sẵn, tối đa hóa việc rút ngắn khoảng cách truyền dữ liệu, giảm thiểu đáng kể độ trễ giao tiếp. Tuy nhiên, hiện tại các dự án DePIN chủ yếu tập trung vào lưu trữ phi tập trung, phân phối nội dung và chia sẻ băng thông, mặc dù có các dự án trình diễn lợi thế của tính toán biên trong phát trực tuyến hoặc Internet vạn vật, vẫn chưa mở rộng đến lĩnh vực Bots hoặc điều khiển từ xa.
Điều khiển từ xa là phương pháp thu thập dữ liệu có triển vọng nhất, nhưng chi phí để các thực thể trung tâm tuyển dụng chuyên gia thu thập dữ liệu là rất cao. DePIN khuyến khích các bên thứ ba cung cấp dữ liệu điều khiển từ xa thông qua mã thông báo mã hóa để giải quyết vấn đề này. Dự án Reborn xây dựng mạng lưới điều hành viên toàn cầu, chuyển đổi đóng góp của họ thành tài sản số hóa được mã hóa, tạo thành hệ thống phi tập trung không cần cấp phép — người tham gia vừa có thể thu được lợi nhuận, vừa có thể tham gia quản trị và hỗ trợ đào tạo AGI Bots.
(2) An toàn luôn là mối quan tâm chính
Mục tiêu cuối cùng của công nghệ Bots là đạt được sự tự chủ hoàn toàn, nhưng như loạt phim "Kẻ Hủy Diệt" đã cảnh báo, điều mà con người không muốn thấy nhất là sự tự chủ biến Bots thành vũ khí tấn công. Các vấn đề an toàn của mô hình ngôn ngữ lớn đã gây ra mối quan tâm, và khi những mô hình này có khả năng hành động vật lý, an toàn Bots trở thành điều kiện tiên quyết để xã hội chấp nhận.
An ninh kinh tế là một trong những trụ cột của sự thịnh vượng của hệ sinh thái Bots. Công ty OpenMind trong lĩnh vực này đang xây dựng FABRIC - một lớp điều phối máy móc phi tập trung, thông qua mã hóa để thực hiện xác thực danh tính thiết bị, xác minh sự hiện diện vật lý và truy cập tài nguyên. Khác với việc quản lý thị trường nhiệm vụ đơn giản, FABRIC cho phép Bots chứng minh thông tin danh tính, vị trí địa lý và hồ sơ hành vi của chúng một cách độc lập mà không cần phụ thuộc vào trung gian tập trung.
Hạn chế hành vi và xác thực danh tính được thực hiện thông qua cơ chế trên chuỗi, đảm bảo bất kỳ ai cũng có thể kiểm toán tính tuân thủ. Các Bots đáp ứng tiêu chuẩn an toàn, yêu cầu chất lượng và quy định khu vực sẽ nhận được phần thưởng, trong khi những người vi phạm sẽ đối mặt với hình phạt hoặc bị loại bỏ, từ đó thiết lập cơ chế trách nhiệm và tin cậy trong mạng lưới máy móc tự trị.
Mạng tái ký quỹ bên thứ ba (như Symbiotic) cũng có thể cung cấp bảo đảm an ninh tương đương. Mặc dù hệ thống tham số hình phạt vẫn cần được hoàn thiện, công nghệ liên quan đã bước vào giai đoạn thực tiễn. Chúng tôi dự kiến các quy tắc an ninh ngành sẽ sớm hình thành, lúc đó các tham số hình phạt sẽ được mô hình hóa theo các quy tắc này.
Ví dụ về kế hoạch thực hiện:
Công ty Bots gia nhập mạng Symbiotic.
Thiết lập các tham số tịch thu có thể xác minh (như "Áp dụng lực tiếp xúc của con người vượt quá 2500 Newton");
Người đặt cọc cung cấp tiền ký quỹ để đảm bảo Bots tuân thủ các tham số;
Nếu xảy ra vi phạm, tiền đặt cọc sẽ được sử dụng làm tiền bồi thường cho nạn nhân.
Chế độ này vừa khuyến khích các doanh nghiệp đặt tính an toàn lên hàng đầu, vừa thúc đẩy mức độ chấp nhận của người tiêu dùng thông qua cơ chế bảo hiểm của quỹ staking.
Quan điểm của đội ngũ Symbiotic về lĩnh vực Bots là:
Khung đặt cược chung Symbiotic nhằm mở rộng khái niệm đặt cược đến tất cả các lĩnh vực cần sự đảm bảo an ninh kinh tế, cho dù thông qua mô hình chia sẻ hay độc lập. Các trường hợp ứng dụng của nó từ bảo hiểm đến công nghệ Bots cần thiết kế cụ thể cho từng trường hợp. Ví dụ, mạng Bots có thể được xây dựng hoàn toàn dựa trên khung Symbiotic, cho phép các bên liên quan cung cấp sự đảm bảo kinh tế cho tính toàn vẹn của mạng.
4、Lấp đầy khoảng trống trong công nghệ Bots
OpenAI đã thúc đẩy sự phổ biến của AI, nhưng nền tảng của ChatGPT đã được thiết lập từ lâu. Dịch vụ đám mây đã phá vỡ sự phụ thuộc của mô hình vào sức mạnh tính toán địa phương, Huggingface đã thực hiện mã nguồn mở cho mô hình, Kaggle cung cấp nền tảng thử nghiệm cho các kỹ sư AI. Những bước đột phá dần dần này đã góp phần vào sự đại chúng hóa của AI.
Khác với AI, lĩnh vực Bots khó có thể tiếp cận khi nguồn vốn hạn chế. Để phổ biến Bots, mức độ phát triển cần được giảm xuống đến mức tiện lợi như phát triển ứng dụng AI. Chúng tôi tin rằng có không gian cải tiến ở ba khía cạnh: cơ chế tài chính, hệ thống đánh giá và hệ sinh thái giáo dục.
Vốn hóa là nỗi đau trong lĩnh vực Bots. Phát triển chương trình máy tính chỉ cần một máy tính và tài nguyên điện toán đám mây, trong khi việc xây dựng một Bots hoàn chỉnh phải mua các phần cứng như động cơ, cảm biến, pin, v.v., chi phí dễ dàng vượt qua 100.000 USD. Tính chất phần cứng này khiến việc phát triển Bots thiếu linh hoạt và tốn kém so với AI.
Cơ sở hạ tầng đánh giá Bots trong các tình huống thực tế vẫn đang ở giai đoạn sơ khai. Lĩnh vực AI đã thiết lập một hệ thống hàm mất mát rõ ràng, việc kiểm tra có thể hoàn toàn được ảo hóa. Tuy nhiên, các chiến lược ảo xuất sắc không thể chuyển đổi trực tiếp thành các giải pháp hiệu quả trong thế giới thực. Bots cần có cơ sở hạ tầng đánh giá các chiến lược tự động trong môi trường thực đa dạng để có thể thực hiện tối ưu hóa lặp lại.
Khi hạ tầng này trưởng thành, nhân tài sẽ tràn vào ồ ạt, và robot hình người sẽ tái diễn đường cong bùng nổ của Web2. Công ty mã hóa robot OpenMind đang tiến về hướng này - dự án mã nguồn mở OM1 ("Hệ điều hành Android cho robot") sẽ chuyển đổi phần cứng gốc thành các thực thể thông minh có ý thức kinh tế có thể nâng cấp. Các mô-đun lập kế hoạch hình ảnh, ngôn ngữ và chuyển động có thể cắm và chạy như ứng dụng điện thoại, tất cả các bước suy diễn đều được trình bày bằng tiếng Anh rõ ràng, cho phép người vận hành kiểm toán hoặc điều chỉnh hành vi mà không cần tiếp xúc với firmware. Khả năng suy diễn ngôn ngữ tự nhiên này cho phép thế hệ nhân tài mới tham gia liền mạch vào lĩnh vực robot, đánh dấu một bước quan trọng trong việc phát triển nền tảng mở cho cuộc cách mạng robot, giống như tác động tăng tốc của phong trào mã nguồn mở đối với AI.
Mật độ nhân tài quyết định quỹ đạo ngành. Hệ thống giáo dục phổ cập có cấu trúc là rất quan trọng cho việc cung cấp nhân tài trong lĩnh vực mã hóa. Việc OpenMind niêm yết trên Nasdaq đánh dấu sự mở đầu của một kỷ nguyên mới, nơi mà các máy thông minh cùng tham gia vào đổi mới tài chính và giáo dục thực thể. OpenMind và Robostore đã công bố hợp tác, sẽ giới thiệu khóa học giáo dục phổ thông đầu tiên dựa trên robot hình người Unitree G1 tại các trường công lập K-12 của Mỹ. Khóa học này được thiết kế với tính không phụ thuộc vào nền tảng, có thể thích ứng với nhiều hình thức robot khác nhau, cung cấp cho học sinh cơ hội thực hành. Tín hiệu tích cực này củng cố nhận định của chúng tôi: trong vài năm tới, mức độ phong phú của tài nguyên giáo dục robot sẽ sánh ngang với lĩnh vực AI.
5、Triển vọng tương lai
Sự đổi mới và hiệu ứng quy mô của mô hình hành động ngôn ngữ thị giác (VLA) đã tạo ra những robot hình người tiết kiệm chi phí, hiệu quả và đa năng. Khi robot lưu trữ mở rộng sang thị trường tiêu dùng, an toàn, mô hình tài chính và hệ thống đánh giá trở thành những hướng khám phá quan trọng. Chúng tôi tin rằng công nghệ mã hóa sẽ thúc đẩy sự phát triển của robot thông qua ba con đường: cung cấp bảo đảm kinh tế cho an toàn, tối ưu hóa cơ sở hạ tầng sạc, nâng cao hiệu suất trễ và đường dẫn thu thập dữ liệu.
Xem bản gốc
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
Pantera đối tác: Thời đại Bots AI được驱动 bởi mã hóa
Tác giả: Paul Veradittakit, Đối tác tại Pantera Capital
Biên dịch: xiaozou, Jinse Finance
Tóm tắt:
Sự đổi mới và hiệu ứng quy mô của VLA đang thúc đẩy sự ra đời của những con robot hình người tiết kiệm chi phí, hiệu quả và đa năng.
Khi các robot kho bãi mở rộng sang thị trường robot tiêu dùng, an toàn robot, tài trợ và cơ chế đánh giá cần được khám phá sâu hơn.
Mã hóa sẽ thúc đẩy sự phát triển của ngành công nghiệp Bots bằng cách cung cấp bảo đảm kinh tế cho Bots, đồng thời tối ưu hóa cơ sở hạ tầng kết nối, Trễ và quy trình thu thập dữ liệu.
ChatGPT đã hoàn toàn thay đổi nhận thức của con người về kỳ vọng đối với trí tuệ nhân tạo. Khi các mô hình ngôn ngữ lớn bắt đầu tương tác với thế giới phần mềm bên ngoài, nhiều người đã từng nghĩ rằng AI là hình thức tối thượng. Nhưng nếu xem lại các bộ phim khoa học viễn tưởng kinh điển như "Chiến tranh giữa các vì sao", "Kẻ đột kích bạc" hay "Cảnh sát máy", chúng ta sẽ nhận ra rằng ước mơ thực sự của con người là trí tuệ nhân tạo có thể tương tác với thế giới vật lý dưới dạng robot.
Theo Pantera Capital, "thời điểm ChatGPT" trong lĩnh vực robot sắp đến. Chúng tôi sẽ đầu tiên phân tích cách mà những đột phá trong trí tuệ nhân tạo trong vài năm qua đã thay đổi bối cảnh ngành, sau đó thảo luận về công nghệ pin, tối ưu hóa trễ và cải thiện thu thập dữ liệu sẽ hình thành bức tranh tương lai như thế nào, cùng với vai trò của mã hóa trong đó. Cuối cùng, chúng tôi sẽ giải thích lý do tại sao robot an toàn, tài trợ, đánh giá và giáo dục là những lĩnh vực cần được chú trọng.
1, Yếu tố cải cách
(1)Đột phá trí tuệ nhân tạo
Tiến bộ trong lĩnh vực mô hình ngôn ngữ đa phương thức đang cung cấp cho Bots "bộ não" cần thiết để thực hiện các nhiệm vụ phức tạp. Bots chủ yếu cảm nhận môi trường thông qua hai giác quan là thị giác và thính giác.
Mô hình thị giác máy tính truyền thống (như mạng nơ-ron tích chập) mặc dù giỏi trong các nhiệm vụ phát hiện hoặc phân loại đối tượng, nhưng lại khó khăn trong việc chuyển đổi thông tin thị giác thành các lệnh hành động có mục đích. Mô hình ngôn ngữ lớn mặc dù thể hiện xuất sắc trong việc hiểu và tạo ra văn bản, nhưng lại bị hạn chế bởi khả năng nhận thức thế giới vật lý.
Thông qua mô hình Hình ảnh - Ngôn ngữ - Hành động (VLA), Bots có thể tích hợp nhận thức hình ảnh, hiểu ngôn ngữ và hành động thể chất trong một khung tính toán thống nhất. Vào tháng 2 năm 2025, Figure AI đã phát hành mô hình điều khiển người hình tổng quát Helix, mô hình VLA này đã thiết lập tiêu chuẩn mới cho ngành với khả năng tổng quát không mẫu và kiến trúc hệ thống 1/hệ thống 2. Đặc tính tổng quát không mẫu cho phép Bots thích ứng ngay lập tức với các cảnh mới, đối tượng mới và chỉ dẫn mới mà không cần phải huấn luyện lại cho từng nhiệm vụ. Kiến trúc hệ thống 1/hệ thống 2 tách biệt lý luận bậc cao và lý luận nhẹ, đạt được sự kết hợp giữa tư duy giống người và độ chính xác thời gian thực của Bots thương mại.
(2) Robot kinh tế trở thành hiện thực
Công nghệ thay đổi thế giới đều có một đặc điểm chung - khả năng phổ cập. Điện thoại thông minh, máy tính cá nhân, công nghệ in 3D đều được phổ cập với mức giá mà tầng lớp trung lưu có thể chấp nhận. Khi giá của các Bots như Unitree G1 thấp hơn giá của một chiếc Honda Accord hoặc mức thu nhập tối thiểu hàng năm 34.000 USD ở Mỹ, thật không khó để tưởng tượng một thế giới mà lao động chân tay và các công việc hàng ngày chủ yếu được hoàn thành bởi Bots.
(3)Từ kho bãi đến thị trường tiêu dùng
Công nghệ Bots đang mở rộng từ các giải pháp kho bãi sang lĩnh vực tiêu dùng. Thế giới này được thiết kế cho con người — con người có thể hoàn thành tất cả công việc của Bots chuyên nghiệp, trong khi Bots chuyên nghiệp không thể đảm nhận tất cả công việc của con người. Các công ty Bots không còn giới hạn trong việc sản xuất Bots dành riêng cho nhà máy, mà chuyển sang phát triển các Bots hình người đa năng hơn. Do đó, công nghệ Bots không chỉ tồn tại ở các kho bãi, mà còn thấm nhuần vào cuộc sống hàng ngày.
Chi phí là một trong những nút thắt chính của khả năng mở rộng. Chỉ số mà chúng tôi quan tâm nhất là chi phí tổng hợp mỗi giờ, được tính bằng cách: tổng chi phí cơ hội thời gian cho đào tạo và sạc, chi phí thực hiện nhiệm vụ và chi phí mua Bots, chia cho tổng thời gian hoạt động của Bots. Chi phí này cần phải thấp hơn mức lương trung bình của ngành liên quan mới có tính cạnh tranh.
Để thâm nhập toàn diện vào lĩnh vực kho bãi, chi phí tổng hợp của Bots mỗi giờ phải thấp hơn 31.39 đô la. Trong khi đó, ở thị trường tiêu dùng lớn nhất - lĩnh vực giáo dục tư nhân và dịch vụ y tế, chi phí này cần được kiểm soát dưới 35.18 đô la. Hiện tại, Bots đang phát triển theo hướng rẻ hơn, hiệu quả hơn và đa năng hơn.
2、Bước đột phá tiếp theo của công nghệ Bots
(1)Tối ưu hóa pin
Công nghệ pin luôn là điểm nghẽn của những chiếc robot thân thiện với người dùng. Các xe điện như BMW i3 thời kỳ đầu do hạn chế công nghệ pin dẫn đến thời gian sử dụng ngắn, chi phí cao và tính thực tiễn thấp, nên khó phổ biến, robot cũng đang gặp phải tình huống tương tự. Robot Spot của Boston Dynamics chỉ có thể sử dụng trong 90 phút cho mỗi lần sạc, trong khi đó pin của Unitree G1 có thời gian sử dụng khoảng 2 giờ. Rõ ràng người dùng không muốn phải sạc thủ công sau mỗi hai giờ, vì vậy việc tự sạc và kết nối với cơ sở hạ tầng trở thành hướng phát triển chính. Hiện tại, việc sạc robot chủ yếu có hai chế độ: thay pin hoặc sạc trực tiếp.
Chế độ thay pin cho phép thay thế nhanh chóng các bộ pin đã cạn kiệt để duy trì hoạt động liên tục, tối thiểu hóa thời gian ngừng hoạt động, phù hợp cho các cảnh trong công trường hoặc nhà máy. Quy trình này có thể được thực hiện bằng tay hoặc tự động.
Sạc cảm ứng sử dụng phương thức cung cấp năng lượng không dây, mặc dù thời gian sạc đầy tương đối lâu, nhưng có thể dễ dàng đạt được quy trình tự động hóa hoàn toàn.
(2)Trễ tối ưu
Hoạt động có độ trễ thấp có thể được chia thành hai loại: nhận thức môi trường và điều khiển từ xa. Nhận thức đề cập đến khả năng nhận thức không gian của Bots đối với môi trường, trong khi điều khiển từ xa chỉ đề cập đến việc kiểm soát thời gian thực của người điều khiển.
Theo nghiên cứu của Cintrini, hệ thống cảm nhận của Bots bắt đầu từ cảm biến giá rẻ, nhưng rào cản công nghệ nằm ở việc tích hợp phần mềm, tính toán tiêu thụ điện năng thấp và mạch điều khiển chính xác trong mili giây. Khi Bots hoàn thành việc định vị không gian, mạng nơ-ron nhẹ sẽ đánh dấu các yếu tố như chướng ngại vật, pallet hoặc con người. Sau khi nhãn cảnh được nhập vào hệ thống lập kế hoạch, nó ngay lập tức tạo ra các lệnh động cơ gửi đến chân, bộ bánh xe hoặc cánh tay cơ khí. Độ trễ cảm nhận dưới 50 mili giây tương đương với tốc độ phản xạ của con người - bất kỳ độ trễ nào vượt quá ngưỡng này sẽ khiến Bots hành động vụng về. Do đó, 90% quyết định cần được thực hiện tại chỗ thông qua mạng thị giác - ngôn ngữ - hành động đơn lẻ.
Robot tự động hoàn toàn cần đảm bảo mô hình VLA có độ trễ thấp hơn 50 mili giây; robot điều khiển từ xa yêu cầu độ trễ tín hiệu giữa đầu điều khiển và robot không vượt quá 50 mili giây. Tầm quan trọng của mô hình VLA ở đây đặc biệt nổi bật - nếu đầu vào hình ảnh và văn bản được xử lý bởi các mô hình khác nhau trước khi đưa vào mô hình ngôn ngữ lớn, độ trễ tổng thể sẽ vượt quá ngưỡng 50 mili giây.
(3)Tối ưu hóa thu thập dữ liệu
Việc thu thập dữ liệu chủ yếu có ba con đường: dữ liệu video thế giới thực, dữ liệu tổng hợp và dữ liệu điều khiển từ xa. Rào cản cốt lõi giữa dữ liệu thực và dữ liệu tổng hợp là việc thu hẹp khoảng cách giữa hành vi vật lý của Bots và video / mô hình mô phỏng. Dữ liệu video thực thiếu các chi tiết vật lý như phản hồi lực, sai số chuyển động khớp và biến dạng vật liệu; dữ liệu mô phỏng lại thiếu các biến không thể dự đoán như lỗi cảm biến, hệ số ma sát.
Phương pháp thu thập dữ liệu có tiềm năng nhất là điều khiển từ xa - do các nhà điều hành con người điều khiển Bots thực hiện nhiệm vụ. Nhưng chi phí lao động là yếu tố chính hạn chế thu thập dữ liệu điều khiển từ xa.
Việc phát triển phần cứng tùy chỉnh cũng đang cung cấp các giải pháp mới cho việc thu thập dữ liệu chất lượng cao. Công ty Mecka kết hợp giữa các phương pháp chính thống và phần cứng tùy chỉnh để thu thập dữ liệu chuyển động con người đa chiều, sau khi xử lý chuyển đổi thành bộ dữ liệu phù hợp cho việc đào tạo mạng nơ-ron của bots, kết hợp với chu kỳ lặp nhanh cung cấp cho việc đào tạo AI bots một lượng lớn dữ liệu chất lượng cao. Những đường ống công nghệ này đã cùng nhau rút ngắn con đường chuyển đổi từ dữ liệu thô đến các bots có thể triển khai.
3、Lĩnh vực khám phá chính
(1)mã hóa kỹ thuật và Bots融合
Mã hóa có thể khuyến khích các bên không tin cậy nâng cao hiệu quả mạng Bots. Dựa trên các lĩnh vực chính đã đề cập trước đó, chúng tôi cho rằng mã hóa có thể nâng cao hiệu quả trong ba lĩnh vực: tích hợp cơ sở hạ tầng, tối ưu hóa Trễ và thu thập dữ liệu.
Mạng lưới hạ tầng vật lý phi tập trung (DePIN) được kỳ vọng sẽ cách mạng hóa cơ sở hạ tầng sạc điện. Khi những con robot hình người hoạt động toàn cầu như ô tô, các trạm sạc cần phải dễ tiếp cận như các trạm xăng. Mạng lưới tập trung cần một khoản đầu tư ban đầu lớn, trong khi DePIN sẽ phân chia chi phí cho các nhà điều hành nút, giúp cơ sở hạ tầng sạc mở rộng nhanh chóng đến nhiều khu vực hơn.
DePIN còn có thể sử dụng cơ sở hạ tầng phân tán để tối ưu hóa độ trễ điều khiển từ xa. Bằng cách tổng hợp tài nguyên tính toán từ các nút biên phân tán về địa lý, các lệnh điều khiển từ xa có thể được xử lý bởi các nút địa phương hoặc nút gần nhất có sẵn, tối đa hóa việc rút ngắn khoảng cách truyền dữ liệu, giảm thiểu đáng kể độ trễ giao tiếp. Tuy nhiên, hiện tại các dự án DePIN chủ yếu tập trung vào lưu trữ phi tập trung, phân phối nội dung và chia sẻ băng thông, mặc dù có các dự án trình diễn lợi thế của tính toán biên trong phát trực tuyến hoặc Internet vạn vật, vẫn chưa mở rộng đến lĩnh vực Bots hoặc điều khiển từ xa.
Điều khiển từ xa là phương pháp thu thập dữ liệu có triển vọng nhất, nhưng chi phí để các thực thể trung tâm tuyển dụng chuyên gia thu thập dữ liệu là rất cao. DePIN khuyến khích các bên thứ ba cung cấp dữ liệu điều khiển từ xa thông qua mã thông báo mã hóa để giải quyết vấn đề này. Dự án Reborn xây dựng mạng lưới điều hành viên toàn cầu, chuyển đổi đóng góp của họ thành tài sản số hóa được mã hóa, tạo thành hệ thống phi tập trung không cần cấp phép — người tham gia vừa có thể thu được lợi nhuận, vừa có thể tham gia quản trị và hỗ trợ đào tạo AGI Bots.
(2) An toàn luôn là mối quan tâm chính
Mục tiêu cuối cùng của công nghệ Bots là đạt được sự tự chủ hoàn toàn, nhưng như loạt phim "Kẻ Hủy Diệt" đã cảnh báo, điều mà con người không muốn thấy nhất là sự tự chủ biến Bots thành vũ khí tấn công. Các vấn đề an toàn của mô hình ngôn ngữ lớn đã gây ra mối quan tâm, và khi những mô hình này có khả năng hành động vật lý, an toàn Bots trở thành điều kiện tiên quyết để xã hội chấp nhận.
An ninh kinh tế là một trong những trụ cột của sự thịnh vượng của hệ sinh thái Bots. Công ty OpenMind trong lĩnh vực này đang xây dựng FABRIC - một lớp điều phối máy móc phi tập trung, thông qua mã hóa để thực hiện xác thực danh tính thiết bị, xác minh sự hiện diện vật lý và truy cập tài nguyên. Khác với việc quản lý thị trường nhiệm vụ đơn giản, FABRIC cho phép Bots chứng minh thông tin danh tính, vị trí địa lý và hồ sơ hành vi của chúng một cách độc lập mà không cần phụ thuộc vào trung gian tập trung.
Hạn chế hành vi và xác thực danh tính được thực hiện thông qua cơ chế trên chuỗi, đảm bảo bất kỳ ai cũng có thể kiểm toán tính tuân thủ. Các Bots đáp ứng tiêu chuẩn an toàn, yêu cầu chất lượng và quy định khu vực sẽ nhận được phần thưởng, trong khi những người vi phạm sẽ đối mặt với hình phạt hoặc bị loại bỏ, từ đó thiết lập cơ chế trách nhiệm và tin cậy trong mạng lưới máy móc tự trị.
Mạng tái ký quỹ bên thứ ba (như Symbiotic) cũng có thể cung cấp bảo đảm an ninh tương đương. Mặc dù hệ thống tham số hình phạt vẫn cần được hoàn thiện, công nghệ liên quan đã bước vào giai đoạn thực tiễn. Chúng tôi dự kiến các quy tắc an ninh ngành sẽ sớm hình thành, lúc đó các tham số hình phạt sẽ được mô hình hóa theo các quy tắc này.
Ví dụ về kế hoạch thực hiện:
Chế độ này vừa khuyến khích các doanh nghiệp đặt tính an toàn lên hàng đầu, vừa thúc đẩy mức độ chấp nhận của người tiêu dùng thông qua cơ chế bảo hiểm của quỹ staking.
Quan điểm của đội ngũ Symbiotic về lĩnh vực Bots là:
Khung đặt cược chung Symbiotic nhằm mở rộng khái niệm đặt cược đến tất cả các lĩnh vực cần sự đảm bảo an ninh kinh tế, cho dù thông qua mô hình chia sẻ hay độc lập. Các trường hợp ứng dụng của nó từ bảo hiểm đến công nghệ Bots cần thiết kế cụ thể cho từng trường hợp. Ví dụ, mạng Bots có thể được xây dựng hoàn toàn dựa trên khung Symbiotic, cho phép các bên liên quan cung cấp sự đảm bảo kinh tế cho tính toàn vẹn của mạng.
4、Lấp đầy khoảng trống trong công nghệ Bots
OpenAI đã thúc đẩy sự phổ biến của AI, nhưng nền tảng của ChatGPT đã được thiết lập từ lâu. Dịch vụ đám mây đã phá vỡ sự phụ thuộc của mô hình vào sức mạnh tính toán địa phương, Huggingface đã thực hiện mã nguồn mở cho mô hình, Kaggle cung cấp nền tảng thử nghiệm cho các kỹ sư AI. Những bước đột phá dần dần này đã góp phần vào sự đại chúng hóa của AI.
Khác với AI, lĩnh vực Bots khó có thể tiếp cận khi nguồn vốn hạn chế. Để phổ biến Bots, mức độ phát triển cần được giảm xuống đến mức tiện lợi như phát triển ứng dụng AI. Chúng tôi tin rằng có không gian cải tiến ở ba khía cạnh: cơ chế tài chính, hệ thống đánh giá và hệ sinh thái giáo dục.
Vốn hóa là nỗi đau trong lĩnh vực Bots. Phát triển chương trình máy tính chỉ cần một máy tính và tài nguyên điện toán đám mây, trong khi việc xây dựng một Bots hoàn chỉnh phải mua các phần cứng như động cơ, cảm biến, pin, v.v., chi phí dễ dàng vượt qua 100.000 USD. Tính chất phần cứng này khiến việc phát triển Bots thiếu linh hoạt và tốn kém so với AI.
Cơ sở hạ tầng đánh giá Bots trong các tình huống thực tế vẫn đang ở giai đoạn sơ khai. Lĩnh vực AI đã thiết lập một hệ thống hàm mất mát rõ ràng, việc kiểm tra có thể hoàn toàn được ảo hóa. Tuy nhiên, các chiến lược ảo xuất sắc không thể chuyển đổi trực tiếp thành các giải pháp hiệu quả trong thế giới thực. Bots cần có cơ sở hạ tầng đánh giá các chiến lược tự động trong môi trường thực đa dạng để có thể thực hiện tối ưu hóa lặp lại.
Khi hạ tầng này trưởng thành, nhân tài sẽ tràn vào ồ ạt, và robot hình người sẽ tái diễn đường cong bùng nổ của Web2. Công ty mã hóa robot OpenMind đang tiến về hướng này - dự án mã nguồn mở OM1 ("Hệ điều hành Android cho robot") sẽ chuyển đổi phần cứng gốc thành các thực thể thông minh có ý thức kinh tế có thể nâng cấp. Các mô-đun lập kế hoạch hình ảnh, ngôn ngữ và chuyển động có thể cắm và chạy như ứng dụng điện thoại, tất cả các bước suy diễn đều được trình bày bằng tiếng Anh rõ ràng, cho phép người vận hành kiểm toán hoặc điều chỉnh hành vi mà không cần tiếp xúc với firmware. Khả năng suy diễn ngôn ngữ tự nhiên này cho phép thế hệ nhân tài mới tham gia liền mạch vào lĩnh vực robot, đánh dấu một bước quan trọng trong việc phát triển nền tảng mở cho cuộc cách mạng robot, giống như tác động tăng tốc của phong trào mã nguồn mở đối với AI.
Mật độ nhân tài quyết định quỹ đạo ngành. Hệ thống giáo dục phổ cập có cấu trúc là rất quan trọng cho việc cung cấp nhân tài trong lĩnh vực mã hóa. Việc OpenMind niêm yết trên Nasdaq đánh dấu sự mở đầu của một kỷ nguyên mới, nơi mà các máy thông minh cùng tham gia vào đổi mới tài chính và giáo dục thực thể. OpenMind và Robostore đã công bố hợp tác, sẽ giới thiệu khóa học giáo dục phổ thông đầu tiên dựa trên robot hình người Unitree G1 tại các trường công lập K-12 của Mỹ. Khóa học này được thiết kế với tính không phụ thuộc vào nền tảng, có thể thích ứng với nhiều hình thức robot khác nhau, cung cấp cho học sinh cơ hội thực hành. Tín hiệu tích cực này củng cố nhận định của chúng tôi: trong vài năm tới, mức độ phong phú của tài nguyên giáo dục robot sẽ sánh ngang với lĩnh vực AI.
5、Triển vọng tương lai
Sự đổi mới và hiệu ứng quy mô của mô hình hành động ngôn ngữ thị giác (VLA) đã tạo ra những robot hình người tiết kiệm chi phí, hiệu quả và đa năng. Khi robot lưu trữ mở rộng sang thị trường tiêu dùng, an toàn, mô hình tài chính và hệ thống đánh giá trở thành những hướng khám phá quan trọng. Chúng tôi tin rằng công nghệ mã hóa sẽ thúc đẩy sự phát triển của robot thông qua ba con đường: cung cấp bảo đảm kinh tế cho an toàn, tối ưu hóa cơ sở hạ tầng sạc, nâng cao hiệu suất trễ và đường dẫn thu thập dữ liệu.