Tại sao mô-đun đa phương thức là ảo giác của Web3 AI?

Question

Tác giả nguyên bản: @BlazingKevin\_ , Nghiên cứu viên tại MovemakerSự phát triển của các mô hình đa phương thức không mang lại sự hỗn loạn mà đã làm sâu sắc thêm các rào cản kỹ thuật của Web2 AI - từ căn chỉnh ngữ nghĩa đến hiểu trực quan, từ nhúng chiều cao đến hợp nhất tính năng, các mô hình phức tạp đang tích hợp các biểu thức phương thức khác nhau với tốc độ chưa từng có để xây dựng một vùng cao nguyên AI ngày càng khép kín. Thị trường chứng khoán Mỹ cũng bỏ phiếu bằng chân, dù là cổ phiếu tiền tệ hay cổ phiếu AI, họ đều thoát khỏi làn sóng thị trường tăng giá. Và đợt nắng nóng này không liên quan gì đến Crypto. Những nỗ lực của AI Web3 mà chúng ta đã thấy, đặc biệt là sự phát triển của hướng đi của tác nhân trong những tháng gần đây, gần như hoàn toàn sai: mơ ước sử dụng cấu trúc phi tập trung để lắp ráp một hệ thống mô-đun đa phương thức kiểu Web2 thực sự là sự sai lệch kép giữa công nghệ và tư duy. Trong các mô-đun được kết hợp cao ngày nay, phân phối tính năng rất không ổn định và nhu cầu sức mạnh tính toán ngày càng tập trung, mô-đun hóa đa phương thức đơn giản là không thể đứng vững trong Web3. Hãy chỉ ra: tương lai của Web3 AI không phải là bắt chước, mà là về những đường vòng chiến lược. Từ sự căn chỉnh ngữ nghĩa của các không gian chiều cao, đến nút thắt thông tin trong cơ chế chú ý, đến sự căn chỉnh tính năng dưới sức mạnh tính toán không đồng nhất, tôi sẽ mở rộng từng cái một để giải thích tại sao Web3 AI nên sử dụng vùng nông thôn để bao quanh thành phố như một chương trình chiến thuật.## Web3 AI dựa trên mô hình đa phương thức phẳng, sự không đồng bộ ngữ nghĩa dẫn đến hiệu suất kém.Trong hệ thống đa phương thức AI Web2 hiện đại, "căn chỉnh ngữ nghĩa" đề cập đến việc ánh xạ thông tin từ các phương thức khác nhau (như hình ảnh, văn bản, âm thanh, video, v.v.) vào cùng một không gian ngữ nghĩa, hoặc không gian có thể chuyển đổi lẫn nhau, giúp mô hình có thể hiểu và so sánh những tín hiệu vốn khác biệt này về ý nghĩa bên trong. Ví dụ, một bức ảnh của một con mèo và câu chữ "một con mèo dễ thương", mô hình cần phải chiếu chúng vào những vị trí gần nhau trong không gian nhúng nhiều chiều, để có thể "nhìn hình có thể nói" và "nghe âm thanh có thể liên tưởng đến hình ảnh" trong quá trình truy xuất, tạo ra hoặc suy luận.Chỉ khi thực hiện không gian nhúng nhiều chiều, việc chia nhỏ quy trình làm việc thành các mô-đun khác nhau mới có ý nghĩa trong việc giảm chi phí và tăng hiệu quả. Tuy nhiên, trong giao thức web3 Agent, không thể thực hiện không gian nhúng nhiều chiều, vì mô-đun hóa là ảo tưởng của Web3 AI.Làm thế nào để hiểu không gian nhúng đa chiều? Ở mức độ trực quan nhất, hãy tưởng tượng "không gian nhúng đa chiều" như một hệ tọa độ - giống như tọa độ x-y trên mặt phẳng, bạn có thể sử dụng một cặp số để xác định một điểm. Chỉ là trong mặt phẳng hai chiều mà chúng ta thường thấy, một điểm được xác định hoàn toàn bởi hai số (x, y); trong không gian "đa chiều", mỗi điểm cần nhiều số hơn để mô tả, có thể là 128, 512, hoặc thậm chí hàng ngàn số.Bắt đầu từ những điều cơ bản, hiểu theo ba bước:1. Ví dụ hai chiều:Hãy nghĩ về việc bạn đã đánh dấu tọa độ của một vài thành phố trên bản đồ, chẳng hạn như Bắc Kinh (116.4, 39.9), Thượng Hải (121.5, 31.2), Quảng Châu (113.3, 23.1). Mỗi thành phố ở đây tương ứng với một "vector nhúng hai chiều" (embedding vector): tọa độ hai chiều mã hóa thông tin vị trí địa lý vào con số.Nếu bạn muốn đo lường "sự tương đồng" giữa các thành phố - những thành phố có khoảng cách gần trên bản đồ thường nằm trong cùng một khu vực kinh tế hoặc khu vực khí hậu - bạn có thể so sánh trực tiếp khoảng cách Euclid của tọa độ của chúng.2. Mở rộng đến đa chiều:Bây giờ hãy giả sử bạn không chỉ muốn mô tả vị trí trên "không gian địa lý", mà còn muốn thêm một số "đặc điểm khí hậu" (nhiệt độ trung bình, lượng mưa), "đặc điểm dân số" (mật độ dân số, GDP) và những thứ khác. Bạn có thể gán cho mỗi thành phố một vector chứa 5, 10, thậm chí nhiều hơn các chiều.Ví dụ, vector 5 chiều của Quảng Châu có thể là [ 113.3, 23.1, 24.5, 1700, 14.5 ], lần lượt đại diện cho kinh độ, vĩ độ, nhiệt độ trung bình, lượng mưa hàng năm (milimét), chỉ số kinh tế. "Không gian đa chiều" này cho phép bạn so sánh các thành phố theo nhiều chiều như địa lý, khí hậu, kinh tế, v.v.: nếu vector của hai thành phố gần nhau, điều đó có nghĩa là chúng rất giống nhau về những thuộc tính này.3. Chuyển sang ngữ nghĩa - Tại sao phải "nhúng": Trong xử lý ngôn ngữ tự nhiên (NLP) hoặc thị giác máy tính, chúng tôi cũng muốn ánh xạ "từ", "câu" hoặc "hình ảnh" vào một vector đa chiều như vậy, để những từ hoặc hình ảnh có "nghĩa tương tự" gần nhau hơn trong không gian. Quá trình ánh xạ này được gọi là "nhúng" (embedding).Ví dụ: Chúng ta huấn luyện một mô hình, ánh xạ "cat" (mèo) thành một vector 300 chiều v₁, ánh xạ "dog" (chó) thành một vector khác v₂, và ánh xạ các từ "không liên quan" như "economy" (kinh tế) thành v₃. Trong không gian 300 chiều này, khoảng cách giữa v₁ và v₂ sẽ rất nhỏ (bởi vì chúng đều là động vật, thường xuất hiện trong các ngữ cảnh ngôn ngữ tương tự), trong khi khoảng cách giữa v₁ và v₃ sẽ rất lớn.Khi mô hình được đào tạo trên một khối lượng lớn văn bản hoặc cặp hình ảnh-văn bản, mỗi chiều mà nó học được không trực tiếp tương ứng với các thuộc tính có thể giải thích như "kinh độ", "vĩ độ", mà là một loại "đặc trưng ngữ nghĩa tiềm ẩn". Một số chiều có thể nắm bắt sự phân chia thô giữa "động vật vs. không phải động vật", một số chiều có thể phân biệt "thuần hóa vs. hoang dã", và một số chiều có thể tương ứng với cảm giác "dễ thương vs. mạnh mẽ"... Nói chung, hàng trăm, hàng nghìn chiều làm việc cùng nhau để mã hóa tất cả các khía cạnh ngữ nghĩa phức tạp và đan xen.Sự khác biệt giữa kích thước cao và thấp là gì? Chỉ có đủ số lượng chiều có thể chứa nhiều đặc điểm ngữ nghĩa đan xen với nhau và chỉ có chiều cao mới có thể làm cho chúng có vị trí rõ ràng hơn trong vĩ độ ngữ nghĩa tương ứng của chúng. Khi không thể phân biệt ngữ nghĩa, tức là không thể căn chỉnh ngữ nghĩa, các tín hiệu khác nhau trong không gian chiều thấp sẽ "bóp" lẫn nhau, dẫn đến sự nhầm lẫn thường xuyên trong việc truy xuất hoặc phân loại mô hình và độ chính xác bị giảm đi rất nhiều. Thứ hai, rất khó để nắm bắt được sự khác biệt tinh tế trong giai đoạn tạo chiến lược và rất dễ bỏ lỡ các tín hiệu giao dịch chính hoặc đánh giá sai ngưỡng rủi ro, điều này trực tiếp kéo giảm hiệu suất lợi nhuận. Ngoài ra, việc cộng tác giữa các mô-đun trở nên không thể, mỗi tác nhân hoạt động độc lập, hiện tượng đảo thông tin nghiêm trọng, độ trễ phản hồi tổng thể tăng lên và độ bền trở nên kém. Cuối cùng, đối mặt với các kịch bản thị trường phức tạp, cấu trúc chiều thấp hầu như không có khả năng mang dữ liệu đa nguồn, độ ổn định và khả năng mở rộng của hệ thống rất khó đảm bảo, và hoạt động lâu dài chắc chắn sẽ rơi vào tình trạng tắc nghẽn hiệu suất và khó bảo trì, dẫn đến khoảng cách xa giữa hiệu suất của sản phẩm sau khi hạ cánh và kỳ vọng ban đầu.Vậy các giao thức Web3 AI hoặc Agent có thể đạt được không gian nhúng chiều cao không? Trước hết, để trả lời câu hỏi làm thế nào để đạt được không gian chiều cao, ý nghĩa truyền thống về "chiều cao" đòi hỏi mỗi hệ thống con, chẳng hạn như thông tin thị trường, tạo chiến lược, thực hiện và thực hiện, và kiểm soát rủi ro, phù hợp với nhau và bổ sung cho nhau trong quá trình trình trình bày dữ liệu và ra quyết định. Tuy nhiên, hầu hết các Tác nhân Web3 chỉ đóng gói các API tạo sẵn (CoinGecko, giao diện DEX, v.v.) thành các "Tác nhân" độc lập, thiếu không gian nhúng trung tâm thống nhất và cơ chế chú ý giữa các mô-đun, dẫn đến thông tin không thể tương tác giữa các mô-đun từ nhiều góc độ và cấp độ và chỉ có thể tuân theo một đường ống tuyến tính, hiển thị một chức năng duy nhất và không thể tạo thành tối ưu hóa vòng kín tổng thể.Nhiều tác nhân gọi trực tiếp các giao diện bên ngoài và thậm chí không thực hiện đủ tinh chỉnh hoặc kỹ thuật tính năng cho dữ liệu do giao diện trả về. Ví dụ: đại lý phân tích thị trường chỉ đơn giản là lấy giá và khối lượng giao dịch, đại lý thực hiện giao dịch chỉ đặt lệnh theo các thông số giao diện và tác nhân kiểm soát rủi ro chỉ đưa ra cảnh báo theo một số ngưỡng. Họ thực hiện nhiệm vụ của riêng mình, nhưng thiếu sự kết hợp đa phương thức và hiểu biết sâu sắc về ngữ nghĩa về cùng một sự kiện rủi ro hoặc tín hiệu thị trường, dẫn đến hệ thống không thể nhanh chóng tạo ra các chiến lược toàn diện và đa góc độ khi đối mặt với các cơ hội thị trường hoặc tài sản chéo cực đoan.Do đó, yêu cầu Web3 AI đạt được không gian chiều cao tương đương với việc yêu cầu giao thức Agent phát triển tất cả các giao diện API liên quan, điều này trái ngược với ý định ban đầu của nó là mô-đun hóa và hệ thống đa phương thức mô-đun được mô tả bởi các doanh nghiệp vừa và nhỏ trong Web3 AI không thể chịu được sự giám sát kỹ lưỡng. Kiến trúc chiều cao yêu cầu đào tạo thống nhất từ đầu đến cuối hoặc tối ưu hóa cộng tác: từ thu tín hiệu đến tính toán chiến lược, đến thực hiện và kiểm soát rủi ro, tất cả các liên kết đều chia sẻ cùng một bộ chức năng biểu diễn và tổn thất. Ý tưởng "mô-đun như plug-in" của Web3 Agent đã làm trầm trọng thêm sự phân mảnh — mỗi nâng cấp, triển khai và điều chỉnh tham số của agent được hoàn thành trong silo riêng của nó, rất khó để lặp lại đồng bộ và không có cơ chế giám sát và phản hồi tập trung hiệu quả, dẫn đến chi phí bảo trì tăng vọt và hiệu suất tổng thể hạn chế.Để hiện thực hóa một tác nhân thông minh toàn chuỗi có rào cản ngành, cần phải có mô hình hợp tác từ đầu đến cuối, nhúng thống nhất giữa các mô-đun, cùng với việc đào tạo và triển khai hợp tác như một kỹ thuật hệ thống thì mới có thể phá vỡ bế tắc. Tuy nhiên, hiện tại thị trường không có điểm đau nào như vậy, do đó cũng không có nhu cầu thị trường.## Trong không gian chiều thấp, cơ chế chú ý không thể được thiết kế một cách chính xác.Các mô hình đa phương thức cấp cao cần thiết kế các cơ chế chú ý phức tạp. "Cơ chế chú ý" về cơ bản là một cách phân bổ động các tài nguyên tính toán, cho phép mô hình có chọn lọc "tập trung" vào các phần có liên quan nhất khi xử lý đầu vào phương thức. Phổ biến nhất là cơ chế tự chú ý và chú ý chéo trong Transformer: tự chú ý cho phép mô hình đo lường sự phụ thuộc giữa các yếu tố trong một chuỗi, chẳng hạn như tầm quan trọng của từng từ trong văn bản so với các từ khác; Transattention cho phép thông tin từ một phương thức (ví dụ: văn bản) quyết định các đặc điểm hình ảnh nào để "nhìn" khi giải mã hoặc tạo ra một phương thức khác (ví dụ: chuỗi đặc điểm của hình ảnh). Với sự chú ý nhiều đầu, mô hình có thể học nhiều căn chỉnh đồng thời trong các không gian con khác nhau để nắm bắt các liên kết phức tạp và chi tiết hơn.Điều kiện để cơ chế chú ý hoạt động là đa mô hình phải có chiều cao, trong không gian chiều cao, cơ chế chú ý tinh vi có thể tìm ra phần cốt lõi nhất trong một khoảng thời gian ngắn từ không gian chiều cao khổng lồ. Trước khi giải thích tại sao cơ chế chú ý cần được đặt trong không gian chiều cao để phát huy tác dụng, chúng ta hãy hiểu quy trình thiết kế cơ chế chú ý của AI Web2 với đại diện là bộ giải mã Transformer. Ý tưởng cốt lõi là trong quá trình xử lý chuỗi (văn bản, patch hình ảnh, khung âm thanh), mô hình sẽ phân bổ "trọng số chú ý" một cách động cho từng yếu tố, giúp nó tập trung vào thông tin liên quan nhất, thay vì đối xử bình đẳng mù quáng.Nói một cách đơn giản, nếu bạn so sánh cơ chế chú ý với một chiếc xe hơi, thiết kế Query-Key-Value là thiết kế động cơ. Q-K-V là cơ chế giúp chúng ta xác định thông tin chính, Query đề cập đến truy vấn ( "tôi đang tìm kiếm gì" ), Key đề cập đến chỉ mục ( "tôi có nhãn gì" ), Giá trị đề cập đến nội dung (" Có gì ở đây" ). Đối với mô hình đa phương thức, những gì bạn nhập vào mô hình có thể là câu, hình ảnh hoặc âm thanh. Để truy xuất nội dung chúng ta cần trong không gian chiều, các đầu vào này được cắt thành các đơn vị nhỏ nhất, chẳng hạn như một ký tự, một khối nhỏ có kích thước pixel nhất định hoặc một đoạn khung âm thanh và mô hình đa phương thức tạo Query, Key và Value cho các đơn vị tối thiểu này để tính toán sự chú ý. Khi mô hình xử lý một vị trí nhất định, nó sẽ sử dụng truy vấn của vị trí này để so sánh các khóa của tất cả các vị trí, xác định thẻ nào phù hợp nhất với các yêu cầu hiện tại, sau đó trích xuất giá trị từ vị trí tương ứng theo mức độ phù hợp và trọng số kết hợp theo mức độ quan trọng, và cuối cùng có được một biểu diễn mới không chỉ chứa thông tin riêng mà còn tích hợp nội dung liên quan của toàn thế giới. Bằng cách này, mỗi đầu ra có thể được "đặt câu hỏi-truy xuất-tích hợp" theo ngữ cảnh để đạt được sự tập trung thông tin hiệu quả và chính xác.Trên cơ sở công cụ này, các bộ phận khác nhau được thêm vào, và "tương tác toàn cầu" và "độ phức tạp có thể kiểm soát" được kết hợp khéo léo: tích chấm được chia tỷ lệ đảm bảo tính ổn định của số, biểu thức phong phú song song nhiều đầu, mã hóa vị trí giữ nguyên thứ tự trình tự, các biến thể thưa thớt tính đến hiệu quả, dư thừa và chuẩn hóa giúp đào tạo ổn định và sự chú ý chéo mở ra đa phương thức. Các thiết kế mô-đun, từng lớp này cho phép Web2 AI có khả năng học tập mạnh mẽ và hoạt động hiệu quả trong phạm vi sức mạnh tính toán hợp lý khi xử lý nhiều tác vụ tuần tự và đa phương thức.Tại sao Web3 AI dựa trên mô-đun không thể đạt được tính năng lập lịch chú ý thống nhất? Đầu tiên, cơ chế chú ý dựa trên không gian Truy vấn-Khóa-Giá trị thống nhất và tất cả các tính năng đầu vào phải được ánh xạ đến cùng một không gian vectơ chiều cao để tính trọng số động từ tích chấm. Tuy nhiên, các API độc lập trả về các định dạng khác nhau và phân phối dữ liệu khác nhau - giá, trạng thái lệnh, cảnh báo ngưỡng - mà không có lớp nhúng thống nhất và không thể tạo thành một tập hợp Q/K/V tương tác. Thứ hai, sự chú ý nhiều đầu cho phép các nguồn thông tin khác nhau được chú ý song song ở cùng một cấp độ cùng một lúc, và sau đó kết quả được tổng hợp. Tuy nhiên, các API độc lập thường "gọi A trước, sau đó gọi B, sau đó gọi C", và đầu ra của mỗi bước chỉ là đầu vào của mô-đun tiếp theo, thiếu khả năng trọng số động song song và đa kênh, và đương nhiên không thể mô phỏng việc lập lịch tốt để chấm điểm và tổng hợp tất cả các vị trí hoặc phương thức cùng một lúc trong cơ chế chú ý. Cuối cùng, một cơ chế chú ý thực sự tự động gán trọng số cho từng phần tử dựa trên bối cảnh tổng thể; Ở chế độ API, các mô-đun chỉ có thể nhìn thấy ngữ cảnh "độc lập" khi chúng được gọi và không có ngữ cảnh trung tâm được chia sẻ với nhau trong thời gian thực, vì vậy không thể đạt được mối tương quan toàn cầu và tập trung giữa các mô-đun.Do đó, chỉ bằng cách đóng gói các chức năng khác nhau thành các API rời rạc - không có đại diện vector chung, không có trọng số và tổng hợp song song, sẽ không thể xây dựng khả năng "lập lịch chú ý thống nhất" như Transformer, giống như một chiếc xe có động cơ kém hiệu suất thì dù có cải tiến thế nào cũng khó có thể nâng cao giới hạn.## Mô-đun hóa rời rạc dẫn đến việc tích hợp đặc điểm dừng lại ở sự ghép nối tĩnh nông cạn"Hợp nhất đặc trưng" là quá trình kết hợp các vectơ đặc trưng thu được từ các mô hình khác nhau dựa trên căn cứ căn chỉnh và chú ý, để phục vụ cho các nhiệm vụ hạ nguồn (phân loại, tìm kiếm, tạo ra, v.v.). Phương pháp hợp nhất có thể đơn giản như nối, cộng trọng số, hoặc phức tạp hơn như phân phối nhị phân, phân rã tensor, thậm chí là công nghệ định tuyến động. Các phương pháp cao cấp hơn thì thực hiện việc căn chỉnh, chú ý và hợp nhất luân phiên trong mạng nhiều lớp, hoặc thông qua mạng nơ-ron đồ thị (GNN) để thiết lập các con đường truyền thông linh hoạt hơn giữa các đặc trưng đa mô hình, nhằm đạt được sự tương tác sâu về thông tin.Không cần phải nói, Web3 AI rõ ràng chỉ đang ở giai đoạn ghép nối đơn giản nhất, vì sự kết hợp đặc trưng động có điều kiện tiên quyết là không gian bậc cao và cơ chế chú ý tinh vi, khi các điều kiện tiên quyết này không thể được đáp ứng, thì việc kết hợp đặc trưng ở giai đoạn cuối cũng không thể đạt hiệu suất xuất sắc.Web2 AI có xu hướng đào tạo chung từ đầu đến cuối: tất cả các tính năng phương thức như hình ảnh, văn bản và âm thanh được xử lý đồng thời trong cùng một không gian chiều cao và mô hình tự động học các trọng số hợp nhất và chế độ tương tác trong chuyển tiếp và ngược thông qua đồng tối ưu hóa với lớp tác vụ xuôi dòng thông qua lớp chú ý và lớp hợp nhất. Mặt khác, Web3 AI sử dụng nối mô-đun rời rạc hơn, đóng gói các API khác nhau như nhận dạng hình ảnh, nắm bắt thị trường và đánh giá rủi ro thành các tác nhân độc lập, sau đó chỉ cần ghép các nhãn, giá trị hoặc cảnh báo ngưỡng mà chúng đưa ra lại với nhau và đưa ra quyết định toàn diện theo logic chính hoặc thủ công, thiếu mục tiêu đào tạo thống nhất và không có luồng gradient giữa các mô-đun.Trong Web2 AI, hệ thống dựa vào cơ chế chú ý để tính toán điểm quan trọng của các tính năng khác nhau trong thời gian thực theo ngữ cảnh và tự động điều chỉnh chiến lược hợp nhất. Chú ý nhiều đầu cũng có thể nắm bắt song song nhiều mẫu tương tác tính năng khác nhau ở cùng một cấp độ, có tính đến các chi tiết cục bộ và ngữ nghĩa toàn cầu. Mặt khác, Web3 AI thường cố định trước trọng lượng của "hình ảnh × 0,5 + văn bản × 0,3 + giá × 0,2" hoặc sử dụng các quy tắc if/else đơn giản để xác định có nên hợp nhất hay không hợp nhất và chỉ trình bày đầu ra của từng mô-đun với nhau, điều này thiếu tính linh hoạt.Web2 AI ánh xạ tất cả các tính năng phương thức vào một không gian chiều cao vài nghìn chiều và quá trình hợp nhất không chỉ là ghép vectơ mà còn là nhiều tương tác bậc cao hơn như cộng và gộp lưỡng tuyến — mỗi chiều có khả năng tương ứng với ngữ nghĩa tiềm ẩn, cho phép mô hình nắm bắt các liên kết đa phương thức sâu, phức tạp. Ngược lại, đầu ra agent của Web3 AI thường chỉ chứa một vài trường hoặc chỉ số chính, và kích thước tính năng cực kỳ thấp, khiến hầu như không thể truyền tải thông tin tinh tế như "tại sao nội dung của hình ảnh lại phù hợp với ý nghĩa của văn bản" hoặc "mối tương quan tinh tế giữa biến động giá và biến động tâm lý".Trong Web2 AI, tổn thất của các nhiệm vụ hạ nguồn sẽ được truyền liên tục trở lại các phần của mô hình thông qua lớp chú ý và lớp hợp nhất, tự động điều chỉnh các đặc điểm nào nên được tăng cường hoặc ức chế, tạo thành tối ưu hóa vòng khép kín. Ngược lại, Web3 AI, sau khi kết quả gọi API được báo cáo, thường phụ thuộc vào con người hoặc quy trình bên ngoài để đánh giá và điều chỉnh tham số, thiếu phản hồi tự động từ đầu đến cuối, dẫn đến chiến lược hợp nhất khó có thể được lặp lại và tối ưu hóa trực tuyến.## Rào cản trong ngành AI đang ngày càng sâu sắc, nhưng chưa xuất hiện điểm đau.Do cần tính đến sự liên kết đa phương thức, tính toán chú ý tinh vi và hợp nhất tính năng chiều cao trong đào tạo từ đầu đến cuối, hệ thống đa phương thức của Web2 AI thường là một dự án kỹ thuật cực kỳ lớn. Nó không chỉ yêu cầu các bộ dữ liệu đa phương thức khổng lồ, đa dạng và được chú thích tốt mà còn yêu cầu hàng tuần hoặc thậm chí hàng tháng đào tạo trên hàng nghìn GPU; Về kiến trúc mô hình, nó tích hợp các khái niệm thiết kế mạng mới nhất và công nghệ tối ưu hóa khác nhau. Về việc triển khai dự án, cũng cần xây dựng nền tảng đào tạo phân tán có thể mở rộng, hệ thống giám sát, quản lý phiên bản mô hình và đường ống triển khai. Trong nghiên cứu và phát triển các thuật toán, cần phải tiếp tục nghiên cứu các biến thể chú ý hiệu quả hơn, tổn thất liên kết mạnh mẽ hơn và các chiến lược hợp nhất nhẹ hơn. Công việc có hệ thống full-link, full-stack như vậy có yêu cầu cực kỳ cao về vốn, dữ liệu, sức mạnh tính toán, tài năng và thậm chí cả sự hợp tác của tổ chức, vì vậy nó tạo thành một rào cản mạnh mẽ trong ngành và cũng đã tạo ra khả năng cạnh tranh cốt lõi được làm chủ bởi một số nhóm hàng đầu cho đến nay.Khi tôi xem xét các ứng dụng AI của Trung Quốc vào tháng 4 và so sánh WEB3 ai, tôi đã đề cập đến một quan điểm: trong các ngành có rào cản mạnh, Crypto có thể đạt được đột phá, có nghĩa là một số ngành đã rất trưởng thành trong các thị trường truyền thống, nhưng có những điểm khó khăn rất lớn, độ trưởng thành cao có nghĩa là có đủ người dùng quen thuộc với các mô hình kinh doanh tương tự và điểm khó khăn lớn có nghĩa là người dùng sẵn sàng thử các giải pháp mới, tức là sẵn sàng chấp nhận Crypto, cả hai đều không thể thiếu, tức là ngược lại, Nếu nó không phải là một ngành đã rất trưởng thành trên thị trường truyền thống, nhưng có những điểm khó khăn rất lớn, tiền điện tử sẽ không thể bén rễ trong đó, sẽ không có chỗ để tồn tại, và sự sẵn sàng của người dùng để hiểu đầy đủ nó là rất thấp và họ không hiểu giới hạn trên tiềm năng của nó.WEB3 AI hay bất kỳ sản phẩm tiền điện tử nào dưới ngọn cờ PMF cần được phát triển với chiến thuật bao vây thành phố ở nông thôn, và nước nên được thử nghiệm ở quy mô nhỏ ở vị trí cận biên, để đảm bảo nền tảng vững chắc, sau đó chờ đợi sự xuất hiện của kịch bản cốt lõi, tức là thành phố mục tiêu. Cốt lõi của Web3 AI nằm ở sự phi tập trung và con đường phát triển của nó được phản ánh trong khả năng tương thích của tính song song cao, khớp nối thấp và sức mạnh tính toán không đồng nhất. Điều này làm cho Web3 AI có lợi hơn trong các tình huống như điện toán biên và phù hợp với các tác vụ có cấu trúc nhẹ, song song dễ dàng và khuyến khích, chẳng hạn như tinh chỉnh LoRA, các tác vụ sau đào tạo phù hợp với hành vi, đào tạo và chú thích dữ liệu từ cộng đồng, đào tạo mô hình cơ bản nhỏ và đào tạo cộng tác thiết bị biên. Kiến trúc sản phẩm của các kịch bản này rất nhẹ và lộ trình có thể được lặp lại một cách linh hoạt. Nhưng điều này không có nghĩa là cơ hội là bây giờ, bởi vì các rào cản của AI WEB2 mới bắt đầu hình thành, sự xuất hiện của Deepseek đã kích thích sự tiến bộ của AI nhiệm vụ phức tạp đa phương thức, đó là sự cạnh tranh của các doanh nghiệp hàng đầu, và đó là giai đoạn đầu của sự xuất hiện của cổ tức AI WEB2, tôi nghĩ rằng chỉ khi cổ tức của AI WEB2 biến mất, những điểm đau mà nó để lại là cơ hội để AI WEB3 cắt vào, giống như sự ra đời ban đầu của DeFi, và trước khi thời điểm đến, AI3 WEB3 Chúng ta cần xác định cẩn thận thỏa thuận có "vùng nông thôn xung quanh thành phố", có nên cắt từ rìa, trước tiên có được chỗ đứng vững chắc ở nông thôn (hoặc chợ nhỏ, bối cảnh nhỏ) nơi quyền lực yếu, thị trường ít cảnh bén rễ, dần dần tích lũy nguồn lực và kinh nghiệm; Nếu điều này không thể thực hiện được, thì rất khó để dựa vào PMF để đạt được giá trị thị trường 1 tỷ đô la trên cơ sở này, và các dự án như vậy sẽ không nằm trong danh sách theo dõi; CHÚNG TA CẦN CHÚ Ý XEM LIỆU GIAO THỨC AI WEB3 CÓ CẦN HOÀN TOÀN LINH HOẠT, LINH HOẠT CHO CÁC TÌNH HUỐNG KHÁC NHAU, CÓ THỂ DI CHUYỂN NHANH GIỮA CÁC KHU VỰC NÔNG THÔN VÀ DI CHUYỂN ĐẾN GẦN THÀNH PHỐ MỤC TIÊU VỚI TỐC ĐỘ NHANH NHẤT HAY KHÔNG.## Về MovemakerMovemaker là tổ chức cộng đồng chính thức đầu tiên được ủy quyền bởi Quỹ Aptos và do Ankaa và BlockBooster đồng khởi xướng, tập trung vào việc thúc đẩy việc xây dựng và phát triển cộng đồng nói tiếng Trung Aptos. Là đại diện chính thức của Aptos tại khu vực nói tiếng Trung, Movemaker cam kết xây dựng một hệ sinh thái Aptos đa dạng, cởi mở và thịnh vượng bằng cách kết nối các nhà phát triển, người dùng, vốn và nhiều đối tác hệ sinh thái.Tuyên bố từ chối trách nhiệm:Bài viết / blog này chỉ dành cho mục đích thông tin và đại diện cho quan điểm cá nhân của tác giả và không nhất thiết đại diện cho quan điểm của Movemaker. Bài viết này không nhằm mục đích cung cấp: (i) tư vấn đầu tư hoặc khuyến nghị đầu tư; (ii) đề nghị hoặc chào mời mua, bán hoặc nắm giữ tài sản kỹ thuật số; hoặc (iii) tư vấn tài chính, kế toán, pháp lý hoặc thuế. Việc nắm giữ tài sản kỹ thuật số, bao gồm stablecoin và NFT, cực kỳ rủi ro, giá biến động cao và thậm chí có thể trở nên vô giá trị. Bạn nên cân nhắc cẩn thận xem giao dịch hoặc nắm giữ Tài sản kỹ thuật số có phù hợp với bạn hay không dựa trên tình hình tài chính của chính bạn. Vui lòng tham khảo ý kiến của cố vấn pháp lý, thuế hoặc đầu tư nếu bạn có thắc mắc về hoàn cảnh cụ thể của mình. Thông tin được cung cấp trong bài viết này, bao gồm dữ liệu thị trường và số liệu thống kê, nếu có, chỉ dành cho mục đích thông tin chung. Sự cẩn thận hợp lý đã được thực hiện trong việc chuẩn bị các số liệu và đồ thị này, nhưng không chịu trách nhiệm pháp lý đối với bất kỳ lỗi hoặc thiếu sót thực tế nào được thể hiện trong chúng.