La encriptación proporcionará garantías económicas para la seguridad de los Bots, optimizando su infraestructura de conexión, latencia y procesos de recolección de datos, impulsando así el desarrollo de la industria de los Bots.
Escrito por: Paul Veradittakit, socio de Pantera Capital
Compilado por: xiaozou, Jinse Caijing
Resumen:
La innovación y los efectos de escala de VLA están impulsando el nacimiento de robots humanoides asequibles, eficientes y versátiles.
A medida que los Bots de almacenamiento se expanden al mercado de robots de consumo, la seguridad de los robots, la financiación y los mecanismos de evaluación merecen una exploración profunda.
La encriptación proporcionará garantías económicas para la seguridad de los Bots, y optimizará su infraestructura de conexión, latencia y procesos de recolección de datos, impulsando así el desarrollo de la industria de los Bots.
ChatGPT ha reescrito completamente las expectativas de la humanidad sobre la inteligencia artificial. Cuando los grandes modelos de lenguaje comenzaron a interactuar con el mundo del software externo, muchas personas pensaron que los agentes de IA eran la forma definitiva. Pero al revisar películas de ciencia ficción clásicas como "Star Wars", "Blade Runner" o "RoboCop", se puede descubrir que el verdadero sueño de la humanidad es que la inteligencia artificial pueda interactuar con el mundo físico en forma de Bots.
Según Pantera Capital, el "momento ChatGPT" en el ámbito de los Bots está a punto de llegar. Primero analizaremos cómo los avances en la inteligencia artificial en los últimos años han cambiado el panorama de la industria, y luego exploraremos cómo la tecnología de baterías, la optimización de la latencia y las mejoras en la recolección de datos darán forma al futuro, así como el papel que juega la encriptación en ello. Por último, explicaremos por qué consideramos que la seguridad de los Bots, el financiamiento, la evaluación y la educación son áreas verticales que necesitan atención.
1, Elementos de cambio
(1)ruptura de inteligencia artificial
Los avances en el campo de los modelos de lenguaje multimodal están otorgando a los Bots el "cerebro" necesario para ejecutar tareas complejas. Los Bots perciben el entorno principalmente a través de dos sentidos: la visión y la audición.
Los modelos tradicionales de visión por computadora (como las redes neuronales convolucionales) son buenos en tareas de detección o clasificación de objetos, pero tienen dificultades para convertir la información visual en instrucciones de acción con propósito. Los grandes modelos de lenguaje, aunque sobresalen en la comprensión y generación de texto, están limitados en su capacidad para percibir el mundo físico.
A través del modelo de Visual - Lenguaje - Acción (VLA), los Bots pueden integrar la percepción visual, la comprensión del lenguaje y la acción física dentro de un marco computacional unificado. En febrero de 2025, Figure AI lanzó el modelo de control de robots humanoides universal Helix, que establece un nuevo estándar en la industria gracias a su capacidad de generalización de cero muestras y su arquitectura de Sistema 1/Sistema 2. La característica de generalización de cero muestras permite que los Bots se adapten instantáneamente a nuevos escenarios, objetos e instrucciones sin necesidad de entrenamiento repetido para cada tarea. La arquitectura de Sistema 1/Sistema 2 separa el razonamiento de alto nivel del razonamiento ligero, logrando un robot humanoide comercial que combina el pensamiento humano con precisión en tiempo real.
(2) Los Bots económicos se convierten en realidad
Las tecnologías que cambian el mundo tienen una característica común: la capacidad de ser accesibles. Los teléfonos inteligentes, las computadoras personales y la tecnología de impresión 3D se han popularizado a través de precios que la clase media puede permitirse. Cuando el precio de robots como el Unitree G1 es inferior al de un Honda Accord o al ingreso anual mínimo de 34,000 dólares en Estados Unidos, no es sorprendente imaginar un mundo en el que el trabajo físico y las tareas diarias sean realizadas principalmente por Bots.
(3) del almacenamiento al mercado de consumo
La tecnología de robots está expandiéndose de soluciones de almacenamiento al ámbito del consumo. Este mundo está diseñado para los humanos: los humanos pueden realizar el trabajo de todos los robots especializados, mientras que los robots especializados no pueden realizar todo el trabajo de los humanos. Las empresas de robots ya no se limitan a fabricar robots para fábricas, sino que están desarrollando robots humanoides más versátiles. Por lo tanto, la vanguardia de la tecnología de robots no solo se encuentra en los almacenes, sino que también se infiltrará en la vida cotidiana.
El costo es uno de los principales cuellos de botella de la escalabilidad. El indicador que más nos preocupa es el costo integral por hora, que se calcula como la suma del costo de oportunidad del tiempo de entrenamiento y carga, el costo de ejecución de tareas y el costo de adquisición de Bots, dividido por el tiempo total de operación de los Bots. Este costo debe ser inferior al nivel salarial promedio de la industria para ser competitivo.
Para una penetración completa en el campo del almacenamiento, el costo integral de los Bots debe ser inferior a 31.39 dólares por hora. En el mayor mercado de consumo - el sector de educación privada y servicios de salud, este costo debe mantenerse por debajo de 35.18 dólares. Actualmente, los Bots están evolucionando hacia direcciones más económicas, eficientes y versátiles.
2、el siguiente avance en la tecnología de Bots
(1)optimización de batería
La tecnología de baterías ha sido siempre un cuello de botella para los robots orientados al usuario. Los vehículos eléctricos tempranos, como el BMW i3, tuvieron dificultades para generalizarse debido a las limitaciones de la tecnología de baterías que resultaron en una corta autonomía, altos costos y baja practicidad, y los robots enfrentan la misma dificultad. El robot Spot de Boston Dynamics tiene una autonomía de solo 90 minutos, mientras que el Unitree G1 tiene una autonomía de aproximadamente 2 horas. Los usuarios evidentemente no quieren cargar manualmente cada dos horas, por lo que la carga autónoma y la infraestructura de acoplamiento se convierten en direcciones clave de desarrollo. Actualmente, hay principalmente dos modos de carga para robots: el reemplazo de baterías o la carga directa.
El modo de reemplazo de batería permite la operación continua mediante el reemplazo rápido de los bloques de batería agotados, minimizando el tiempo de inactividad, y es adecuado para escenarios de campo o fábricas. Este proceso puede ser operado manualmente o completado de forma automatizada.
La carga por inducción utiliza un método de alimentación inalámbrico. Aunque la carga completa toma más tiempo, se puede lograr fácilmente un proceso completamente automatizado.
(2) optimización de latencia
Las operaciones de baja latencia se pueden dividir en dos categorías: percepción del entorno y control remoto. La percepción se refiere a la capacidad de los Bots para reconocer el espacio del entorno, mientras que el control remoto se refiere específicamente al control en tiempo real por parte de un operador humano.
Según investigaciones de Cintrini, el sistema de percepción de los robots comienza con sensores de bajo costo, pero la ventaja tecnológica radica en el software de fusión, la computación de bajo consumo y los circuitos de control precisos en milisegundos. Cuando el robot completa la localización espacial, una red neuronal ligera etiquetará elementos como obstáculos, palets o humanos. Después de que las etiquetas de escena ingresan al sistema de planificación, se generan de inmediato las instrucciones del motor que se envían a los pies, grupos de ruedas o brazos mecánicos. Una latencia de percepción de menos de 50 milisegundos equivale a la velocidad de reflejo humano: cualquier latencia que supere este umbral resultará en movimientos torpes del robot. Por lo tanto, el 90% de las decisiones deben completarse localmente a través de una red visual-lenguaje-acción única.
Los robots totalmente autónomos deben asegurar que la latencia del modelo VLA de alto rendimiento sea inferior a 50 milisegundos; en el caso de los robots controlados a distancia, se requiere que la latencia de la señal entre el terminal de operación y el robot no supere los 50 milisegundos. Aquí, la importancia del modelo VLA se destaca especialmente: si la entrada visual y la de texto son procesadas por diferentes modelos antes de ser introducidas en un modelo de lenguaje grande, la latencia total superará ampliamente el umbral de 50 milisegundos.
(3)optimización de la recolección de datos
La recolección de datos se realiza principalmente a través de tres vías: datos de video del mundo real, datos sintéticos y datos de control remoto. El principal desafío entre los datos reales y los datos sintéticos radica en cerrar la brecha entre el comportamiento físico de los Robots y los modelos de video/simulación. Los datos de video del mundo real carecen de detalles físicos como la retroalimentación de fuerza, errores en el movimiento de las articulaciones y deformaciones de materiales; mientras que los datos simulados carecen de variables impredecibles como fallos en los sensores y coeficientes de fricción.
La forma de recolección de datos con mayor potencial es el control remoto: un operador humano controla a distancia a los Bots para ejecutar tareas. Sin embargo, el costo de mano de obra es el principal factor limitante de la recolección de datos mediante control remoto.
El desarrollo de hardware personalizado también está proporcionando nuevas soluciones para la recopilación de datos de alta calidad. La empresa Mecka combina métodos convencionales con hardware personalizado para recopilar datos de movimiento humano en múltiples dimensiones, que, tras su procesamiento, se convierten en conjuntos de datos adecuados para el entrenamiento de redes neuronales de Bots, proporcionando grandes volúmenes de datos de alta calidad para el entrenamiento de IA en ciclos de iteración rápida. Estos canales tecnológicos han acortado conjuntamente el camino de transformación desde los datos originales hasta los Bots desplegables.
3、Áreas de exploración clave
(1) encriptación tecnología y Bots fusión
La encriptación puede incentivar a las partes no confiables a mejorar la eficiencia de la red de Bots. Basándonos en los campos clave mencionados anteriormente, creemos que la encriptación puede mejorar la eficiencia en la integración de infraestructuras, la optimización de la latencia y la recolección de datos.
La red de infraestructura física descentralizada (DePIN) promete revolucionar la infraestructura de carga. Cuando los robots humanoides operen globalmente como automóviles, las estaciones de carga deben ser tan accesibles como las gasolineras. Las redes centralizadas requieren una gran inversión inicial, mientras que DePIN distribuye los costos entre los operadores de nodos, permitiendo una rápida expansión de las instalaciones de carga a más áreas.
DePIN también puede utilizar infraestructura distribuida para optimizar la latencia del control remoto. Al agregar recursos de computación de nodos de borde geográficamente dispersos, las instrucciones de control remoto pueden ser procesadas por nodos locales o los más cercanos disponibles, minimizando así la distancia de transmisión de datos y reduciendo significativamente la latencia de comunicación. Sin embargo, los proyectos actuales de DePIN se centran principalmente en el almacenamiento descentralizado, la distribución de contenido y el intercambio de ancho de banda. Aunque hay proyectos que muestran las ventajas de la computación de borde en el streaming o en el Internet de las Cosas, aún no se ha extendido al campo de los Bots o el control remoto.
El control remoto es la forma de recopilación de datos más prometedora, pero el costo de contratar profesionales por parte de entidades centralizadas para recopilar datos es extremadamente alto. DePIN aborda este problema incentivando a terceros a proporcionar datos de control remoto mediante encriptación de tokens. El proyecto Reborn construye una red global de operadores remotos, transformando sus contribuciones en activos digitales tokenizados, formando un sistema descentralizado sin permisos: los participantes pueden obtener ganancias, participar en la gobernanza y contribuir al entrenamiento de Bots AGI.
(2) La seguridad siempre es una preocupación central
El objetivo final de la tecnología de Bots es lograr una autonomía completa, pero como advierten las películas de la serie "Terminator", lo que menos desea la humanidad es que la autonomía convierta a los Bots en armas ofensivas. Los problemas de seguridad de los modelos de lenguaje grande han suscitado preocupación, y cuando estos modelos poseen la capacidad de acción física, la seguridad de los Bots se convierte en un requisito clave para la aceptación social.
La seguridad económica es uno de los pilares de la prosperidad del ecosistema de Bots. La empresa OpenMind en este campo está construyendo FABRIC, una capa de coordinación de máquinas descentralizada que permite la autenticación de identidad de dispositivos, la verificación de presencia física y la adquisición de recursos a través de encriptación. A diferencia de la simple gestión del mercado de tareas, FABRIC permite a los Bots probar de manera autónoma su información de identidad, ubicación geográfica y registros de comportamiento sin depender de intermediarios centralizados.
Las restricciones de comportamiento y la autenticación de identidad se ejecutan a través de mecanismos en la cadena, asegurando que cualquier persona pueda auditar la conformidad. Los Bots que cumplan con los estándares de seguridad, los requisitos de calidad y las normativas regionales recibirán recompensas, mientras que los infractores enfrentarán sanciones o la descalificación, estableciendo así un mecanismo de responsabilidad y confianza en la red de máquinas autónomas.
Las redes de rehipoteca de terceros (como Symbiotic) también pueden proporcionar garantías de seguridad equivalentes. Aunque el sistema de parámetros de penalización aún necesita mejorar, la tecnología relacionada ha entrado en una etapa práctica. Esperamos que se establezcan normas de seguridad en la industria, y en ese momento, los parámetros de penalización se modelarán de acuerdo con estas normas.
Ejemplo de plan de implementación:
Bots de la empresa se unen a la red Symbiotic.
Establecer parámetros de confiscación verificables (como "aplicar una fuerza de contacto humano superior a 2500 newtons");
Los apostadores proporcionan un margen para garantizar que los Bots cumplan con los parámetros;
En caso de violación, el depósito de garantía se utilizará como compensación para la víctima.
Este modo no solo incentiva a las empresas a priorizar la seguridad, sino que también fomenta la aceptación de los consumidores a través del mecanismo de seguro del fondo de staking.
La visión del equipo Symbiotic sobre el campo de los Bots es:
El marco de participación general de Symbiotic tiene como objetivo extender el concepto de participación a todos los campos que requieren un respaldo de seguridad económica, ya sea a través de un modelo compartido o independiente. Sus escenarios de aplicación van desde seguros hasta tecnología de Bots, y necesitan un diseño específico según el caso. Por ejemplo, una red de Bots puede construirse completamente sobre el marco de Symbiotic, permitiendo a las partes interesadas proporcionar garantías económicas para la integridad de la red.
4、Llenar el vacío en la pila de tecnología de Bots
OpenAI ha impulsado la popularización de la IA, pero la piedra angular de ChatGPT ya se había establecido. Los servicios en la nube rompieron la dependencia de los modelos en la potencia computacional local, Huggingface logró la apertura del código del modelo, y Kaggle proporcionó una plataforma de experimentación para ingenieros de IA. Estos avances progresivos han contribuido conjuntamente a la democratización de la IA.
A diferencia de la IA, el campo de los Bots es difícil de ingresar cuando los fondos son limitados. Para lograr la popularización de los Bots, el umbral de desarrollo debe reducirse a un nivel de conveniencia similar al del desarrollo de aplicaciones de IA. Creemos que hay espacio para mejoras en tres áreas: mecanismos de financiamiento, sistemas de evaluación y ecosistemas educativos.
El financiamiento es un punto crítico en el campo de los Bots. Desarrollar programas de computadora solo requiere una computadora y recursos de computación en la nube, mientras que construir un robot completamente funcional implica la compra de motores, sensores, baterías y otros hardware, con costos que fácilmente superan los 100,000 dólares. Esta propiedad del hardware hace que el desarrollo de robots carezca de flexibilidad en comparación con la IA y sea costoso.
La infraestructura de evaluación de Bots en escenarios reales aún se encuentra en una etapa incipiente. En el campo de la IA se ha establecido un sistema claro de funciones de pérdida, y las pruebas pueden ser completamente virtualizadas. Sin embargo, las estrategias virtuales excelentes no pueden convertirse directamente en soluciones efectivas en el mundo real. Los Bots necesitan instalaciones de evaluación de estrategias autónomas para probar en diversos entornos reales, a fin de lograr una optimización iterativa.
Cuando estas infraestructuras maduren, una gran cantidad de talento fluirá, y los robots humanoides repetirán la curva de explosión de Web2. La empresa de robots encriptados OpenMind avanza en esta dirección: su proyecto de código abierto OM1 ("sistema operativo Android para robots") convierte el hardware original en agentes inteligentes escalables con conciencia económica. Los módulos de planificación visual, lingüística y de movimiento pueden conectarse y usarse como aplicaciones de teléfono móvil, y todos los pasos de razonamiento se presentan en un inglés claro, lo que permite a los operadores auditar o ajustar el comportamiento sin tener que tocar el firmware. Esta capacidad de razonamiento en lenguaje natural permite que la nueva generación de talentos se integre sin problemas en el campo de los robots, dando un paso clave hacia la plataforma abierta que detonará la revolución robótica, similar al efecto acelerador del movimiento de código abierto en la IA.
La densidad de talento determina la trayectoria de la industria. Un sistema educativo inclusivo y estructurado es crucial para el suministro de talentos en el campo de los Bots. La llegada de OpenMind a Nasdaq marca el inicio de una nueva era en la que máquinas inteligentes participan simultáneamente en la innovación financiera y en la educación presencial. OpenMind y Robostore anunciaron en conjunto que lanzarán el primer curso educativo universal basado en el robot humanoide Unitree G1 en las escuelas públicas K-12 de EE. UU. Este curso está diseñado para ser independiente de la plataforma, adaptándose a diversas formas de Bots y ofreciendo a los estudiantes oportunidades de práctica. Esta señal positiva refuerza nuestro juicio: en los próximos años, la riqueza de los recursos educativos de Bots será comparable a la del campo de la encriptación.
5, Perspectivas futuras
La innovación y el efecto de economías de escala del modelo de acción del lenguaje visual (VLA) han dado lugar a robots humanoides económicos, eficientes y universales. A medida que los robots de almacenamiento se expanden al mercado de consumo, la seguridad, los modelos de financiamiento y los sistemas de evaluación se convierten en direcciones clave de exploración. Creemos firmemente que la encriptación impulsará el desarrollo de robots a través de tres vías: proporcionando garantías económicas para la seguridad, optimizando la infraestructura de carga y mejorando el rendimiento de latencia y los canales de recopilación de datos.
Ver originales
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
Pantera socios: la era de los Bots impulsados por encriptación
Escrito por: Paul Veradittakit, socio de Pantera Capital
Compilado por: xiaozou, Jinse Caijing
Resumen:
La innovación y los efectos de escala de VLA están impulsando el nacimiento de robots humanoides asequibles, eficientes y versátiles.
A medida que los Bots de almacenamiento se expanden al mercado de robots de consumo, la seguridad de los robots, la financiación y los mecanismos de evaluación merecen una exploración profunda.
La encriptación proporcionará garantías económicas para la seguridad de los Bots, y optimizará su infraestructura de conexión, latencia y procesos de recolección de datos, impulsando así el desarrollo de la industria de los Bots.
ChatGPT ha reescrito completamente las expectativas de la humanidad sobre la inteligencia artificial. Cuando los grandes modelos de lenguaje comenzaron a interactuar con el mundo del software externo, muchas personas pensaron que los agentes de IA eran la forma definitiva. Pero al revisar películas de ciencia ficción clásicas como "Star Wars", "Blade Runner" o "RoboCop", se puede descubrir que el verdadero sueño de la humanidad es que la inteligencia artificial pueda interactuar con el mundo físico en forma de Bots.
Según Pantera Capital, el "momento ChatGPT" en el ámbito de los Bots está a punto de llegar. Primero analizaremos cómo los avances en la inteligencia artificial en los últimos años han cambiado el panorama de la industria, y luego exploraremos cómo la tecnología de baterías, la optimización de la latencia y las mejoras en la recolección de datos darán forma al futuro, así como el papel que juega la encriptación en ello. Por último, explicaremos por qué consideramos que la seguridad de los Bots, el financiamiento, la evaluación y la educación son áreas verticales que necesitan atención.
1, Elementos de cambio
(1)ruptura de inteligencia artificial
Los avances en el campo de los modelos de lenguaje multimodal están otorgando a los Bots el "cerebro" necesario para ejecutar tareas complejas. Los Bots perciben el entorno principalmente a través de dos sentidos: la visión y la audición.
Los modelos tradicionales de visión por computadora (como las redes neuronales convolucionales) son buenos en tareas de detección o clasificación de objetos, pero tienen dificultades para convertir la información visual en instrucciones de acción con propósito. Los grandes modelos de lenguaje, aunque sobresalen en la comprensión y generación de texto, están limitados en su capacidad para percibir el mundo físico.
A través del modelo de Visual - Lenguaje - Acción (VLA), los Bots pueden integrar la percepción visual, la comprensión del lenguaje y la acción física dentro de un marco computacional unificado. En febrero de 2025, Figure AI lanzó el modelo de control de robots humanoides universal Helix, que establece un nuevo estándar en la industria gracias a su capacidad de generalización de cero muestras y su arquitectura de Sistema 1/Sistema 2. La característica de generalización de cero muestras permite que los Bots se adapten instantáneamente a nuevos escenarios, objetos e instrucciones sin necesidad de entrenamiento repetido para cada tarea. La arquitectura de Sistema 1/Sistema 2 separa el razonamiento de alto nivel del razonamiento ligero, logrando un robot humanoide comercial que combina el pensamiento humano con precisión en tiempo real.
(2) Los Bots económicos se convierten en realidad
Las tecnologías que cambian el mundo tienen una característica común: la capacidad de ser accesibles. Los teléfonos inteligentes, las computadoras personales y la tecnología de impresión 3D se han popularizado a través de precios que la clase media puede permitirse. Cuando el precio de robots como el Unitree G1 es inferior al de un Honda Accord o al ingreso anual mínimo de 34,000 dólares en Estados Unidos, no es sorprendente imaginar un mundo en el que el trabajo físico y las tareas diarias sean realizadas principalmente por Bots.
(3) del almacenamiento al mercado de consumo
La tecnología de robots está expandiéndose de soluciones de almacenamiento al ámbito del consumo. Este mundo está diseñado para los humanos: los humanos pueden realizar el trabajo de todos los robots especializados, mientras que los robots especializados no pueden realizar todo el trabajo de los humanos. Las empresas de robots ya no se limitan a fabricar robots para fábricas, sino que están desarrollando robots humanoides más versátiles. Por lo tanto, la vanguardia de la tecnología de robots no solo se encuentra en los almacenes, sino que también se infiltrará en la vida cotidiana.
El costo es uno de los principales cuellos de botella de la escalabilidad. El indicador que más nos preocupa es el costo integral por hora, que se calcula como la suma del costo de oportunidad del tiempo de entrenamiento y carga, el costo de ejecución de tareas y el costo de adquisición de Bots, dividido por el tiempo total de operación de los Bots. Este costo debe ser inferior al nivel salarial promedio de la industria para ser competitivo.
Para una penetración completa en el campo del almacenamiento, el costo integral de los Bots debe ser inferior a 31.39 dólares por hora. En el mayor mercado de consumo - el sector de educación privada y servicios de salud, este costo debe mantenerse por debajo de 35.18 dólares. Actualmente, los Bots están evolucionando hacia direcciones más económicas, eficientes y versátiles.
2、el siguiente avance en la tecnología de Bots
(1)optimización de batería
La tecnología de baterías ha sido siempre un cuello de botella para los robots orientados al usuario. Los vehículos eléctricos tempranos, como el BMW i3, tuvieron dificultades para generalizarse debido a las limitaciones de la tecnología de baterías que resultaron en una corta autonomía, altos costos y baja practicidad, y los robots enfrentan la misma dificultad. El robot Spot de Boston Dynamics tiene una autonomía de solo 90 minutos, mientras que el Unitree G1 tiene una autonomía de aproximadamente 2 horas. Los usuarios evidentemente no quieren cargar manualmente cada dos horas, por lo que la carga autónoma y la infraestructura de acoplamiento se convierten en direcciones clave de desarrollo. Actualmente, hay principalmente dos modos de carga para robots: el reemplazo de baterías o la carga directa.
El modo de reemplazo de batería permite la operación continua mediante el reemplazo rápido de los bloques de batería agotados, minimizando el tiempo de inactividad, y es adecuado para escenarios de campo o fábricas. Este proceso puede ser operado manualmente o completado de forma automatizada.
La carga por inducción utiliza un método de alimentación inalámbrico. Aunque la carga completa toma más tiempo, se puede lograr fácilmente un proceso completamente automatizado.
(2) optimización de latencia
Las operaciones de baja latencia se pueden dividir en dos categorías: percepción del entorno y control remoto. La percepción se refiere a la capacidad de los Bots para reconocer el espacio del entorno, mientras que el control remoto se refiere específicamente al control en tiempo real por parte de un operador humano.
Según investigaciones de Cintrini, el sistema de percepción de los robots comienza con sensores de bajo costo, pero la ventaja tecnológica radica en el software de fusión, la computación de bajo consumo y los circuitos de control precisos en milisegundos. Cuando el robot completa la localización espacial, una red neuronal ligera etiquetará elementos como obstáculos, palets o humanos. Después de que las etiquetas de escena ingresan al sistema de planificación, se generan de inmediato las instrucciones del motor que se envían a los pies, grupos de ruedas o brazos mecánicos. Una latencia de percepción de menos de 50 milisegundos equivale a la velocidad de reflejo humano: cualquier latencia que supere este umbral resultará en movimientos torpes del robot. Por lo tanto, el 90% de las decisiones deben completarse localmente a través de una red visual-lenguaje-acción única.
Los robots totalmente autónomos deben asegurar que la latencia del modelo VLA de alto rendimiento sea inferior a 50 milisegundos; en el caso de los robots controlados a distancia, se requiere que la latencia de la señal entre el terminal de operación y el robot no supere los 50 milisegundos. Aquí, la importancia del modelo VLA se destaca especialmente: si la entrada visual y la de texto son procesadas por diferentes modelos antes de ser introducidas en un modelo de lenguaje grande, la latencia total superará ampliamente el umbral de 50 milisegundos.
(3)optimización de la recolección de datos
La recolección de datos se realiza principalmente a través de tres vías: datos de video del mundo real, datos sintéticos y datos de control remoto. El principal desafío entre los datos reales y los datos sintéticos radica en cerrar la brecha entre el comportamiento físico de los Robots y los modelos de video/simulación. Los datos de video del mundo real carecen de detalles físicos como la retroalimentación de fuerza, errores en el movimiento de las articulaciones y deformaciones de materiales; mientras que los datos simulados carecen de variables impredecibles como fallos en los sensores y coeficientes de fricción.
La forma de recolección de datos con mayor potencial es el control remoto: un operador humano controla a distancia a los Bots para ejecutar tareas. Sin embargo, el costo de mano de obra es el principal factor limitante de la recolección de datos mediante control remoto.
El desarrollo de hardware personalizado también está proporcionando nuevas soluciones para la recopilación de datos de alta calidad. La empresa Mecka combina métodos convencionales con hardware personalizado para recopilar datos de movimiento humano en múltiples dimensiones, que, tras su procesamiento, se convierten en conjuntos de datos adecuados para el entrenamiento de redes neuronales de Bots, proporcionando grandes volúmenes de datos de alta calidad para el entrenamiento de IA en ciclos de iteración rápida. Estos canales tecnológicos han acortado conjuntamente el camino de transformación desde los datos originales hasta los Bots desplegables.
3、Áreas de exploración clave
(1) encriptación tecnología y Bots fusión
La encriptación puede incentivar a las partes no confiables a mejorar la eficiencia de la red de Bots. Basándonos en los campos clave mencionados anteriormente, creemos que la encriptación puede mejorar la eficiencia en la integración de infraestructuras, la optimización de la latencia y la recolección de datos.
La red de infraestructura física descentralizada (DePIN) promete revolucionar la infraestructura de carga. Cuando los robots humanoides operen globalmente como automóviles, las estaciones de carga deben ser tan accesibles como las gasolineras. Las redes centralizadas requieren una gran inversión inicial, mientras que DePIN distribuye los costos entre los operadores de nodos, permitiendo una rápida expansión de las instalaciones de carga a más áreas.
DePIN también puede utilizar infraestructura distribuida para optimizar la latencia del control remoto. Al agregar recursos de computación de nodos de borde geográficamente dispersos, las instrucciones de control remoto pueden ser procesadas por nodos locales o los más cercanos disponibles, minimizando así la distancia de transmisión de datos y reduciendo significativamente la latencia de comunicación. Sin embargo, los proyectos actuales de DePIN se centran principalmente en el almacenamiento descentralizado, la distribución de contenido y el intercambio de ancho de banda. Aunque hay proyectos que muestran las ventajas de la computación de borde en el streaming o en el Internet de las Cosas, aún no se ha extendido al campo de los Bots o el control remoto.
El control remoto es la forma de recopilación de datos más prometedora, pero el costo de contratar profesionales por parte de entidades centralizadas para recopilar datos es extremadamente alto. DePIN aborda este problema incentivando a terceros a proporcionar datos de control remoto mediante encriptación de tokens. El proyecto Reborn construye una red global de operadores remotos, transformando sus contribuciones en activos digitales tokenizados, formando un sistema descentralizado sin permisos: los participantes pueden obtener ganancias, participar en la gobernanza y contribuir al entrenamiento de Bots AGI.
(2) La seguridad siempre es una preocupación central
El objetivo final de la tecnología de Bots es lograr una autonomía completa, pero como advierten las películas de la serie "Terminator", lo que menos desea la humanidad es que la autonomía convierta a los Bots en armas ofensivas. Los problemas de seguridad de los modelos de lenguaje grande han suscitado preocupación, y cuando estos modelos poseen la capacidad de acción física, la seguridad de los Bots se convierte en un requisito clave para la aceptación social.
La seguridad económica es uno de los pilares de la prosperidad del ecosistema de Bots. La empresa OpenMind en este campo está construyendo FABRIC, una capa de coordinación de máquinas descentralizada que permite la autenticación de identidad de dispositivos, la verificación de presencia física y la adquisición de recursos a través de encriptación. A diferencia de la simple gestión del mercado de tareas, FABRIC permite a los Bots probar de manera autónoma su información de identidad, ubicación geográfica y registros de comportamiento sin depender de intermediarios centralizados.
Las restricciones de comportamiento y la autenticación de identidad se ejecutan a través de mecanismos en la cadena, asegurando que cualquier persona pueda auditar la conformidad. Los Bots que cumplan con los estándares de seguridad, los requisitos de calidad y las normativas regionales recibirán recompensas, mientras que los infractores enfrentarán sanciones o la descalificación, estableciendo así un mecanismo de responsabilidad y confianza en la red de máquinas autónomas.
Las redes de rehipoteca de terceros (como Symbiotic) también pueden proporcionar garantías de seguridad equivalentes. Aunque el sistema de parámetros de penalización aún necesita mejorar, la tecnología relacionada ha entrado en una etapa práctica. Esperamos que se establezcan normas de seguridad en la industria, y en ese momento, los parámetros de penalización se modelarán de acuerdo con estas normas.
Ejemplo de plan de implementación:
Este modo no solo incentiva a las empresas a priorizar la seguridad, sino que también fomenta la aceptación de los consumidores a través del mecanismo de seguro del fondo de staking.
La visión del equipo Symbiotic sobre el campo de los Bots es:
El marco de participación general de Symbiotic tiene como objetivo extender el concepto de participación a todos los campos que requieren un respaldo de seguridad económica, ya sea a través de un modelo compartido o independiente. Sus escenarios de aplicación van desde seguros hasta tecnología de Bots, y necesitan un diseño específico según el caso. Por ejemplo, una red de Bots puede construirse completamente sobre el marco de Symbiotic, permitiendo a las partes interesadas proporcionar garantías económicas para la integridad de la red.
4、Llenar el vacío en la pila de tecnología de Bots
OpenAI ha impulsado la popularización de la IA, pero la piedra angular de ChatGPT ya se había establecido. Los servicios en la nube rompieron la dependencia de los modelos en la potencia computacional local, Huggingface logró la apertura del código del modelo, y Kaggle proporcionó una plataforma de experimentación para ingenieros de IA. Estos avances progresivos han contribuido conjuntamente a la democratización de la IA.
A diferencia de la IA, el campo de los Bots es difícil de ingresar cuando los fondos son limitados. Para lograr la popularización de los Bots, el umbral de desarrollo debe reducirse a un nivel de conveniencia similar al del desarrollo de aplicaciones de IA. Creemos que hay espacio para mejoras en tres áreas: mecanismos de financiamiento, sistemas de evaluación y ecosistemas educativos.
El financiamiento es un punto crítico en el campo de los Bots. Desarrollar programas de computadora solo requiere una computadora y recursos de computación en la nube, mientras que construir un robot completamente funcional implica la compra de motores, sensores, baterías y otros hardware, con costos que fácilmente superan los 100,000 dólares. Esta propiedad del hardware hace que el desarrollo de robots carezca de flexibilidad en comparación con la IA y sea costoso.
La infraestructura de evaluación de Bots en escenarios reales aún se encuentra en una etapa incipiente. En el campo de la IA se ha establecido un sistema claro de funciones de pérdida, y las pruebas pueden ser completamente virtualizadas. Sin embargo, las estrategias virtuales excelentes no pueden convertirse directamente en soluciones efectivas en el mundo real. Los Bots necesitan instalaciones de evaluación de estrategias autónomas para probar en diversos entornos reales, a fin de lograr una optimización iterativa.
Cuando estas infraestructuras maduren, una gran cantidad de talento fluirá, y los robots humanoides repetirán la curva de explosión de Web2. La empresa de robots encriptados OpenMind avanza en esta dirección: su proyecto de código abierto OM1 ("sistema operativo Android para robots") convierte el hardware original en agentes inteligentes escalables con conciencia económica. Los módulos de planificación visual, lingüística y de movimiento pueden conectarse y usarse como aplicaciones de teléfono móvil, y todos los pasos de razonamiento se presentan en un inglés claro, lo que permite a los operadores auditar o ajustar el comportamiento sin tener que tocar el firmware. Esta capacidad de razonamiento en lenguaje natural permite que la nueva generación de talentos se integre sin problemas en el campo de los robots, dando un paso clave hacia la plataforma abierta que detonará la revolución robótica, similar al efecto acelerador del movimiento de código abierto en la IA.
La densidad de talento determina la trayectoria de la industria. Un sistema educativo inclusivo y estructurado es crucial para el suministro de talentos en el campo de los Bots. La llegada de OpenMind a Nasdaq marca el inicio de una nueva era en la que máquinas inteligentes participan simultáneamente en la innovación financiera y en la educación presencial. OpenMind y Robostore anunciaron en conjunto que lanzarán el primer curso educativo universal basado en el robot humanoide Unitree G1 en las escuelas públicas K-12 de EE. UU. Este curso está diseñado para ser independiente de la plataforma, adaptándose a diversas formas de Bots y ofreciendo a los estudiantes oportunidades de práctica. Esta señal positiva refuerza nuestro juicio: en los próximos años, la riqueza de los recursos educativos de Bots será comparable a la del campo de la encriptación.
5, Perspectivas futuras
La innovación y el efecto de economías de escala del modelo de acción del lenguaje visual (VLA) han dado lugar a robots humanoides económicos, eficientes y universales. A medida que los robots de almacenamiento se expanden al mercado de consumo, la seguridad, los modelos de financiamiento y los sistemas de evaluación se convierten en direcciones clave de exploración. Creemos firmemente que la encriptación impulsará el desarrollo de robots a través de tres vías: proporcionando garantías económicas para la seguridad, optimizando la infraestructura de carga y mejorando el rendimiento de latencia y los canales de recopilación de datos.