*Continuación de El CTO nativo de IA*

Este artículo profundiza en tres palancas que silenciosamente determinan si su estrategia de IA se multiplica o se calcifica: portabilidad (¿puede mover modelos sin problemas?), proximidad (¿puede ejecutar la inteligencia donde importa, en el dispositivo y en el *edge*?), y procedencia (¿puede probar de dónde provienen los datos y las salidas, de una manera que los auditores y socios acepten?). Estas no son preocupaciones decorativas. Son la diferencia entre poseer un sistema y simplemente alquilar uno.

Expondremos el caso, mostraremos las costuras y le daremos una breve columna vertebral operativa que puede implementar en un *sprint*.

---

I. La portabilidad como poder

Por qué la portabilidad pasó de ser un "deseable" a un elemento del balance

Cuando las curvas de costos de los modelos se mueven más rápido que sus contratos, la salida se convierte en una capacidad. Si puede exportar un modelo, redirigirlo a otro *runtime* y mantener estable el protocolo de su aplicación, puede arbitrar la latencia y el precio, y puede decir "no" cuando un proveedor lo acorrala.

Dos pilares pragmáticos hacen esto viable en 2026:

  1. Intercambio de modelos: ONNX (Open Neural Network Exchange) es lo más parecido a una *lingua franca*. Estandariza operadores y un formato de archivo para que los modelos entrenados se muevan entre *frameworks*, compiladores y *runtimes* sin una reescritura. Para su equipo, eso significa la diferencia entre refactorizar una aplicación e intercambiar un grafo serializado.
  1. Abstracción de *serving*: Una API de inferencia unificada permite que las aplicaciones llamen a modelos locales o remotos de la misma manera. Proyectos como vLLM presentan un *endpoint* compatible con OpenAI mientras ofrecen decodificación de alto rendimiento, cachés de prefijos y estado fragmentado bajo el capó. Mantenga su aplicación hablando un solo dialecto; mueva el *backend* a voluntad. En *hardware* de NVIDIA, TensorRT-LLM le da otra "cara": un motor profundamente optimizado que puede colocar detrás de la misma puerta principal.

Dicho sin rodeos: la portabilidad es la operacionalización de su posición negociadora.

Una rúbrica de portabilidad que puede aplicar el próximo trimestre

Adopte tres reglas y audítelas trimestralmente:

  • Plan de salida en CI: Cada modelo material se exporta con éxito (por ejemplo, ONNX) y se ejecuta en al menos dos *stacks* de *serving* (digamos, vLLM y TensorRT-LLM). El ciclo de exportación/puesta en marcha/validación es un objetivo de prueba, no un "algún día".
  • Interfaz estable: Los equipos de producto se comunican con la inferencia a través de una única API (REST compatible con OpenAI o gRPC interno). No hay SDKs de proveedores en el código del producto. Inserte el enrutamiento para que pueda conmutar por error o "disparar" a capacidad alternativa sin tocar la lógica de negocio.
  • Evaluaciones comparativas: Su arnés de evaluación se ejecuta contra todos los *stacks* compatibles e informa la latencia, el costo por tarea exitosa y las deltas de calidad. Un modelo que no puede moverse es un riesgo; un modelo que se mueve pero se degrada sin que usted lo note es una responsabilidad.

"Pero nuestras operaciones son únicas." Bien, pruébelo, no lo aísle

Encontrará *edges* no portables: operaciones personalizadas, *kernels* fusionados, peculiaridades del *tokenizer*. Eso no es un argumento en contra de la portabilidad; es una lista de PENDIENTES. Envuelva en adaptadores. Documente lo que no se exporta. Rastree cuánto de su *throughput* depende de operaciones no estándar. Cuando el mercado cambie —y lo hará—, poder moverse en su mayor parte, con brechas conocidas, sigue siendo una ventaja.

Un pequeño ejemplo (el punto clave en ~30 líneas)

Su aplicación llama a un *endpoint* familiar; las operaciones deciden dónde aterriza.

# vLLM with an OpenAI-compatible server
pip install vllm
python -m vllm.entrypoints.api_server --model your/model --host 0.0.0.0 --port 8000
# application code (stays the same if you swap runtimes)
import os, requests
url = os.getenv("INFERENCE_URL", "http://localhost:8000/v1/chat/completions")
payload = {"model":"your/model", "messages":[{"role":"user","content":"Summarize this policy."}]}
print(requests.post(url, json=payload, timeout=10).json()["choices"][0]["message"]["content"])

Mañana usted apunta INFERENCE_URL a un servicio respaldado por TensorRT-LLM o a un *endpoint* gestionado; el código del producto no cambia. Acaba de comprarse opciones.

---

II. Proximidad: En el dispositivo y en el *edge* como una elección de diseño de primera clase

Ejecutar inteligencia cerca del usuario no es un truco; es una característica con tres beneficios insustituibles:

  • Latencia que un viaje de ida y vuelta no puede igualar (texto sub-parpadeo, transformaciones en tiempo real).
  • Privacidad por localidad (los datos sensibles nunca abandonan el dispositivo).
  • Resiliencia cuando la conectividad es mala o los límites regulados bloquean el uso de la nube.

El panorama en el dispositivo es una realidad ahora

Apple Core ML

Core ML ahora apunta explícitamente a cargas de trabajo generativas: *transformers* con estado, compresión avanzada y ejecución eficiente de operaciones de *transformer*. La propuesta para desarrolladores es clara: ejecute completamente en el dispositivo para obtener capacidad de respuesta y privacidad. Si usted distribuye a iOS/macOS y no está explorando este camino para al menos algunas tareas (resumir, redactar, clasificar), está pagando de más por los viajes de ida y vuelta.

Las notas de investigación de Apple sobre los *Foundation Models* señalan la huella elegida por la compañía para las tareas en el dispositivo (operaciones de texto pequeñas, fiables y de "calidad de producción") y la intención de mantener esas experiencias rápidas y contenidas en el silicio de Apple. Traducción para un CTO: espere rutas rápidas para LLMs compactos y *hooks* oficiales que no se romperán anualmente.

Android AICore + Gemini Nano

El servicio AICore de Google expone Gemini Nano —el modelo general más pequeño de Google— para tareas en el dispositivo a través de las APIs de ML Kit GenAI. Eso significa que puede enviar flujos de resumen/reescritura/clasificación que se ejecutan sin conexión y respetan los límites de datos locales. Esto no es una demostración de conferencia; es una superficie de plataforma documentada. Si ya está utilizando ML Kit, este camino tiene sorprendentemente poca fricción.

Un cambio más trascendental: NNAPI, la venerable API de aceleración introducida en Android 8.1, está deprecada a partir de Android 15; Google proporciona una guía de migración. Para muchos equipos, esto significa menos *plumbing* directo de NNAPI y más dependencia de servicios de sistema de nivel superior (AICore, rutas de *runtime* Lite) o proveedores de *frameworks*. Planifique su trabajo de deprecación; no se despierte sorprendido.

WebGPU (el cliente ligero aprende nuevos trucos)

En el navegador, WebGPU alcanzó el estado de Recomendación Candidata, con el W3C invitando a implementaciones y publicando borradores CR continuos hasta finales de 2025. Esto no es solo alarde de gráficos, desbloquea la computación práctica de GPU en el *sandbox* web: extracción de características del lado del cliente, matemáticas vectoriales, tokenización e inferencia de modelos pequeños sin pasos de instalación. El "cliente ligero" está obteniendo un verdadero motor matemático.

Eligiendo la línea de corte: ¿qué se ejecuta dónde?

Una regla simple y duradera: el primer *token* localmente si ayuda a la experiencia, síntesis pesada donde el costo y el contexto son abundantes. En la práctica:

  • Digno de dispositivo: redacción/preclasificación; resúmenes de vista previa; transformaciones sensibles a la privacidad; UX de "primer *token*"; modos de *fallback*.
  • Servidor o *edge*: síntesis de contexto largo, razonamiento multidocumento, enriquecimiento por lotes, cualquier cosa que requiera *corpora* entre usuarios.

Instrumente ambos lados. Si una ruta de dispositivo tiene un rendimiento inferior, lo verá en su tiempo hasta el *token* útil y la calidad de finalización bajo métricas de baja señal.

Notas de ingeniería que agradecerá más tarde

  • Versionado de modelos por objetivo: Mantenga *builds* para (servidor, Apple, Android, WebGPU) con pasos de conversión y cuantificación por objetivo en CI. Mida la desviación de calidad; no asuma que un modelo de servidor de 8 bits y un modelo de dispositivo de 8 bits se comportan de la misma manera.
  • Los *pipelines* respetan la privacidad por defecto: Si puede realizar filtrado de PII, redacción o clasificación temprana en el dispositivo, hágalo, y registre esa elección en sus *model cards*. Los clientes lo notan. Los auditores lo notan más.
  • El *edge* no es "solo otra región". Espere invalidación de caché y estados de características parciales. Construya *probes* de salud explícitas para rutas de dispositivo/*edge* para que el producto no se degrade silenciosamente.

---

III. Procedencia: De "No me raspees" a Linaje Verificable

No puede liderar un programa de IA en 2026 a menos que pueda responder, con recibos: ¿De dónde provienen estos datos? ¿Qué se nos permite hacer con ellos? ¿Qué emitimos y cómo lo probamos? Los calendarios ya no son abstractos.

El reloj regulatorio es explícito

  • La Ley de IA de la UE entró en vigor el 1 de agosto de 2024. Las reglas de uso prohibido y los deberes de alfabetización en IA entraron en vigor el 2 de febrero de 2025. Las obligaciones de IA de propósito general se hicieron aplicables el 2 de agosto de 2025. Las reglas de sistemas de alto riesgo se extienden a lo largo de 2026–2027 (con productos regulados incrustados con un plazo adicional hasta 2027). Si usted opera en la UE o vende a la UE, sus obligaciones no son hipotéticas. Tienen fecha.
  • Los plazos de la comunidad se alinean: rastreadores independientes resumen la aplicación escalonada: 12 meses después de la entrada en vigor para GPAI, 24–36 meses para clases de alto riesgo. Úselos para verificar la coherencia de su plan interno.
  • Las normas armonizadas (las formas prácticas y comprobables de demostrar el cumplimiento) están retrasadas y pueden tardar hasta ~3 años desde la solicitud hasta la publicación. CEN/CENELEC han discutido públicamente medidas de aceleración, pero incluso con procedimientos de vía rápida, la finalización y la "presunción legal de conformidad" a través de la publicación en el Diario Oficial se retrasarán. Planifique cumplir con los principios antes de que las normas lo salven.
Traducción operativa: Construya su propio rastro de evidencia ahora; no espere a que llegue una lista de verificación armonizada.

La respuesta de la cadena de suministro: credenciales de contenido C2PA

Para el linaje de medios y documentos, la especificación C2PA le brinda una forma concreta de adjuntar credenciales de contenido —manifiestos firmados criptográficamente que viajan con los activos—. La versión 2.2 (mayo de 2025) ajustó mecánicas importantes: manifiestos de actualización, modos de vinculación, semántica de redacción. Si su producto ingiere o emite texto, imágenes, audio o video a escala, planifique C2PA tanto para la entrada (señales de confianza) como para la salida (declaraciones transparentes).

Un buen modelo mental: un JPEG con pasaporte. Cada transformación deja un sello. Cuando un cliente, un socio o un regulador pregunta "quién hizo esto y cómo", usted tiene más que un registro: tiene una historia incrustada verificable.

Una columna vertebral de procedencia mínima que puede implementar en un *sprint*

  • Registro de Derechos de Datos: Para cada *corpus* —base de licencia (contrato/términos/estatuto), usos permitidos (entrenar/*fine-tune*/recuperar), geocercado, ventanas de retención, contacto para volver a solicitar permiso. Los trabajos de ingesta consultan el registro antes de ejecutarse.
  • *Model & Prompt Cards*: Ha visto los documentos; trátelos como documentos operativos vivos. Registre el uso previsto, la configuración de evaluación y los límites conocidos. Son tediosos solo hasta que alguien pregunta. Entonces son oxígeno.
  • Credenciales en E/S: Adjunte manifiestos C2PA a los activos que emite; preserve los manifiestos en los activos que ingiere; valide y muestre la confianza en su UI. Esto es más que cumplimiento: sus usuarios comenzarán a esperarlo donde el riesgo de contenido es alto.

---

IV. El programador como arquitecto de la ejecución

Intención hecha ejecutable

Programar no es código; programar es intención hecha ejecutable. Nos situamos entre el deseo nebuloso de un humano y el literalismo despiadado de una máquina, traduciendo "haz que destaque pero que sea profesional, atrevido pero seguro" en una coreografía que un coro de silicio puede realmente cantar. El código es el fósil de esa traducción: la partitura después de que la melodía ya se ha instalado en su cabeza. La ejecución es el punto. El código es el sedimento que deja atrás.

Entonces llegó el remate: los modelos de lenguaje grandes prefieren la prosa.

Después de décadas de reducir el lenguaje a *tokens*, palabras clave, bucles —hablando a las máquinas como monjes del minimalism—, las máquinas ahora se comportan como si quisieran la novela completa, por favor. Contexto en capas. Redundancia. Pistas y matices e intención implícita. El péndulo osciló de "lenguaje formal" a "lenguaje performativo", y la sorpresa no es que se haya movido; la sorpresa es que se mueve de un lado a otro. No estamos evolucionando lejos del código tanto como oscilando entre polos: accesibilidad y determinismo, fluidez y formalidad, "todos pueden lanzar" y "nadie entiende lo que se lanzó".

Los *prompts* no son mejores que el código, y el código no es más noble que los *prompts*. Simplemente se sitúan en diferentes coordenadas:
  • *Prompts*: accesibles, expresivos, con mucho contexto, pero probabilísticos. Usted obtiene una distribución, no una garantía.
  • Código: exigente, frágil para los recién llegados, pero determinista. Usted obtiene la misma salida para la misma entrada, o presenta un *bug*.

Si le gusta un término nuevo que no debería existir, llame a un LLM un *compilador probabilístico*: mapea una especificación imprecisa, de tamaño humano, a un artefacto preciso la mayor parte del tiempo. Cuando falla, falla con confianza. La técnica de depuración no es *printf* sino cirugía de *prompts*, arneses de evaluación y *guardrails*. Herramientas diferentes, mismo trabajo: usted sigue siendo el guardián de la intención.

Para ser claros: los LLMs no reemplazan a los programadores más de lo que lo hicieron los compiladores o los IDEs. Amplían la apertura, cambian la economía y generan una nueva clase de modos de falla. Lo que queda es el juicio: qué debería existir, qué es seguro que exista y qué firmaremos cuando los auditores pregunten cómo llegó a existir.

Verificación de la realidad: el costo energético de la inferencia

Las unidades importan. También los datos nuevos.

  • La lente correcta es la energía por consulta (vatios-hora, Wh), no una afirmación bruta de "vatios". Estimaciones recientes y metódicas sitúan los *prompts* de texto típicos de LLM en el orden de ~0.24–0.34 Wh por consulta para sistemas optimizados y de uso generalizado, con la estimación independiente de Epoch AI para GPT-4o en torno a ~0.3 Wh.
  • Cifras anteriores, mucho mayores (multi-Wh), circularon —algunos análisis y resúmenes de prensa citaron ~2.9–3 Wh e incluso más—, pero estas se consideran cada vez más sobreestimaciones para las implementaciones actuales y optimizadas; la dispersión refleja diferentes metodologías, *hardware* y cargas de trabajo.
  • En comparación, una computadora portátil típica bajo uso normal a menudo consume ~30–70 vatios (potencia, no energía), con los *ultrabooks* modernos en reposo en vatios de un solo dígito y alcanzando picos más altos bajo carga. Eso es un consumo del dispositivo, no una cifra de energía por consulta, pero es un contexto útil cuando la gente compara casualmente "un *prompt*" con "mi computadora portátil".
El remate: Un *prompt* de texto de LLM típicamente cuesta una fracción de un vatio-hora (aproximadamente unos pocos segundos de una bombilla de 60W), aunque varía con el tamaño del modelo, la longitud del *prompt*, el *hardware* y la eficiencia del centro de datos. Usar lenguaje natural a escala no es gratis; mueve la computación de su computadora portátil al centro de datos. Pero el costo por consulta para sistemas optimizados ha caído muy por debajo de un vatio-hora, y sigue disminuyendo a medida que mejoran los *runtimes*, el *hardware* y el *batching*.

Lo que hacen los programadores ahora (lo mismo de siempre, solo que más fuerte)

Continuamos aclarando la intención y restringiendo la ejecución. Decidimos si una característica pertenece al espacio del lenguaje humano (cadenas de *prompts*) o al espacio del código (funciones deterministas). Escribimos evaluaciones para que el modelo sea calificado antes de su lanzamiento. Anotamos datos para la procedencia para que un futuro regulador pueda rastrear nuestros pasos. Diseñamos *fallbacks* para que el producto siga siendo útil cuando el lado probabilístico falla. Y aceptamos la responsabilidad por el comportamiento del sistema, incluidas las partes generadas por algo que, estrictamente hablando, no puede desear nada en absoluto.

Cuando se elimina la novedad, la forma del trabajo persiste: terapia para computadoras, a escala. Usted se sienta en el espacio liminal donde la solicitud humana se negocia en algo que una máquina puede realmente hacer, sabiendo que el mapa (código, *prompt*, evaluación) nunca es el territorio (ejecución), y que su oficio no está en el artefacto sino en la alineación entre ambos.

> Los programadores son arquitectos de la ejecución. > El código y los *prompts* son ambos andamiajes. El trabajo es materializar la intención con garantías que el negocio pueda firmar. Donde las garantías importan más, mantenga el determinismo. Donde la exploración importa más, deje que la probabilidad respire. Luego, suelde ambos con pruebas, esquemas y evaluaciones.

---

V. Uniendo los tres

Puede ver la portabilidad, la proximidad y la procedencia como programas separados; en realidad son un triángulo de agencia:

  • La portabilidad le permite moverse libremente cuando los precios, la política o el rendimiento cambian.
  • La proximidad brinda a los usuarios velocidad y privacidad que simplemente no se pueden simular del lado del servidor.
  • La procedencia le da permiso para operar, y los recibos para probarlo.

Omita cualquier pata, y las otras dos cojearán. Un *stack* portable que no puede probar el linaje es solo un riesgo movible; una experiencia privada en el dispositivo que no puede exportar modelos o cambiar *runtimes* es un callejón sin salida local; una procedencia perfecta en un *stack* que no puede dirigir es una confesión costosa.

---

VI. Un 30-60-90 que realmente puede ejecutar

Días 1–30: Haga que la "salida" sea real

  • Implemente verificaciones de exportación de modelos (por ejemplo, ONNX) en CI para sus tres modelos principales.
  • Establezca una ruta de *serving* en la sombra (vLLM) que refleje su API de producción actual. Enrute el 1% del tráfico de evaluación; compare latencia/$/calidad.
  • Publique un contrato de API de inferencia. Prohíba los SDKs de proveedores en el código del producto. Proporcione una biblioteca *shim* si es necesario.

Días 31–60: Lance la proximidad

  • Identifique dos candidatos en el dispositivo (sensibles a la privacidad o a la latencia).
  • Para Apple: conversión + cuantificación + evaluación de Core ML; para Android: use AICore / ML Kit GenAI donde sea posible. Lance una característica por plataforma. Mida el tiempo hasta el *token* útil y la corrección fuera de línea.
  • Agregue un experimento de WebGPU en el navegador (tokenización/matemáticas vectoriales). Actívelo detrás de un *feature flag*.

Días 61–90: Cierre el ciclo de procedencia

  • Establezca el Registro de Derechos de Datos y conecte los trabajos de ingesta a él.
  • Comience a adjuntar credenciales de contenido C2PA a las salidas de al menos un *pipeline* de medios; registre la validación en la ingesta.
  • Mapee sus casos de uso a la línea de tiempo de la Ley de IA de la UE (las obligaciones de GPAI ya están en vigor desde el 2 de agosto de 2025; las prohibiciones desde el 2 de febrero de 2025; alto riesgo 2026–2027). Informe al equipo ejecutivo con el plan fechado.

---

VII. Bocetos de arquitectura

A. *Serving* Portable

+------------------+                      +-----------------+
App code ->| Inference Client |---- OpenAI REST ---> |  vLLM Cluster   |
           +------------------+                      +-----------------+
same contract alt path
v v (Managed Endpoint) (TensorRT-LLM)

El contrato es el producto; el motor es un detalle de implementación.

B. División por Proximidad

[Device]                                  [Edge/Cloud]
   PII filter / redact (LLM-small)         Long-context synth / retrieval
   First-token hint / preview              Batch enrichment / orchestration
   Offline summarize / classify            Global signals / cross-user graphs

C. Ciclo de Procedencia (C2PA)

Ingest Asset -> Verify Manifest -> Store + Surface Trust
             -> Transform -> Update Manifest -> Emit with Credentials

Cada flecha es código que puede escribir este *sprint*. Cada caja reduce el tiempo de auditoría más adelante.

---

VIII. Riesgos y asperezas (para que planifique, no entre en pánico)

  • Brechas de ONNX: No todas las operaciones de vanguardia se exportan limpiamente; mantenga un mapa de operaciones personalizadas/fusionadas y sus *fallbacks*. Su CI debería fallar ruidosamente cuando las exportaciones derivan.
  • Cambios en AICore/NNAPI: La migración de Android lejos del uso directo de NNAPI significa que la lógica de su aplicación debería preferir APIs de nivel superior; pruebe en todas las generaciones de dispositivos. Presupueste tiempo de migración ahora; no lo descubra durante su congelación de vacaciones.
  • Variabilidad de WebGPU: Es una Recomendación Candidata con borradores activos; el soporte de características evoluciona. Mantenga una ruta de degradación elegante y verificaciones de capacidades.
  • Retraso en los estándares de la Ley de IA de la UE: No espere a que los estándares armonizados lo "rescaten". Construya sus propios controles (hojas de datos, *model cards*, arnés de evaluación, credenciales de contenido) y actualícelos a medida que CEN/CENELEC publique. Espere que los estándares lleguen después de que algunas obligaciones se apliquen.

---

IX. Por qué esto importa más que el *hype*

Porque estas tres palancas operan principalmente en la oscuridad. No encabezan su blog de lanzamiento. Evitan que sus equipos, presupuestos y ética sean silenciosamente acorralados por el éxito: el estado feliz donde el uso se duplica, una jurisdicción se endurece, un descuento en la nube expira, una generación de dispositivos se lanza, y sus hermosas demostraciones se encuentran con las aburridas restricciones del mundo. Si ha hecho de la portabilidad, la proximidad y la procedencia una rutina, puede ajustarse sin drama.

Si no lo ha hecho, la factura llega —en cartas legales, en facturas sorpresa de GPU, en reseñas móviles que dicen "se siente lento", en reuniones donde explica por qué un modelo que solía costar centavos ahora cuesta dólares y no puede moverse.

Hay un tono en el buen liderazgo de ingeniería que es parte profesor, parte novelista. Los profesores insisten en las pruebas; los novelistas rastrean causa y efecto a través de personajes que mienten y cambian. Trate sus modelos, *runtimes*, dispositivos y documentos como personajes en una historia con consecuencias. Guarde los recibos. Guarde las salidas. Mantenga el trabajo cerca de las personas a las que sirve.

Entonces el resto —características, campañas, cartas trimestrales— sigue siendo lo que debería ser: una superficie visible sobre un sistema que sabe cómo moverse.

---

Referencia rápida

Estándares y especificaciones

  • Ley de IA de la UE – Usos prohibidos (Feb 2025), GPAI (Ago 2025), Alto riesgo (2026–2027)
  • C2PA 2.2 – Credenciales de contenido con manifiestos de actualización y modos de vinculación
  • ONNX – Formato de intercambio de modelos y catálogo de operadores
  • WebGPU – Recomendación Candidata del W3C para computación GPU en navegador

*Runtime* y herramientas

  • vLLM – *Serving* de alto rendimiento compatible con OpenAI
  • TensorRT-LLM – Inferencia LLM optimizada para NVIDIA
  • Core ML – ML en dispositivo de Apple con soporte generativo
  • AICore / Gemini Nano – GenAI en dispositivo Android a través de ML Kit

Métricas clave

  • Energía por consulta: ~0.24–0.34 Wh para inferencia LLM optimizada
  • Cobertura de exportación de modelos: % de modelos de producción con ONNX + validación multi-*runtime*
  • Cobertura de procedencia: % de E/S con credenciales C2PA adjuntas/validadas