Roadmap Oficial – OZD Multimodal Viral Engine™
Roadmap OZD Engine V23 → V40 con Fechas Estimadas
Plan de evolución del OZD Multimodal Viral Engine™ desde la versión V24 hasta la V40,
incorporando la nueva etapa de Estimulación Viral Temprana y asignando
ventanas de entrega estimadas entre Enero 2026 y Octubre 2028.
Punto de partida histórico: V23 – MVP funcional (2025).
Este roadmap comienza en V24 – Enero/Febrero 2026 y distribuye las versiones
en ciclos de aproximadamente 2 meses, con un horizonte total estimado de entre 24 y 36 meses.
Las fechas son orientativas: si las metas se logran antes, es un éxito, no un problema.
Timeline detallado por versión (V24 → V40)
- Definición formal de la arquitectura modular del engine (audio, texto, visión, emoción, scoring, clips).
- Separación en módulos independientes: ingest, transcript, emotion, scoring, clips, export.
- Diseño de estructura de proyectos numerados y almacenamiento ordenado por run (project_00001, etc.).
- Documentación base para escalabilidad futura (monolito local → microservicios / cloud).
Base técnica sólida
- Transcripción automática de audio a texto con Whisper (segmentos con timestamps).
- Análisis emocional inicial sobre texto: keywords, intensidad, tags básicos.
- Primer motor de Viral Scoring 1.0 basado en emoción + longitud + impacto textual.
- Generación de clips automáticos usando FFmpeg a partir de segmentos y scores.
Primer engine “piensa y corta”
- Integrar análisis de lenguaje natural en español (segmentación en oraciones e ideas completas).
- Corrección ligera de transcripciones: puntuación, frases enteras, mejor legibilidad.
- Transformar segmentos crudos de audio en “bloques semánticos” (unidad de idea, no solo segundos).
- Preparar estos bloques como insumo directo para emoción, narrativa y cortes más humanos.
- Panel de revisión humana (local-first): interfaz previa a exportación con reproductor y previsualización de clips.
- Línea de tiempo por video: una pista por cada video de la playlist, con marcadores de clips seleccionados.
- Clips clickeables: selección directa desde la timeline para ver/escuchar cada clip.
- Ajuste fino por usuario: modificar inicio/fin (± segundos), reordenar o eliminar clips antes del render.
- Clip List estructurada: IDs + video origen + timecodes; reexportar solo clips modificados.
- Aprobación explícita: generar el
resumen.mp4final solo tras validación del usuario.
De segundos → a ideas
UX Review Layer
- Analizar tono, ritmo, pausas y energía de la voz (prosodia emocional).
- Mejorar el scoring emocional combinando texto + prosodia (risa, enojo, quiebre de voz, énfasis).
- Crear un modelo de “curva emocional” a lo largo del tiempo de cada video.
- Usar esta curva para mejorar la detección de picos de interés y momentos clave.
- Visual Emotion Timeline: clips marcados por color según tipo/emoción (gracioso, intenso, debate, enojo, pelea, etc.).
- Agrupadores por tono: marcadores con contador (ej. 🟧 4 clips graciosos) para selección en lote.
- Previsualización por grupo: ver y ajustar todos los clips de un mismo tono emocional.
- Timeline del compilado final: pista superior que muestra solo los clips aprobados por el usuario.
- Control de exportación: elegir entre clip individual o compilado final.
- Formatos de salida: Widescreen (horizontal) o Short/Reel con presets automáticos de resolución y ratio.
- Incorporar Early IEMC Layer: diccionario cultural–emocional editable (Excel/Sheets) con palabras y frases (ej. argentino/latam) mapeadas a múltiples significados emocionales según contexto, tono e intensidad.
- Agregar columna de probabilidad como peso cultural orientativo para ajustar el scoring emocional sin imponer decisiones.
Emoción hablada real
Early IEMC Layer
Visual Emotion Timeline
- Detectar gestos, reacciones y cambios de expresión facial básicos.
- Reconocer momentos de risa, sorpresa, impacto o tensión visual.
- Combinar estas señales visuales con audio y texto para refinar el score global.
- Empezar a entender cómo se ve un momento viral, no solo cómo suena o se lee.
- Generar señales visuales que alimenten la detección de picos y la curva emocional.
Emoción multimodal
- Modo Capturar Clips en Vivo: detectar picos emocionales durante el stream y crear markers sugeridos en tiempo real.
- Timeline en vivo con clips propuestos (OZD propone, el humano valida).
- Botón manual de Marca (streamer o moderador / Stream Deck) como señal editorial adicional.
- Post-VOD: usar los markers para generar clips precisos y listos para revisión/aprobación.
- Soporte inicial: YouTube Live (primera plataforma).
Copiloto editorial en vivo
- Exportación en vivo de clips (Short/Reel o Widescreen) con presets automáticos.
- Workflow rápido: detectar → proponer → aprobar → exportar (sin fricción).
- Soporte multiplataforma planificado: Twitch, Kick y otras.
- Infra/latencia: preparar el sistema para captura y procesamiento en tiempo real a escala (nivel premium).
PLUS / PREMIUM / PLATINUM
- Nuevo módulo clave: Estimulación Viral Temprana con Clips de Referencia.
- Crear compilados de ~30 minutos mezclando:
- Top 10 clips ultra virales mundialmente reconocidos.
- 10–20 clips normales / neutros sin nada especial.
- Obligar a la IA a:
- Encontrar los virales “escondidos” sin ayuda.
- Repetir el logro aunque cambiemos el orden del compilado.
- Aprender a descartar sistemáticamente momentos comunes.
- Usar este proceso como etapa previa antes de entrenar con miles de videos virales completos.
“Jardín de infancia” viral
- Adaptar el scoring viral a cultura, país, idioma y jerga (ej: castellano argentino).
- Incorporar modismos, humor, referencias culturales locales.
- Empezar a diferenciar qué es viral en una región pero no en otra.
- Crear perfiles de sensibilidad cultural para distintos mercados.
Contexto cultural
- Definir perfiles de audiencia: gaming, negocios, educación, entretenimiento, política, etc.
- Ajustar el tipo de highlight según la audiencia: humor, polémica, inspiración, aprendizaje.
- Permitir elegir “estilos” de selección de clips (agresivo, conservador, experimental).
- Conectar la IA con objetivos concretos de creador/marca.
Estilo por audiencia
- Construir un dataset masivo de videos virales, highlights etiquetados y metadatos de performance.
- Etiquetar manual y semiautomáticamente momentos clave: hook, remate, giro, reacción.
- Usar este dataset para refinar y reentrenar los modelos centrales del engine.
- Sentar la base para futuras versiones enterprise y modelos propietarios.
Datos a escala
- Lanzar una primera versión SaaS para creadores individuales (YouTube, Twitch, podcasters, etc.).
- Subida de videos o conexión con plataformas para generar highlights automáticos.
- Panel simple para revisar, aprobar o descartar clips sugeridos.
- Recolección de feedback real de usuarios para mejorar el engine.
Primer SaaS real
- Desplegar el engine como servicio en la nube con auto-escalado.
- Exponer una API REST para integraciones con otros sistemas y plataformas.
- Optimizar costos de cómputo (GPU/CPU) según carga y tipo de análisis.
- Preparar planes de uso para desarrolladores, agencias y partners.
Motor en la nube
- Adaptar el engine para grandes medios, canales de TV, radios y plataformas de streaming.
- Integración con workflows editoriales internos y sistemas de archivo.
- Soporte para volúmenes altos de contenido diario (noticias, programas, coberturas en vivo).
- Features de seguridad, permisos y multi-equipo.
Nivel medios grandes
- Escalar el SaaS a múltiples regiones (infraestructura global y latencias bajas).
- Internacionalización completa de la plataforma (idioma, monedas, soporte regional).
- Optimizar el engine para distintos tipos de conexión y hardware de usuario.
- Establecer partnerships con grandes plataformas y agencias globales.
Juego mundial
- Extender de castellano a múltiples idiomas (inglés, portugués, etc.).
- Adaptar la comprensión emocional y narrativa a cada idioma/cultura.
- Permitir analizar contenido viral multi-idioma en un mismo proyecto.
- Crear modelos específicos por región/idioma para mayor precisión.
Multi-idioma profundo
- Consolidación de todas las capas: audio, texto, visión, emoción, narrativa, cultura y audiencia.
- Motor capaz de emular el criterio de un editor humano profesional especializado en viralidad.
- Integración total con SaaS, API, enterprise y ecosistema de creadores.
- Base para futuras líneas de producto (analítica avanzada, generación guiada de contenido, etc.).
Visión OZD cumplida
Nota: todas las fechas y ventanas de entrega son estimaciones de planificación. El roadmap está diseñado para
tener un horizonte mínimo de 24 meses y máximo de ~36 meses desde V24 hasta V40. Cualquier
meta alcanzada antes del tiempo proyectado se considera un logro positivo que permite adelantar fases o
profundizar mejoras sin alterar la visión general del OZD Multimodal Viral Engine™.