Documentación Oficial del Proyecto
OZD Multimodal Engine™
Esta es la “Biblia del Proyecto” creada por Oscar Zalazar para documentar
la visión, la arquitectura técnica y el roadmap del sistema de IA que detecta y construye momentos virales
a partir de contenido audiovisual largo.
El proyecto OZD combina un algoritmo viral propio (OZD Viral Scoring™) con un motor
multimodal (OZD Multimodal Engine™) que entiende audio, texto, emoción y, en su roadmap,
señales visuales humanas para detectar escenas virales listas para publicar.
📌 Activos Clave del Proyecto
Propiedad Intelectual
OZD 3-Factor Viral Scoring™
OZD 5-Factor Viral Scoring™ (evolución)
Algoritmos originales de scoring viral que combinan audio, lenguaje y emoción.
Motor Multimodal
OZD Multimodal Engine™
Arquitectura por capas: escenas, audio, texto, emoción vocal y visión (roadmap).
Producto en marcha
MVP Técnico V23
Sistema funcional que procesa playlists, genera candidatos, selecciona clips y crea un
video final de mejores momentos.
🟢 Estado Actual del Sistema · MVP V23
Versión técnica actual
La versión V23 del sistema implementa un MVP sólido, capaz de:
- Descargar playlists de YouTube y procesar horas de contenido.
- Aplicar el algoritmo OZD 3-Factor Viral Scoring™:
energía de audio, keywords y emoción textual básica. - Generar miles de candidatos (micro-momentos) por playlist.
- Rankear, seleccionar y ensamblar automáticamente clips en calidad fuente (hasta 1080p/4K según el material).
- Evitar solapamientos, mejorar cierres de frase y producir un MP4 final con
“mejores momentos” + un JSON emocional explicable.
Nota: La V23 está diseñada como MVP de producción a nivel backend/engine. Las capas multimodales
avanzadas (voz quebrada explícita, visión, etc.) forman parte del roadmap del OZD Multimodal Engine™.
🧠 Algoritmo OZD Viral Scoring™
Cálculo original de viralidad
El algoritmo OZD 3-Factor Viral Scoring™ es la fórmula original creada por Oscar Zalazar
para cuantificar el potencial viral de un momento de video a partir de tres factores:
Factor 1 — Energía de audio
Analiza la intensidad de la voz (RMS), cambios bruscos, picos de volumen y variaciones
de ritmo. Es la señal de “pasa algo”: enojo, sorpresa, emoción fuerte, risa, tensión.
Factor 2 — Palabras clave y jerga
Detecta palabras con peso emocional, expresiones típicas, jerga local (especialmente en español)
y frases icónicas. Es la capa de relevancia cultural y de “frase compartible”.
Factor 3 — Intensidad emocional del texto
Evalúa el contenido textual del segmento (transcripción) para estimar su carga emocional:
confesiones, tensión, vulnerabilidad, humor, giros dramáticos.
A partir de estos factores se calcula un score viral entre 0 y 1, que permite ordenar los segmentos
desde los más intensos y compartibles hasta los más neutros.
Evolución: OZD 5-Factor Viral Scoring™
La evolución natural del algoritmo expande los 3 factores originales hacia un modelo de 5 factores,
integrando análisis vocal y señales visuales:
- Factor 1: Energía de audio (RMS)
- Factor 2: Palabras clave, jerga, frases virales
- Factor 3: Intensidad emocional del texto (NLP avanzado)
- Factor 4: Emoción vocal (voz quebrada, nervios, euforia, tensión)
- Factor 5: Señales visuales humanas (lágrimas, risas, microgestos faciales, fails)
Esta ampliación convierte el algoritmo OZD en un sistema de scoring viral multimodal, difícil de replicar
solo con scripts básicos de audio o texto.
🚀 OZD Multimodal Engine™ · Roadmap por Capas
Arquitectura conceptual del sistema completo
El OZD Multimodal Engine™ es el nombre del sistema completo que integra audio, texto, emoción
y visión en varias capas. Este roadmap describe la evolución prevista del motor.
🟦 Capa 1 — Comprensión de escenas
- Segmentación por eventos: detectar inicios y cierres naturales de escenas.
- Ritmo narrativo: pausas significativas, aceleraciones y cambios de tono.
- Agrupación de micro-momentos: risas, silencios incómodos, reacciones encadenadas.
🟧 Capa 2 — Análisis multimodal humano
- Voz quebrada y microtemblores vocales.
- Tono emocional de la voz: vulnerabilidad, enojo, vergüenza, alivio, euforia.
- Microgestos faciales: cejas, labios, mirada, postura.
- Detección de lágrimas y ojos húmedos.
- Risas genuinas vs. risas nerviosas.
- Fails humanos: gestos incómodos, errores, momentos inesperados (ej. “se saca un moco en vivo”).
🟩 Capa 3 — Inteligencia viral
- Detector de punchline: remates, frases lapidarias, giros de guion.
- Memoria narrativa: entender el contexto que viene antes y después del momento.
- Doble sentido y humor sutil: sarcasmo, ironía, picante.
- “Wow Moment” Detector: momentos universales que invitan a compartir.
🟥 Capa 4 — OZD Viral Scoring™ V2
Integración de los 5 factores (audio, lenguaje, emoción textual, emoción vocal, señales visuales) en un
único score viral ponderado, configurable según tipo de cliente (humor, entrevistas, contenido educativo, etc.).
🟪 Capa 5 — Armado automático del clip viral
- Definición automática del inicio de la escena (donde empieza la historia).
- Definición del final (remate, reacción, cierre emocional).
- Extensión cuando hay reacciones posteriores valiosas.
- Preparación del clip para formatos verticales (TikTok, Reels, Shorts).
🟨 Capa 6 — OZD ViralNet™ (modelo especializado)
- Entrenamiento de un modelo propio especializado en momentos virales en español.
- Fine-tuning con el histórico de clips generados y validados por usuarios.
- Consolidación de una PI fuerte y diferenciadora frente a competidores.
🤝 Narrativa para Cofundador Técnico
Mensaje base (no es un pitch final, es un eje narrativo)
“Construí un motor de IA que ya procesa playlists completas, detecta miles de micro-momentos y genera
mejores momentos automáticos en calidad fuente. Ese motor se llama OZD Multimodal Engine™ y
su corazón es el algoritmo OZD Viral Scoring™, una fórmula propietaria de 3 (y próximamente 5)
factores que combinan audio, lenguaje y emoción.
El MVP V23 ya existe y funciona. Lo que busco ahora es un cofundador técnico que me ayude a:
- Escalar este engine a la nube (microservicios, colas de trabajo, GPUs cuando haga falta).
- Implementar las capas avanzadas del roadmap multimodal (voz quebrada, visión, modelo propio).
- Convertir este motor en un SaaS para creadores, agencias y medios que publican video largo.”
💸 Narrativa para Inversores
Problema · Solución · Diferencial
Problema
- El cuello de botella no es la grabación, es la edición.
- Horas de entrevistas, podcasts y streams quedan sin explotar porque no hay tiempo humano.
- Las soluciones actuales de recorte automático no entienden emoción ni escenas, solo bloques de audio o texto.
Solución
- Un motor de IA que analiza audio, lenguaje y emoción para encontrar momentos virales.
- Un algoritmo de scoring propio (OZD Viral Scoring™) y una arquitectura multimodal extensible.
- Un producto que entrega compilados de mejores momentos listos para revisión, publicación o re-edición.
Diferencial
- Especialización en video largo en español.
- PI real: algoritmo propio, nombre, fórmula y roadmap claros.
- Visión multimodal: la viralidad no solo está en las palabras, sino en la voz, el gesto y la escena completa.
- Evolución hacia modelo propio (OZD ViralNet™).
☁️ Narrativa para Programas tipo Google Cloud, incubadoras y apoyo IA
El proyecto OZD se alinea perfectamente con los criterios de programas de apoyo a startups de IA:
- Uso intensivo de IA: audio, NLP y visión (roadmap) para resolver un problema real de la economía de creadores.
- Escalabilidad en nube: procesamiento de playlists y colas de jobs de video largo, ideal para infra en GCP/AWS.
- Enfoque en producto: no es solo un modelo de IA, sino un servicio listo para integrar en flujos de trabajo de edición.
- Mercado global: millones de creadores de contenido en español, agencias, medios y podcasters.
🔑 Resumen Final
El proyecto OZD combina:
- Una idea original: algoritmo de viralidad multimodal específico para video largo en español.
- Un MVP técnico ya funcional (V23) que procesa playlists reales y genera resultados concretos.
- Una arquitectura clara de futuro: OZD Multimodal Engine™ con capas bien definidas.
- Una identidad de PI sólida: OZD Viral Scoring™, OZD Multimodal Engine™ y, a futuro, OZD ViralNet™.
Bienvenidos =)