IA Highlights – Tu editor automático de mejores momentos

Sistema de inteligencia artificial que toma programas largos (streams, radios, TV, podcasts)
y genera en forma automática un video de mejores momentos de 5 a 10 minutos,
listo para publicar en YouTube, Shorts, Reels o TikTok.
Núcleo propio entrenado con contenido real en español argentino: risas, debates, bardo,
silencios tensos y momentos emocionales.

🧠

¿Qué hace nuestro sistema?

Analiza automáticamente playlists enteras de YouTube: horas de contenido sin que nadie tenga que mirar nada.
Transcribe el audio con modelos Whisper acelerados por GPU (CUDA / RTX).
Detecta picos de energía, cambios de tono, gritos, risas, aplausos y tensión en el programa.
Reconoce jerga argentina y expresiones típicas (“boludo”, “posta”, “qué locura”, “nooo”, etc.).
Permite definir palabras y frases clave configurables en un archivo keywords.txt para encontrar momentos muy específicos.
Incluye un buscador de frases: escribís una palabra y la IA te lleva directo al punto del video donde se dice.
Detector de invitados por rostro: subís una foto (ej: un músico, deportista, actor) y el sistema ubica en qué parte del programa aparece.
Detector de música / sonidos: usás un archivo audio_ref.wav como referencia y la IA encuentra dónde suena algo similar (canciones, jingles, bocinas, etc.).
IA emocional propia: entrenada para identificar risas, discusiones, peleas, momentos épicos y silencios dramáticos.
Corta automáticamente los momentos con mayor puntaje (energía, emoción, relevancia de texto y audio).
Genera un video final de mejores momentos, concatenado, limpio, listo para publicar.
Módulo SEO (en desarrollo): sugiere títulos, descripciones y tags optimizados para que sólo tengas que aprobar y publicar.

⚙️

¿Cómo funciona internamente?

yt-dlp: obtiene la playlist y descarga sólo el audio necesario de cada video (sin bajar todo el MP4 completo).
Whisper GPU: transcripción acelerada en español argentino.
Análisis de energía: calcula picos de volumen, intensidad y dinámica para detectar emoción.
Análisis semántico: combina palabras internas del sistema con las que definas en keywords.txt.
Match de audio: compara el contenido del video con audio_ref.wav para encontrar canciones o sonidos específicos.
Detector de rostro: compara la cara de la foto que subís con frames del video para localizar invitados.
Score de segmento: cada pedacito recibe un puntaje según energía, texto, duración y coincidencias de audio/rostro.
Selección automática: el sistema elige los mejores segmentos hasta completar un resumen de 5–10 minutos.
Descarga de clips: sólo se bajan los segundos elegidos, no el programa entero (ahorro de tiempo y disco).
FFmpeg: ensambla todos los clips en un único MP4 final con calidad profesional.
Caché inteligente: si volvés a procesar la misma playlist, reutiliza lo ya analizado y sólo calcula lo nuevo.
Limpieza automática: una vez que confirmás que el resultado está OK, borra los “pedacitos basura” y archivos temporales.

💰

Ahorro real de tiempo y dinero

¿Cuánto tarda un editor humano en un solo clip?

Ver el video: 15 a 30 minutos.
Encontrar un momento útil: 10 a 20 minutos.
Recortar y ajustar: 10 minutos.
Subtitular: 20 a 40 minutos.
Exportar y revisar: 5 a 10 minutos.

Total promedio: 1 a 2 horas por clip.
Costo por clip: 10 a 40 USD.
Compilado largo: 50 a 150 USD sólo en edición.

¿Cuánto tarda nuestra IA?

Detectar la sección: 1 a 3 segundos.
Cortar el clip: 1 segundo.
Subtítulos automáticos (opcional): 5 a 20 segundos.
Exportar dentro del compilado: 5 segundos.

Total: 10 a 40 segundos por clip.
Costo: centavos en infraestructura (GPU / servidor) en lugar de horas de trabajo humano.

Este nivel de automatización no existe hoy en el mercado global, menos aún optimizado para contenido hispanohablante.

🔥

Módulos avanzados: emociones, invitados y SEO

Detección de emociones: identifica risas, peleas, discusiones, tensión, bardo y momentos épicos de reacción.
Búsqueda por invitado: subís una foto y el sistema localiza todos los tramos donde aparece esa persona.
Detección de música / sonidos: encuentra dónde suena una canción, jingle o efecto usando un audio de referencia.
Motor de títulos y SEO (roadmap): generación automática de títulos llamativos, descripciones y tags optimizados para CTR.
Modo “publicar ya”: la idea final es que el usuario sólo elija la playlist, revise el resumen y apriete “publicar”.

🌍

Potencial del proyecto