IA entrenada para creadores, radios, TV y streamings
IA Highlights – Tu editor automático de mejores momentos
Sistema de inteligencia artificial que toma programas largos (streams, radios, TV, podcasts)
y genera en forma automática un video de mejores momentos de 5 a 10 minutos,
listo para publicar en YouTube, Shorts, Reels o TikTok.
Núcleo propio entrenado con contenido real en español argentino: risas, debates, bardo,
silencios tensos y momentos emocionales.
¿Qué hace nuestro sistema?
- Analiza automáticamente playlists enteras de YouTube: horas de contenido sin que nadie tenga que mirar nada.
- Transcribe el audio con modelos Whisper acelerados por GPU (CUDA / RTX).
- Detecta picos de energía, cambios de tono, gritos, risas, aplausos y tensión en el programa.
- Reconoce jerga argentina y expresiones típicas (“boludo”, “posta”, “qué locura”, “nooo”, etc.).
- Permite definir palabras y frases clave configurables en un archivo
keywords.txtpara encontrar momentos muy específicos. - Incluye un buscador de frases: escribís una palabra y la IA te lleva directo al punto del video donde se dice.
- Detector de invitados por rostro: subís una foto (ej: un músico, deportista, actor) y el sistema ubica en qué parte del programa aparece.
- Detector de música / sonidos: usás un archivo
audio_ref.wavcomo referencia y la IA encuentra dónde suena algo similar (canciones, jingles, bocinas, etc.). - IA emocional propia: entrenada para identificar risas, discusiones, peleas, momentos épicos y silencios dramáticos.
- Corta automáticamente los momentos con mayor puntaje (energía, emoción, relevancia de texto y audio).
- Genera un video final de mejores momentos, concatenado, limpio, listo para publicar.
- Módulo SEO (en desarrollo): sugiere títulos, descripciones y tags optimizados para que sólo tengas que aprobar y publicar.
¿Cómo funciona internamente?
- yt-dlp: obtiene la playlist y descarga sólo el audio necesario de cada video (sin bajar todo el MP4 completo).
- Whisper GPU: transcripción acelerada en español argentino.
- Análisis de energía: calcula picos de volumen, intensidad y dinámica para detectar emoción.
- Análisis semántico: combina palabras internas del sistema con las que definas en
keywords.txt. - Match de audio: compara el contenido del video con
audio_ref.wavpara encontrar canciones o sonidos específicos. - Detector de rostro: compara la cara de la foto que subís con frames del video para localizar invitados.
- Score de segmento: cada pedacito recibe un puntaje según energía, texto, duración y coincidencias de audio/rostro.
- Selección automática: el sistema elige los mejores segmentos hasta completar un resumen de 5–10 minutos.
- Descarga de clips: sólo se bajan los segundos elegidos, no el programa entero (ahorro de tiempo y disco).
- FFmpeg: ensambla todos los clips en un único MP4 final con calidad profesional.
- Caché inteligente: si volvés a procesar la misma playlist, reutiliza lo ya analizado y sólo calcula lo nuevo.
- Limpieza automática: una vez que confirmás que el resultado está OK, borra los “pedacitos basura” y archivos temporales.
Ahorro real de tiempo y dinero
¿Cuánto tarda un editor humano en un solo clip?
- Ver el video: 15 a 30 minutos.
- Encontrar un momento útil: 10 a 20 minutos.
- Recortar y ajustar: 10 minutos.
- Subtitular: 20 a 40 minutos.
- Exportar y revisar: 5 a 10 minutos.
Total promedio: 1 a 2 horas por clip.
Costo por clip: 10 a 40 USD.
Compilado largo: 50 a 150 USD sólo en edición.
¿Cuánto tarda nuestra IA?
- Detectar la sección: 1 a 3 segundos.
- Cortar el clip: 1 segundo.
- Subtítulos automáticos (opcional): 5 a 20 segundos.
- Exportar dentro del compilado: 5 segundos.
Total: 10 a 40 segundos por clip.
Costo: centavos en infraestructura (GPU / servidor) en lugar de horas de trabajo humano.
Este nivel de automatización no existe hoy en el mercado global, menos aún optimizado para contenido hispanohablante.
Módulos avanzados: emociones, invitados y SEO
- Detección de emociones: identifica risas, peleas, discusiones, tensión, bardo y momentos épicos de reacción.
- Búsqueda por invitado: subís una foto y el sistema localiza todos los tramos donde aparece esa persona.
- Detección de música / sonidos: encuentra dónde suena una canción, jingle o efecto usando un audio de referencia.
- Motor de títulos y SEO (roadmap): generación automática de títulos llamativos, descripciones y tags optimizados para CTR.
- Modo “publicar ya”: la idea final es que el usuario sólo elija la playlist, revise el resumen y apriete “publicar”.
Potencial del proyecto
- Base ideal para una plataforma SaaS con cientos o miles de clientes.
- Enfocado en radios, streamings, TV, canales de YouTube y productoras.
- Permite multiplicar presencia en redes sin multiplicar equipo humano.
- Arquitectura pensada para correr en servidores con GPU y exponer una API a terceros.
- Proyecto con potencial de venta global, especialmente para contenido en español.