OpenAI impulsa el GPT-4 transcribiendo horas de videos de Youtube para entrenar

OpenAI, la reconocida organización sin fines de lucro dedicada a la investigación en inteligencia artificial, ha lanzado un innovador programa con el objetivo de potenciar aún más su tecnología de generación de texto. Según se informó OpenAI ha desarrollado un sofisticado programa denominado ‘Whisper’ para transcribir más de un millón de horas de videos provenientes de YouTube.

El propósito detrás de esta monumental tarea de transcripción es nutrir el entrenamiento del modelo de generación de texto más avanzado de OpenAI, el GPT-4, el cual está disponible para el público en general. El proceso de transcripción masiva tiene como objetivo proporcionar un vasto conjunto de datos para mejorar y refinar la capacidad del GPT-4 para generar texto con una precisión y coherencia sin precedentes.

El equipo encargado del desarrollo de Whisper estuvo liderado por Greg Brockman, presidente de OpenAI. Este programa representa un paso significativo en el avance de la investigación en inteligencia artificial, especialmente en el ámbito del procesamiento del lenguaje natural.

Es importante destacar que este esfuerzo de OpenAI no solo impulsa el desarrollo de su propia tecnología, sino que también tiene el potencial de beneficiar a una amplia gama de aplicaciones en diversos campos, desde la traducción automática hasta la generación de contenido educativo y creativo.

El compromiso de OpenAI con la transparencia y la colaboración en la investigación de inteligencia artificial sin duda sigue siendo un pilar fundamental, demostrado una vez más a través de este ambicioso proyecto.

La empresa mantuvo un debate interno sobre si la extracción de texto de los vídeos alojados en la plataforma propiedad de Google suponía una violación de términos de uso.

Según un comunicado, OpenAI consideró que necesitaba más datos de entrenamiento en 2021 y discutió si obteneros de Youtube, podcast o audiolibros.

En una reciente entrevista el consejero ejecutivo de YouTube, Neal Mohan, aseguró que si OpenAI ha usado vídeos de la plataforma para entrenar ‘Sora’, su modelo de generación de vídeos realistas, estaría violando sus términos de servicio.

«Los creadores de contenido que vienen a Youtube tienen ciertas expectativas, entre ellas que los términos de servicio se cumplen. Nuestros términos permiten extraer cierto contenido como el título, el nombre de canal o el nombre del creador para facilitar la web abierta», explicó Mohan.

«No está permitido descargar las transcripciones o partes de los videos. Eso es una violación clara de nuestro términos de contenido», añadió el directivo.

La portavoz de OpenAI Lindsay Held indicó que la compañía crea bases de datos «únicas» y utiliza «numerosas fuentes disponibles públicamente y realiza acuerdos para obtener dato que no es público».

Google transcribe los videos de Youtube para obtener texto para alimentar a sus modelos de generación de texto, algo que violaría los derechos de los creadores que suben sus videos a la plataforma, según se informó.

Los derechos sobre el contenido usado para entrenar modelos de Inteligencia Artificial aún no están bien definidos y la competitividad para conseguir los mejores modelos de generación de contenido realista está llevando a empujar las fronteras de la legalidad en derechos de autor.

El gigante tecnológico Meta, creador de Facebook, debatió el año pasado si comprar la editorial Simon & Schuster para obtener acceso a su material de largo formato, según el contenido de reuniones entre gerentes, abogados e ingenieros de la compañía. (Con información de EFE)

Relacionado