La Inteligencia Artificial de audio se entrena con sesgos y derechos de autor
Un estudio revela que, los datos utilizados para el entrenamiento de la IA contienen sesgos, lenguaje ofensivo y material con derechos de autor.
Recientemente, un equipo de científicos liderado por William Agnew, de la Universidad Carnegie Mellon, analizó 680.000 horas de audio extraídas de diversas plataformas. Durante un año, los investigadores revisaron 175 conjuntos de datos de habla, música y sonidos, con el fin de identificar posibles problemas en el contenido que se utiliza para entrenar a los sistemas de inteligencia artificial generativa.
El estudio, que incluyó desde grabaciones de voz hasta melodías, encontró que los datos estaban plagados de sesgos y material no autorizado, como en los casos de los conjuntos de datos de texto e imagen.
Uno de los hallazgos más sorprendentes fue la relación que la IA generativa de sonido establece entre palabras y conceptos. Por ejemplo, se observó que términos como “hombre” se asociaban con temas como guerra o historia, mientras que “mujer” se conectaba más con conceptos relacionados con la familia o el cuidado, como “mamá” o “tienda”. Además, se encontraron expresiones ofensivas, como el uso del término “perra” en ciertos contextos.
El estudio también reveló que al menos el 35 por ciento contenían material con derechos de autor, lo que genera preocupaciones legales en cuanto al uso no autorizado de contenido protegido. Este tipo de violaciones podrían afectar a la propiedad intelectual y a la propagación de desinformación.
Fuente: Constanza Cabrera
+ INFO: Colonias tecnológicas de verano para chicos
+ INFO: Genie 2: La IA de Google que redefine el futuro de los videojuegos