abril 27, 2024

Eventoplus Argentina

Manténgase al tanto de los últimos desarrollos de Argentina sobre el terreno con noticias basadas en hechos, secuencias de video exclusivas, fotos y mapas actualizados de Eventoplus.

La inteligencia artificial de Riffusion genera música a partir de texto mediante ondas audiovisuales

La inteligencia artificial de Riffusion genera música a partir de texto mediante ondas audiovisuales
Acercarse / Una imagen generada por IA de notas musicales explotando desde la pantalla de una computadora.

Ars Technica

El jueves, un par de entusiastas de la tecnología despidieron Untado, un modelo de inteligencia artificial que genera música a partir de indicaciones de texto creando una representación visual del sonido y convirtiéndolo en audio para su reproducción. Utiliza una versión exacta de propagación estable 1.5 Modelo de fotomontaje, aplicación óptica difusión latente Procesar el sonido de una manera nueva.

Creado como un proyecto de pasatiempo por Seth Forsgren y Hayk Martiros, Riffusion funciona creando audiogramas que almacenan sonido en una imagen 2D. En un gráfico de ultrasonido, el eje X representa el tiempo (el orden en que se reproducen las frecuencias, de izquierda a derecha) y el eje Y representa la frecuencia de los sonidos. Mientras tanto, el color de cada píxel de la imagen representa la amplitud del sonido en ese momento particular.

Debido a que un gráfico de ultrasonido es un tipo de imagen, Stable Diffusion puede procesarlo. Forsgren y Martiros entrenaron un modelo de difusión estable personalizado con ejemplos fonéticos vinculados a descripciones de los sonidos o géneros musicales que representan. Con este conocimiento, Riffusion puede crear instantáneamente nueva música basada en indicaciones de texto que describen el tipo de música o sonido que desea escuchar, como «jazz», «rock» o incluso escribir en el teclado.

Después de crear la imagen de ultrasonido, se usa Riffusion antorchaaudio Para cambiar el sonido de las ondas sonoras en sonido y reproducirlo como sonido.

El gráfico de ondas de sonido representa el tiempo, la frecuencia y la amplitud en una imagen bidimensional.
Acercarse / El gráfico de ondas de sonido representa el tiempo, la frecuencia y la amplitud en una imagen bidimensional.

“Esta es una plantilla de Stable Diffusion v1.5 sin modificaciones, solo imágenes de espectrograma ajustadas con texto”, escribieron los creadores de Riffusion en una publicación de blog. página de explicación. «Se pueden generar innumerables variaciones del vector diversificando las semillas. Las interfaces de usuario web y las técnicas como img2img, inpainting, indicaciones negativas e interpolación funcionan de manera inmediata».

READ  Genshin Impact Fascinante sueño en el mar Eventos web Respuestas y recompensas

Visitantes de la Riffusión Un experimento modelo de inteligencia artificial Con una aplicación web interactiva que genera audiogramas interpolados (unidos a la perfección para una reproducción ininterrumpida) en tiempo real con el espectrograma visualizado continuamente en el lado izquierdo de la página.

Captura de pantalla del sitio web de Riffusion, que le permite escribir indicaciones y escuchar las ondas de sonido resultantes.
Acercarse / Captura de pantalla del sitio web de Riffusion, que le permite escribir indicaciones y escuchar las ondas de sonido resultantes.

También puede incorporar estampados. Por ejemplo, escribir en «Tropical Soft Jazz» incorpora elementos de diferentes géneros para una partitura fresca, fomentando la experimentación mediante la mezcla de estilos.

Por supuesto, Riffusion no es el primer generador de música impulsado por IA. a principios de este año, Armonía liberado Propagación de baile, un modelo de música generativa impulsado por IA. IA abierta tocadiscos tragamonedas, que se anunció en 2020, también genera nueva música con una red neuronal. y sitios como dibujo de sol Crea música sin parar sobre la marcha.

En comparación con esos esfuerzos musicales simplificados de IA, Riffusion parece más el proyecto de pasatiempo que es. La música que genera varía de interesante a incomprensible, pero sigue siendo una aplicación notable de la técnica de difusión latente que procesa el sonido en el espacio visual.

El modelo Riffusion es a la vez un token y un punto de control. Disponible en github.