Laboratorio 3

Análisis de Canciones – Dataset Spotify

Análisis y segmentación de canciones según atributos musicales como energía, bailabilidad y popularidad.

1️⃣ Introducción

En el presente trabajo se realizó un análisis exploratorio sobre un dataset de canciones provenientes de Spotify, con el objetivo de:

  • Analizar características musicales.
  • Detectar patrones entre canciones.
  • Identificar relaciones entre variables como energía, popularidad, tempo y danceability.
  • Aplicar técnicas de segmentación para agrupar canciones similares.

Este análisis permite comprender cómo se distribuyen los atributos musicales y cómo pueden segmentarse según su estilo o comportamiento en la plataforma.

2️⃣ Descripción del Dataset

El dataset contiene información musical de canciones, donde cada fila detalla una canción con sus respectivas proporciones numéricas en la plataforma para características intrínsecas del sonido y recepción del público.

Variables incluidas principales:

Danceability Energy Loudness Speechiness Acousticness Instrumentalness Liveness Valence Tempo Popularity

3️⃣ Preparación y Limpieza de Datos

Preprocesamiento

  • Eliminación de valores nulos
  • Selección de variables numéricas relevantes
  • Análisis de correlaciones entre variables

Estandarización

Se aplicó normalización/estandarización de los datos. La estandarización fue importante para aplicar técnicas de clustering sin que variables como loudness o tempo dominen el modelo por estar en distinta magnitud de escala.

4️⃣ Análisis Exploratorio (EDA)

4.1 Distribución de Popularidad

Se analizó la distribución de popularidad para observar si la mayoría de canciones tiene popularidad baja/media o si existen outliers altamente populares.

Insight:

La popularidad no se distribuye de forma uniforme; pocas canciones concentran altos valores.

4.2 Energía vs Danceability

Se observó una correlación positiva moderada: canciones con mayor energía tienden a ser más bailables. Aunque no es una relación perfecta, existe tendencia clara que sugiere que canciones energéticas suelen ser más aptas para pistas de baile.

4.3 Loudness y Energy

Se detectó una correlación fuerte entre el volumen promedio (Loudness) y la medida de intensidad (Energy). Es lógico, ya que canciones más intensas y rápidas suelen tener mayor volumen promedio al estar altamente comprimidas o masterizadas ruidosamente.

4.4 Valence y Danceability

Se evaluó si canciones más “felices” (alto valence) son inherentemente más bailables.

Resultado: Existe una leve tendencia positiva, aunque no llega a ser determinante en todos los casos.

5.1 Método del Codo

Se aplicó la graficación de la inercia (WCSS) para dictar el número óptimo de clusters.

Resultado:

Se identificó un valor óptimo de K que resultó en 3 o 4 clusters visualizando el punto de flexión del gráfico.

5.2 K-Means

Se utilizó el algoritmo con la métrica definida para segmentar canciones según las características descritas.

Esto permitió lograr agrupaciones bien diferenciadas y extraer perfiles musicales precisos con atributos latentes similares.

🎶 5️⃣ Clustering de Canciones

El modelo iterativo de segmentación permitió identificar 3 grandes grupos:

🟢 Enérgicas y Bailables

  • Alta energía y alta danceability.
  • Loudness elevado.

Géneros probables:

Pop, Electrónica, Dance.

🔵 Acústicas / Suaves

  • Alto valor de Acousticness.
  • Baja energía y menor loudness.

Géneros probables:

Música acústica, Indie, Folk.

🟣 Instrumentales

  • Gran índice de Instrumentalness.
  • Menor presencia vocal (speechiness baja).

Perfil:

Técnico o ambiental, Scores, Sinfónico.

6️⃣ Visualizaciones

Se generaron diversas visualizaciones:

  • Gráficos de dispersión para observar correlaciones en 2D y 3D.
  • Matriz de correlación para un panorama global de las variables.
  • Visualización de clusters identificando densidades.
  • Análisis comparativos entre variables descriptivas.

"Las visualizaciones muestran una separación clara entre los grupos musicales subyacentes."

8️⃣ Aplicaciones Prácticas

Este tipo de análisis puede utilizarse comercialmente para:

  • Sistemas de recomendación musical personalizados.
  • Creación de playlists dinámicas y automáticas.
  • Segmentación robusta por estilo.
  • Análisis de mercado y detección de tendencias emergentes.

7️⃣ Conclusiones y 9️⃣ Limitaciones

Conclusiones

  • Existen patrones claros entre energía y loudness.
  • La popularidad no depende únicamente de características musicales subyacentes, involucrando variables exógenas.
  • Es posible segmentar canciones en perfiles estilísticos orgánicos usando clustering (K-Means).
  • Los clusters obtenidos tienen interpretación musical coherente para oídos técnicos.
  • La estandarización fue clave para evitar sesgos dimensionales.

Limitaciones

  • No se consideró el género musical explícitamente dado en metadatos.
  • No se incluyó análisis temporal de estreno de las piezas.
  • K-Means asume clusters esféricos de varianza constante.
  • No se comparó con otros métodos topológicos o jerárquicos de segmentación.