1️⃣ Introducción
En el presente trabajo se realizó un análisis exploratorio sobre un dataset de canciones provenientes de Spotify, con el objetivo de:
- Analizar características musicales.
- Detectar patrones entre canciones.
- Identificar relaciones entre variables como energía, popularidad, tempo y danceability.
- Aplicar técnicas de segmentación para agrupar canciones similares.
Este análisis permite comprender cómo se distribuyen los atributos musicales y cómo pueden segmentarse según su estilo o comportamiento en la plataforma.
2️⃣ Descripción del Dataset
El dataset contiene información musical de canciones, donde cada fila detalla una canción con sus respectivas proporciones numéricas en la plataforma para características intrínsecas del sonido y recepción del público.
Variables incluidas principales:
3️⃣ Preparación y Limpieza de Datos
Preprocesamiento
- Eliminación de valores nulos
- Selección de variables numéricas relevantes
- Análisis de correlaciones entre variables
Estandarización
Se aplicó normalización/estandarización de los datos. La estandarización fue importante para aplicar técnicas de clustering sin que variables como loudness o tempo dominen el modelo por estar en distinta magnitud de escala.
4️⃣ Análisis Exploratorio (EDA)
4.1 Distribución de Popularidad
Se analizó la distribución de popularidad para observar si la mayoría de canciones tiene popularidad baja/media o si existen outliers altamente populares.
Insight:
La popularidad no se distribuye de forma uniforme; pocas canciones concentran altos valores.
4.2 Energía vs Danceability
Se observó una correlación positiva moderada: canciones con mayor energía tienden a ser más bailables. Aunque no es una relación perfecta, existe tendencia clara que sugiere que canciones energéticas suelen ser más aptas para pistas de baile.
4.3 Loudness y Energy
Se detectó una correlación fuerte entre el volumen promedio (Loudness) y la medida de intensidad (Energy). Es lógico, ya que canciones más intensas y rápidas suelen tener mayor volumen promedio al estar altamente comprimidas o masterizadas ruidosamente.
4.4 Valence y Danceability
Se evaluó si canciones más “felices” (alto valence) son inherentemente más bailables.
Resultado: Existe una leve tendencia positiva, aunque no llega a ser determinante en todos los casos.
5.1 Método del Codo
Se aplicó la graficación de la inercia (WCSS) para dictar el número óptimo de clusters.
Resultado:
Se identificó un valor óptimo de K que resultó en 3 o 4 clusters visualizando el punto de flexión del gráfico.
5.2 K-Means
Se utilizó el algoritmo con la métrica definida para segmentar canciones según las características descritas.
Esto permitió lograr agrupaciones bien diferenciadas y extraer perfiles musicales precisos con atributos latentes similares.
🎶 5️⃣ Clustering de Canciones
El modelo iterativo de segmentación permitió identificar 3 grandes grupos:
🟢 Enérgicas y Bailables
- Alta energía y alta danceability.
- Loudness elevado.
Géneros probables:
Pop, Electrónica, Dance.
🔵 Acústicas / Suaves
- Alto valor de Acousticness.
- Baja energía y menor loudness.
Géneros probables:
Música acústica, Indie, Folk.
🟣 Instrumentales
- Gran índice de Instrumentalness.
- Menor presencia vocal (speechiness baja).
Perfil:
Técnico o ambiental, Scores, Sinfónico.
6️⃣ Visualizaciones
Se generaron diversas visualizaciones:
- Gráficos de dispersión para observar correlaciones en 2D y 3D.
- Matriz de correlación para un panorama global de las variables.
- Visualización de clusters identificando densidades.
- Análisis comparativos entre variables descriptivas.
"Las visualizaciones muestran una separación clara entre los grupos musicales subyacentes."
8️⃣ Aplicaciones Prácticas
Este tipo de análisis puede utilizarse comercialmente para:
- Sistemas de recomendación musical personalizados.
- Creación de playlists dinámicas y automáticas.
- Segmentación robusta por estilo.
- Análisis de mercado y detección de tendencias emergentes.
7️⃣ Conclusiones y 9️⃣ Limitaciones
Conclusiones
- Existen patrones claros entre energía y loudness.
- La popularidad no depende únicamente de características musicales subyacentes, involucrando variables exógenas.
- Es posible segmentar canciones en perfiles estilísticos orgánicos usando clustering (K-Means).
- Los clusters obtenidos tienen interpretación musical coherente para oídos técnicos.
- La estandarización fue clave para evitar sesgos dimensionales.
Limitaciones
- No se consideró el género musical explícitamente dado en metadatos.
- No se incluyó análisis temporal de estreno de las piezas.
- K-Means asume clusters esféricos de varianza constante.
- No se comparó con otros métodos topológicos o jerárquicos de segmentación.