Análisis exploratorio de datos (EDA) en accidentes petroleros de 2010 a 2016

Hello! and thank you for dropping by! If you would like to take a peek of project and the viz in English, please click in the next buttons:

El análisis exploratorio de datos es de gran ayuda para descubrir oportunidades, así como también para identificar problemas.

En este proyecto, se realizó un análisis exploratorio sobre una base de datos que contiene los accidentes de tuberías en EEUU desde 2010 hasta 2016.

El análisis se basó en 6 preguntas principales:

  1. ¿Los accidentes aumentaron con cada año?
  2. ¿Cuál fue la causa principal de estos accidentes?
  3. ¿Qué fluido es el que se derramó con mayor frecuencia?
  4. De todas las causas ¿Cuál es la más costosa de solucionar?
  5. ¿Qué fluido derramado tiene el costo de remediación más elevado?
  6. ¿Existe alguna correlación entre los distintos factores?

Para finalizar el proyecto, se preparó un reporte interactivo en Tableau, para facilitar la visualización de la información y poder responder a más preguntas solamente con el gráfico.

Limpiar y preparar los datos con python y pandas.

analisis exploratorio de datos en python

Luego de importar las librerías y cargar el archivo con los datos, identificamos las columnas que vamos a utilizar en este análisis y creamos un nuevo data frame (df) con las columnas seleccionadas.

analisis exploratorio para eliminar valores null Ecuador

Para identificar los valores faltantes o NaN, utilizamos dos métodos que para mí son muy prácticos e interesantes.

Uno, indica el número exacto de valores faltantes en cada columna, y el otro es un método gráfico que señala los valores faltantes.

llenar valores Null en analisis exploratorio

Ahora podemos rellenar los valores faltantes de acuerdo al uso que le vamos a dar a cada columna.

eliminar Null NaN en analisis exploratorio

Verificamos nuevamente que el df no contenga valores NaN y también el tipo de dato de cada columna.

Aquí identificamos que la columna ‘Accident Date/Time’ es de tipo object, por lo que vamos a transformarlo a tipo date.

Empezamos con el Análisis Exploratorio de Datos

A continuación, vamos a responder a las preguntas que se plantearon para este EDA, mediante gráficos que se desarrollaron en Python con la librería seaborn.  

El código completo de este análisis se encuentra en el repositorio de Github. Revisa todos los pasos, análisis y visualizaciones adicionales que se realizaron en este proyecto:

Mira en Github el código completo que se utilizó en este proyecto. Lo realice en Jupyter notebook, desde Google Colab.

Note: All the process is commented in english to make it easy for the Data Analysis Community to read.

1. ¿Los accidentes aumentaron con cada año?

De acuerdo con el gráfico, podemos observar que los accidentes han aumentado desde el 2010.

Siendo el 2011 el año con menos accidentes (345 accidentes), y el 2015 el año con mayor número de accidentes (462 accidentes).

La tendencia de los accidentes desde 2010 a 2016 es positiva.

Podemos concluir que los accidentes han ido aumentando cada año, con excepción del año 2016, con una disminución de accidentes de 10% con respecto al año anterior.

2. ¿Cuál fue la causa principal de estos accidentes?

1435 accidentes, que corresponden al 53,6%, fueron causados por fallas asociadas con el equipo, los materiales y las instalaciones.

La corrosión es la segunda causa más frecuente con 592 accidentes; un 22,12%.

3. ¿Qué sustancia es la que se derramó con mayor frecuencia?

El crudo es la sustancia que se derramo con mayor frecuencia. 1398 accidentes corresponden a derrames de crudo, el 50.1% del total de accidentes.

Les siguen productos refinados del petróleo en estado liquido, que fueron derramados en 939 accidentes.

Si bien el crudo es la sustancia que se derramó con mayor frecuencia por accidente, el volumen derramado de los líquidos altamente volátiles (HVL) y otros líquidos inflamables, es mayor; 253k barriles comparado con 218k barriles derramados de crudo.

4. ¿Qué causa provocó los accidentes más costosos?

Antes de analizar los costos por accidente, debemos conocer que no todos los incidentes tienen el mismo impacto, y el costo puede variar independientemente del volumen del derrame.

Para visualizar mejor esto y evitar incluir outliers en el análisis, debemos representar los accidentes y verlos a lo largo de los 6 años.

Una mayor granularidad, en este caso, mensual, nos facilita otra perspectiva en la lectura de los datos.

Como podemos observar, existen 5 incidentes que predominan sobre el total.

Para los análisis de costos, vamos a retirar estos outliers, y así tener una lectura que represente mejor a la mayoría de los datos.

En promedio, los accidentes relacionados con fuerzas externas son los más costos de solucionar y reparar, con una media de 2.8M de dólares por accidente.

Pero también son los menos frecuentes, en 6 años hubieron 57 incidentes; el 2,13% del total de accidentes.

5. ¿Qué fluido derramado tiene el costo de remediación ambiental más elevado?

Los derrames de crudo son los más frecuentes, sin embargo, los derrames de productos refinados del petróleo tienen un costo de remediación ambiental mayor. En promedio, el costo de remediación de estas sustancias es de 160K dólares.

6. ¿Existe alguna correlación entre los distintos factores?

Para poder analizar la correlación entre factores categóricos, fue necesario primero convertir estos datos en números.

De acuerdo con el análisis del heatmap, no se ha encontrado una correlación significativa entre los factores que representan las condiciones de los accidentes como: el mes de operación, las causas, el tipo de tubería o el tipo de líquido.

En cuanto a costos, aunque se podría esperar una correlación entre barriles derramados y el costo del accidentes, la correlación es de apenas 0.3, por lo que tampoco se la considera representativa.

Existe una correlación de 1.00 entre el costo remediación ambiental y el costo total.

Extra, análisis exploratorio de datos entre columnas con joinplot

Las gráficas puede ayudarnos a conseguir información interesante para su posterior análisis.

En esta gráfica se puede ver que la causa 1, que corresponde a fallas de equipo, materiales e instalaciones, tiene un mayor número de incidencias, y los accidentes son más frecuentes a inicios y finales de año.

Análisis exploratorio mediante visualización en Tableau

Se puede continuar con el EDA y realizar un análisis más profundo con la ayuda de un dashboard que permita visualizar y acceder a la data forma interactiva y dinámica.

Fuentes: Pipeline and Hazardous Materials Safety Administration