Data Science : Analyse et prédiction des survivants du Titanic

Machine learning model to predict the survivors of this tragedy

Description de la compétition : Le naufrage du RMS Titanic est l’un des naufrages les plus célèbres de l’histoire. Le 15 avril 1912, lors de son voyage inaugural, le Titanic coula après être entré en collision avec un iceberg, faisant 1502 morts sur 2 224 passagers et membres d’équipage. Cette tragédie sensationnelle a choqué la communauté internationale et conduit à de meilleures règles de sécurité pour les navires.

L’une des raisons pour lesquelles le naufrage a provoqué de telles pertes de vies est qu’il n’y avait pas assez de canots de sauvetage pour les passagers et l’équipage. Bien qu’il y ait eu un élément de chance impliqué dans la survie du naufrage, certains groupes de personnes étaient plus susceptibles de survivre que d’autres, tels que les femmes, les enfants et la classe supérieure.

Dans ce défi, nous vous demandons de compléter l’analyse des types de personnes susceptibles de survivre. En particulier, nous vous demandons d’appliquer les outils d’apprentissage automatique pour prédire quels passagers ont survécu à la tragédie.

1. Charger des librairies et lire les données

1.1 Charger des libraries

# Python libraries
# Classic,data manipulation and linear algebra
import pandas as pd
import numpy as np

# Plots
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
import plotly.offline as py
import plotly.graph_objs as go
from plotly.offline import download_plotlyjs, init_notebook_mode, plot, iplot
import plotly.tools as tls
import plotly.figure_factory as ff
py.init_notebook_mode(connected=True)
import squarify

# Data processing, metrics and modeling
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.model_selection import GridSearchCV, cross_val_score, train_test_split, GridSearchCV, RandomizedSearchCV
from sklearn.metrics import precision_score, recall_score, confusion_matrix,  roc_curve, precision_recall_curve, accuracy_score, roc_auc_score
import lightgbm as lgbm

# Stats
import scipy.stats as ss
from scipy.stats import randint as sp_randint
from scipy.stats import uniform as sp_uniform

# Time
from contextlib import contextmanager
@contextmanager
def timer(title):
    t0 = time.time()
    yield
    print("{} - done in {:.0f}s".format(title, time.time() - t0))

#ignore warning messages 
import warnings
warnings.filterwarnings('ignore') 

1.2 Lire les données

# Reading dataset
train = pd.read_csv("../input/train.csv")
test = pd.read_csv("../input/test.csv")

2. Vue d’ensemble

2.1 En-tête

# Head train and test
display(train.head())
display(test.head())

The rest of this analysis is available in the folowing link: https://bit.ly/2GKjWUA

Avatar
A propos Vincent Lugat 4 Articles
Vincent Lugat est consultant en Data Science spécialiste en Machine Learning. Issue d’une formation en économétrie, il aide les entreprises à optimiser l’utilisation de leurs données et à modéliser les comportements futurs. Ses domaines de prédilection sont la classification et la data visualisation.

Soyez le premier à commenter

Laisser un commentaire