2 Análise de Manutenção Preditiva

Este case aborda a análise de dados e construção de modelos de classificação para um problema de Manutenção Preditiva. O objetivo é prever se um equipamento apresentará falha (Target) com base em sensores operacionais.

2.1 Configuração e Importação de Dados

Primeiro, importamos as bibliotecas necessárias e carregamos o dataset, predictive_maintainance que está relacionado à manutenção preditiva em um ambiente industrial. Cada linha representa uma observação de um equipamento, com várias variáveis registradas:

UDI: Identificador único para cada observação.
Product ID: Identificador do produto associado à observação.
Type: Tipo do produto ou equipamento.
Air temperature [K]: Temperatura do ar em Kelvin durante a operação.
Process temperature [K]: Temperatura do processo em Kelvin durante a operação.
Rotational speed [rpm]: Velocidade de rotação em rotações por minuto (RPM).
Torque [Nm]: Torque aplicado durante o processo, medido em Newton-metros (Nm).
Tool wear [min]: Tempo de desgaste da ferramenta, em minutos.
Target: Variável alvo, indicando se ocorreu alguma falha ou não.
Failure Type: Tipo de falha, se houver.

import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.neural_network import MLPClassifier

Carregamento do dataset (ajuste o caminho conforme sua máquina).

data = pd.read_csv('data/predictive_maintenance.csv')
data.head(10)

UDI	Product ID	Type	Air temperature [K]	Process temperature [K]	Rotational speed [rpm]	Torque [Nm]	Tool wear [min]	Failure Type
1	M14860	M	298.1	308.6	1551	42.8	0	No Failure
2	L47181	L	298.2	308.7	1408	46.3	3	No Failure
3	L47182	L	298.1	308.5	1498	49.4	5	No Failure
4	L47183	L	298.2	308.6	1433	39.5	7	No Failure
5	L47184	L	298.2	308.7	1408	40.0	9	No Failure
6	M14865	M	298.1	308.6	1425	41.9	11	No Failure

2.2 Avaliação Inicial e Análise Descritiva

Vamos entender o tamanho da base, a presença de valores nulos e a distribuição da variável alvo.

print("Número de observações:", data.shape[0])

Número de observações: 10000

print("Número de variáveis:", data.shape[1])

Número de variáveis: 10

# Checagem de valores faltantes
print("\nValores faltantes no dataset:\n", data.isnull().sum())


Valores faltantes no dataset:
 UDI                        0
Product ID                 0
Type                       0
Air temperature [K]        0
Process temperature [K]    0
Rotational speed [rpm]     0
Torque [Nm]                0
Tool wear [min]            0
Target                     0
Failure Type               0
dtype: int64

# Checagem de duplicatas
print("\nObservações duplicadas no dataset:", data.duplicated().sum())


Observações duplicadas no dataset: 0

2.3 Análise Descritiva

Primeiramente, avaliamos a frequência da variável alvo.

# Frequência da variável Target
target_counts = data['Target'].value_counts()
target_percentage = data['Target'].value_counts(normalize=True) * 100
print("\nFrequência da variável Target:\n", target_counts)


Frequência da variável Target:
 Target
0    9661
1     339
Name: count, dtype: int64

print("\nPorcentagem da variável Target:\n", target_percentage)


Porcentagem da variável Target:
 Target
0    96.61
1     3.39
Name: proportion, dtype: float64

Frequência das variáveis categóricas.

# Frequência da variável Type
print("Frequência da variável Type:\n", data['Type'].value_counts())

Frequência da variável Type:
 Type
L    6000
M    2997
H    1003
Name: count, dtype: int64

print("\nFrequência da variável Failure Type:\n", data['Failure Type'].value_counts())


Frequência da variável Failure Type:
 Failure Type
No Failure                  9652
Heat Dissipation Failure     112
Power Failure                 95
Overstrain Failure            78
Tool Wear Failure             45
Random Failures               18
Name: count, dtype: int64

Estatísticas descritivas das variáveis numéricas.

print("Estatísticas descritivas das variáveis numéricas:\n", data.describe())

Estatísticas descritivas das variáveis numéricas:
                UDI  Air temperature [K]  ...  Tool wear [min]        Target
count  10000.00000         10000.000000  ...     10000.000000  10000.000000
mean    5000.50000           300.004930  ...       107.951000      0.033900
std     2886.89568             2.000259  ...        63.654147      0.180981
min        1.00000           295.300000  ...         0.000000      0.000000
25%     2500.75000           298.300000  ...        53.000000      0.000000
50%     5000.50000           300.100000  ...       108.000000      0.000000
75%     7500.25000           301.500000  ...       162.000000      0.000000
max    10000.00000           304.500000  ...       253.000000      1.000000

[8 rows x 7 columns]

2.3.1 Relação das Variáveis com a Target

A matriz de correlação nos ajuda a identificar quais variáveis numéricas possuem maior relação com a ocorrência de falhas.

numeric_data = data.select_dtypes(include=np.number)
correlation_matrix = numeric_data.corr()

plt.figure(figsize=(12, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Matriz de Correlação')
plt.show()

Relação entre a variável Type e a variável Target.

media_target_por_type = data.groupby('Type')['Target'].mean()
print("Média de Target por classe de Type:\n", media_target_por_type)

Média de Target por classe de Type:
 Type
H    0.020937
L    0.039167
M    0.027694
Name: Target, dtype: float64

media_target_por_type = data.groupby('Failure Type')['Target'].mean()
print("\n\nMédia de Target por classe de Failure Type:\n", media_target_por_type)



Média de Target por classe de Failure Type:
 Failure Type
Heat Dissipation Failure    1.000000
No Failure                  0.000932
Overstrain Failure          1.000000
Power Failure               1.000000
Random Failures             0.000000
Tool Wear Failure           1.000000
Name: Target, dtype: float64

2.4 Construção do Modelo Preditivo

2.4.1 Preparação dos Dados

Para o modelo, precisamos remover identificadores e transformar variáveis categóricas (como o tipo do produto) em variáveis numéricas (dummies).

Removendo identificadores e colunas de diagnóstico posterior

data_model = data.drop(['UDI', 'Failure Type', 'Product ID'], axis=1)

Transformando variáveis categóricas em dummies

data_model = pd.get_dummies(data_model, drop_first=True)

Definição das variávei explicativas (features) e da variável alvo (target).

# Definição de X e y
variaveis_explicativas = ['Air temperature [K]', 'Process temperature [K]', 
                          'Rotational speed [rpm]', 'Torque [Nm]', 'Tool wear [min]']
X = data_model[variaveis_explicativas]
y = data_model['Target']

Divisão em treino (85%) e validação (15%).

X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.15, random_state=42)

2.4.2 Treinamento e Comparação de Modelos

Vamos testar quatro algoritmos diferentes: Regressão Logística, Random Forest, KNN e Redes Neurais.

# Inicialização dos modelos
modelos = {
    "Regressão Logística": LogisticRegression(),
    "Random Forest": RandomForestClassifier(random_state=42),
    "KNN": KNeighborsClassifier(),
    "Redes Neurais": MLPClassifier(random_state=42)
}

# Função de avaliação para automatizar o processo
def avaliar_modelo(nome, model, X_train, y_train, X_val, y_val):
    # O modelo é treinado aqui
    model.fit(X_train, y_train)
    # Predições
    y_pred_train = model.predict(X_train)
    y_pred_val = model.predict(X_val)
    
    # Cálculo das métricas de Acurácia
    acuracia_train = accuracy_score(y_train, y_pred_train)
    acuracia_val = accuracy_score(y_val, y_pred_val)
    
    # Matrizes de Confusão
    cm_train = confusion_matrix(y_train, y_pred_train)
    cm_val = confusion_matrix(y_val, y_pred_val)
    
    # Cálculo de % de Falsos Positivos e Negativos sobre o TOTAL da amostra
    # (Refletindo a lógica exata do seu notebook original)
    fp_train = (cm_train[0, 1] / (sum(cm_train[0]) + sum(cm_train[1])))
    fn_train = (cm_train[1, 0] / (sum(cm_train[0]) + sum(cm_train[1])))
    
    fp_val = (cm_val[0, 1] / (sum(cm_val[0]) + sum(cm_val[1])))
    fn_val = (cm_val[1, 0] / (sum(cm_val[0]) + sum(cm_val[1])))
    
    # Saída formatada para a aula
    print(f"--- {nome} ---")
    print(f"Acurácia no treino: {acuracia_train:.4f}")
    print(f"Acurácia na validação: {acuracia_val:.4f}")
    print(f"Matriz de Confusão no treino:\n{cm_train}")
    print(f"Matriz de Confusão na validação:\n{cm_val}")
    print(f"% de Falsos Positivos no treino: {fp_train:.4%}")
    print(f"% de Falsos Negativos no treino: {fn_train:.4%}")
    print(f"% de Falsos Positivos na validação: {fp_val:.4%}")
    print(f"% de Falsos Negativos na validação: {fn_val:.4%}")
    print("\n" + "="*30 + "\n")

for nome, modelo in modelos.items():
    avaliar_modelo(nome, modelo, X_train, y_train, X_val, y_val)

--- Regressão Logística ---
Acurácia no treino: 0.9699
Acurácia na validação: 0.9707
Matriz de Confusão no treino:
[[8182   26]
 [ 230   62]]
Matriz de Confusão na validação:
[[1446    7]
 [  37   10]]
% de Falsos Positivos no treino: 0.3059%
% de Falsos Negativos no treino: 2.7059%
% de Falsos Positivos na validação: 0.4667%
% de Falsos Negativos na validação: 2.4667%

==============================

--- Random Forest ---
Acurácia no treino: 1.0000
Acurácia na validação: 0.9867
Matriz de Confusão no treino:
[[8208    0]
 [   0  292]]
Matriz de Confusão na validação:
[[1449    4]
 [  16   31]]
% de Falsos Positivos no treino: 0.0000%
% de Falsos Negativos no treino: 0.0000%
% de Falsos Positivos na validação: 0.2667%
% de Falsos Negativos na validação: 1.0667%

==============================

--- KNN ---
Acurácia no treino: 0.9738
Acurácia na validação: 0.9700
Matriz de Confusão no treino:
[[8189   19]
 [ 204   88]]
Matriz de Confusão na validação:
[[1448    5]
 [  40    7]]
% de Falsos Positivos no treino: 0.2235%
% de Falsos Negativos no treino: 2.4000%
% de Falsos Positivos na validação: 0.3333%
% de Falsos Negativos na validação: 2.6667%

==============================

--- Redes Neurais ---
Acurácia no treino: 0.9656
Acurácia na validação: 0.9687
Matriz de Confusão no treino:
[[8208    0]
 [ 292    0]]
Matriz de Confusão na validação:
[[1453    0]
 [  47    0]]
% de Falsos Positivos no treino: 0.0000%
% de Falsos Negativos no treino: 3.4353%
% de Falsos Positivos na validação: 0.0000%
% de Falsos Negativos na validação: 3.1333%

==============================

2.5 Análise de Performance por Percentil

Criando um dataframe para consolidar as probabilidades.

df_probabilidades = pd.DataFrame({'Target_Real': y_val})

for nome, modelo in modelos.items():
# Treinando (garantindo que todos estão fitados)
  modelo.fit(X_train, y_train)

  # Extraindo a probabilidade da classe 1 (falha)
  # Nota: Alguns modelos podem não ter predict_proba, mas os selecionados possuem.
  df_probabilidades[f'Prob_{nome}'] = modelo.predict_proba(X_val)[:, 1]
  print("Primeras linhas do consolidado de probabilidades:")

MLPClassifier(random_state=42)

In a Jupyter environment, please rerun this cell to show the HTML representation or trust the notebook.
On GitHub, the HTML representation is unable to render, please try loading this page with nbviewer.org.

print(df_probabilidades.head())

	Target_Real	Prob_Regressão Logística	Prob_Random Forest	Prob_KNN	Prob_Redes Neurais
6252	0	0.0123673	0.00	0.0	7.00e-07
4684	1	0.0255143	0.00	0.0	1.20e-06
1731	0	0.0135146	0.00	0.0	7.00e-07
4742	0	0.0032589	0.00	0.0	4.00e-07
4521	0	0.0242423	0.00	0.0	0.00e+00
6340	1	0.0479644	0.36	0.2	2.86e-05

Agora, vamos calcular a taxa de falha real para cada decil de probabilidade de cada modelo. Um modelo “bom de negócio” deve concentrar quase todas as falhas nos primeiros decis (maior probabilidade).

def calcular_performance_decil(df, col_prob, col_target, nome_modelo):
  # Criando os decis
  df_temp = df[[col_target, col_prob]].copy()
  # Usamos rank para lidar com probabilidades repetidas (comum no KNN e RF)
  df_temp['Decil'] = pd.qcut(df_temp[col_prob].rank(method='first'), 10, labels=range(10, 0, -1))
  # Agrupando por decil
  performance = df_temp.groupby('Decil', observed=True).agg(
      total_maquinas=(col_target, 'count'),
      falhas_reais=(col_target, 'sum')
  ).reset_index()
  
  performance['Taxa_Falha'] = performance['falhas_reais'] / performance['total_maquinas']
  performance['Modelo'] = nome_modelo
  return performance

analise_decis_completa = pd.concat([
calcular_performance_decil(df_probabilidades, f'Prob_{nome}', 'Target_Real', nome)
for nome in modelos.keys()
])

Visualização Comparativa

plt.figure(figsize=(12, 6))
sns.lineplot(data=analise_decis_completa, x='Decil', y='Taxa_Falha', hue='Modelo', marker='o')
plt.title('Capacidade de Ordenamento: Taxa de Falha Real por Decil')
plt.ylabel('Taxa de Falha Real (Hit Rate)')
plt.xlabel('Decil de Risco (1 = Mais Provável)')
plt.gca().invert_xaxis() # Inverter para o Decil 10 (maior risco) ficar na esquerda
plt.grid(True, linestyle='--', alpha=0.7)
plt.show()

2.6 Impacto Financeiro e Seleção do Modelo

A escolha do “Melhor Modelo” depende do custo do erro. Vamos calcular o impacto financeiro considerando que uma Quebra (Falso Negativo) custa 20x mais que uma Inspeção (Falso Positivo).

def avaliar_custo_modelo(df_probs, col_target, modelos_dict, custo_fp=500, custo_fn=10000):
  relatorio_custos = []
  
  for nome in modelos_dict.keys():
    # Usando o corte padrão de 0.5 para comparação
    preds = (df_probs[f'Prob_{nome}'] >= 0.5).astype(int)
    cm = confusion_matrix(df_probs[col_target], preds)
    
    fp = cm[0, 1]
    fn = cm[1, 0]
    custo_total = (fp * custo_fp) + (fn * custo_fn)
    
    relatorio_custos.append({
        'Modelo': nome,
        'Falsos Positivos': fp,
        'Falsos Negativos': fn,
        'Custo Total (R$)': custo_total
    })

  return pd.DataFrame(relatorio_custos).sort_values('Custo Total (R$)')

df_custos = avaliar_custo_modelo(df_probabilidades, 'Target_Real', modelos)
print("Relatório de Impacto Financeiro (Corte 0.50):")

Relatório de Impacto Financeiro (Corte 0.50):

print(df_custos)

                Modelo  Falsos Positivos  Falsos Negativos  Custo Total (R$)
1        Random Forest                 4                16            162000
0  Regressão Logística                 7                37            373500
2                  KNN                 5                40            402500
3        Redes Neurais                 0                47            470000

	Modelo	Falsos Positivos	Falsos Negativos	Custo Total (R$)
1	Random Forest	4	16	162000
0	Regressão Logística	7	37	373500
2	KNN	5	40	402500
3	Redes Neurais	0	47	470000

Ao atribuirmos valores monetários aos erros — R$ 500,00 para uma inspeção desnecessária (FP) e R$ 10.000,00 para uma quebra catastrófica (FN) — a hierarquia dos modelos muda:

O modelo vencedor: Random Forest
- Com um custo total de R$ 162.000, este modelo é o mais eficiente para a operação.
- Sua vantagem reside na baixa taxa de Falsos Negativos (16), provando que cada falha evitada compensa financeiramente até 20 inspeções preventivas sem falha.
- O Random Forest conseguiu o melhor equilíbrio entre sensibilidade e precisão.
A Armadilha das Redes Neurais (O “Modelo Limpinho”)
- Embora tenha apresentado 0 Falsos Positivos (precisão perfeita nos alarmes - não “jogar dinheiro fora” com inspeções inúteis), é o pior cenário financeiro (R$ 470.000).
- Isso demonstra que o conservadorismo extremo do modelo ignora muitas quebras reais (47 Falsos Negativos), custando caro para a operação.

Apesar de não “jogar dinheiro fora” com inspeções inúteis, ele é o pior modelo financeiramente (R$ 470.000).

Ser conservador demais e só “apontar o dedo” quando se tem certeza absoluta (zero FPs) pode custar uma fortuna em quebras não detectadas (47 Falsos Negativos). Precisão absoluta pode ser um péssimo negócio.

Regressão Logística vs. KNN
- A Regressão Logística é R$ 29.000 mais barata que o KNN, pois capturou 3 falhas a mais, mesmo gerando 2 alarmes falsos adicionais.

Em manutenção preditiva, preferimos modelos “barulhentos” (mais FPs) a modelos “míopes” (mais FNs). A precisão absoluta pode ser um péssimo negócio se o custo da omissão for elevado.

2.7 Próximos Passos

O modelo selecionado para implementação é a Random Forest. Como evolução desta análise, o próximo passo estratégico é:

Otimização de Threshold: “Podemos ajustar o ponto de corte (threshold) da Random Forest para reduzir os 16 Falsos Negativos ainda mais, mesmo que o número de Falsos Positivos suba para 20 ou 30?”

	hidden_layer_sizes hidden_layer_sizes: array-like of shape(n_layers - 2,), default=(100,) The ith element represents the number of neurons in the ith hidden layer.	(100,)
	activation activation: {'identity', 'logistic', 'tanh', 'relu'}, default='relu' Activation function for the hidden layer. - 'identity', no-op activation, useful to implement linear bottleneck, returns f(x) = x - 'logistic', the logistic sigmoid function, returns f(x) = 1 / (1 + exp(-x)). - 'tanh', the hyperbolic tan function, returns f(x) = tanh(x). - 'relu', the rectified linear unit function, returns f(x) = max(0, x)	'relu'
	solver solver: {'lbfgs', 'sgd', 'adam'}, default='adam' The solver for weight optimization. - 'lbfgs' is an optimizer in the family of quasi-Newton methods. - 'sgd' refers to stochastic gradient descent. - 'adam' refers to a stochastic gradient-based optimizer proposed by Kingma, Diederik, and Jimmy Ba For a comparison between Adam optimizer and SGD, see :ref:`sphx_glr_auto_examples_neural_networks_plot_mlp_training_curves.py`. Note: The default solver 'adam' works pretty well on relatively large datasets (with thousands of training samples or more) in terms of both training time and validation score. For small datasets, however, 'lbfgs' can converge faster and perform better.	'adam'
	alpha alpha: float, default=0.0001 Strength of the L2 regularization term. The L2 regularization term is divided by the sample size when added to the loss. For an example usage and visualization of varying regularization, see :ref:`sphx_glr_auto_examples_neural_networks_plot_mlp_alpha.py`.	0.0001
	batch_size batch_size: int, default='auto' Size of minibatches for stochastic optimizers. If the solver is 'lbfgs', the classifier will not use minibatch. When set to "auto", `batch_size=min(200, n_samples)`.	'auto'
	learning_rate learning_rate: {'constant', 'invscaling', 'adaptive'}, default='constant' Learning rate schedule for weight updates. - 'constant' is a constant learning rate given by 'learning_rate_init'. - 'invscaling' gradually decreases the learning rate at each time step 't' using an inverse scaling exponent of 'power_t'. effective_learning_rate = learning_rate_init / pow(t, power_t) - 'adaptive' keeps the learning rate constant to 'learning_rate_init' as long as training loss keeps decreasing. Each time two consecutive epochs fail to decrease training loss by at least tol, or fail to increase validation score by at least tol if 'early_stopping' is on, the current learning rate is divided by 5. Only used when ``solver='sgd'``.	'constant'
	learning_rate_init learning_rate_init: float, default=0.001 The initial learning rate used. It controls the step-size in updating the weights. Only used when solver='sgd' or 'adam'.	0.001
	power_t power_t: float, default=0.5 The exponent for inverse scaling learning rate. It is used in updating effective learning rate when the learning_rate is set to 'invscaling'. Only used when solver='sgd'.	0.5
	max_iter max_iter: int, default=200 Maximum number of iterations. The solver iterates until convergence (determined by 'tol') or this number of iterations. For stochastic solvers ('sgd', 'adam'), note that this determines the number of epochs (how many times each data point will be used), not the number of gradient steps.	200
	shuffle shuffle: bool, default=True Whether to shuffle samples in each iteration. Only used when solver='sgd' or 'adam'.	True
	random_state random_state: int, RandomState instance, default=None Determines random number generation for weights and bias initialization, train-test split if early stopping is used, and batch sampling when solver='sgd' or 'adam'. Pass an int for reproducible results across multiple function calls. See :term:`Glossary `.	42
	tol tol: float, default=1e-4 Tolerance for the optimization. When the loss or score is not improving by at least ``tol`` for ``n_iter_no_change`` consecutive iterations, unless ``learning_rate`` is set to 'adaptive', convergence is considered to be reached and training stops.	0.0001
	verbose verbose: bool, default=False Whether to print progress messages to stdout.	False
	warm_start warm_start: bool, default=False When set to True, reuse the solution of the previous call to fit as initialization, otherwise, just erase the previous solution. See :term:`the Glossary `.	False
	momentum momentum: float, default=0.9 Momentum for gradient descent update. Should be between 0 and 1. Only used when solver='sgd'.	0.9
	nesterovs_momentum nesterovs_momentum: bool, default=True Whether to use Nesterov's momentum. Only used when solver='sgd' and momentum > 0.	True
	early_stopping early_stopping: bool, default=False Whether to use early stopping to terminate training when validation score is not improving. If set to True, it will automatically set aside ``validation_fraction`` of training data as validation and terminate training when validation score is not improving by at least ``tol`` for ``n_iter_no_change`` consecutive epochs. The split is stratified, except in a multilabel setting. If early stopping is False, then the training stops when the training loss does not improve by more than ``tol`` for ``n_iter_no_change`` consecutive passes over the training set. Only effective when solver='sgd' or 'adam'.	False
	validation_fraction validation_fraction: float, default=0.1 The proportion of training data to set aside as validation set for early stopping. Must be between 0 and 1. Only used if early_stopping is True.	0.1
	beta_1 beta_1: float, default=0.9 Exponential decay rate for estimates of first moment vector in adam, should be in [0, 1). Only used when solver='adam'.	0.9
	beta_2 beta_2: float, default=0.999 Exponential decay rate for estimates of second moment vector in adam, should be in [0, 1). Only used when solver='adam'.	0.999
	epsilon epsilon: float, default=1e-8 Value for numerical stability in adam. Only used when solver='adam'.	1e-08
	n_iter_no_change n_iter_no_change: int, default=10 Maximum number of epochs to not meet ``tol`` improvement. Only effective when solver='sgd' or 'adam'. .. versionadded:: 0.20	10
	max_fun max_fun: int, default=15000 Only used when solver='lbfgs'. Maximum number of loss function calls. The solver iterates until convergence (determined by 'tol'), number of iterations reaches max_iter, or this number of loss function calls. Note that number of loss function calls will be greater than or equal to the number of iterations for the `MLPClassifier`. .. versionadded:: 0.22	15000