Artigo Mestrado

2025-07-28 22:40:31 -03:00
commit 1e3adbbc4a
15 changed files with 618 additions and 0 deletions
--- a/Dados.txt
+++ b/Dados.txt
@@ -0,0 +1,100 @@
+🔍 4.1 Visualização dos Dados Brutos
+Imagens:
+
+raw_data_feature_distribution.png
+
+raw_data_label_distribution.png
+
+📊 raw_data_feature_distribution.png
+Analisando a distribuição da feature Destination_Port:
+
+A densidade concentra-se em portas conhecidas (ex: 80, 443, 22, 21), o que é esperado em tráfego legítimo.
+
+Observa-se picos isolados em portas não convencionais, indicativo de atividades anômalas como port scans ou ataques que testam portas alternativas.
+
+A cauda longa mostra que há uma variedade grande de portas utilizadas, com uso esporádico – característica típica de datasets com ataques variados (como DDoS ou Botnet).
+
+📊 raw_data_label_distribution.png
+Forte desbalanceamento: o tráfego BENIGNO domina amplamente o conjunto de dados.
+
+Isso valida a preocupação expressa no artigo sobre a necessidade de estratégias de pré-processamento (como normalização, e eventualmente balanceamento de classes).
+
+Os ataques são diversos, mas individualmente minoritários. Isso ressalta a importância de interpretar o modelo com cuidado, pois ele pode tender a aprender o padrão benigno como dominante.
+
+🧼 4.2 Visualização Após Tratamento dos Dados
+Imagens:
+
+processed_data_feature_distribution.png
+
+processed_data_label_distribution.png
+
+📊 processed_data_feature_distribution.png
+Após normalização (Min-Max), os valores de Destination_Port foram re-escalados para o intervalo [0, 1].
+
+O histograma mantém a forma geral da distribuição, mas permite comparar valores com outras features normalizadas no mesmo intervalo.
+
+Os picos mantêm-se nos mesmos pontos (ex: 0.03, 0.08...), representando as portas mais comuns.
+
+A cauda longa permanece presente, mas com visualização mais limpa (sem outliers extremos que distorcem a escala).
+
+Interpretação visual:
+→ A normalização não alterou a estrutura semântica da feature, o que é positivo: ela preserva os padrões enquanto permite que o modelo compare múltiplas features em igualdade de escala.
+
+📊 processed_data_label_distribution.png
+A distribuição de classes foi mantida após o tratamento – ou seja, não houve balanceamento artificial das classes.
+
+Isso é coerente com o objetivo do estudo, que focou na visualização e interpretabilidade, e não na maximização da performance via técnicas como SMOTE.
+
+O fato de o modelo ter atingido alta performance mesmo com classes desbalanceadas reforça a robustez do Random Forest e da engenharia de features realizada.
+
+🧠 4.3 Visualizações de Interpretabilidade com SHAP
+Imagens:
+
+shap_bar_plot.png
+
+shap_summary_plot.png
+
+shap_dependence_plot.png
+
+📊 shap_bar_plot.png
+Exibe a importância média de cada feature no modelo Random Forest.
+
+A feature mais importante é Destination_Port, seguida por variáveis relacionadas a fluxo (Flow_Duration, Flow_IAT_Max, Fwd_Packet_Length_Std etc).
+
+Essas features indicam características temporais e estruturais do tráfego, que são cruciais para distinguir entre comportamento normal e malicioso.
+
+Insights:
+
+Destination_Port domina por ser fortemente correlacionada a certos tipos de ataque (e.g., ataques a SSH, FTP, RDP).
+
+A combinação de múltiplas features temporais mostra que o modelo aprendeu padrões comportamentais de tráfego.
+
+📊 shap_summary_plot.png
+Vai além da média: mostra a distribuição dos valores SHAP por feature.
+
+Cada ponto representa uma amostra e sua contribuição para a classificação.
+
+A coloração representa o valor da feature (vermelho = alto, azul = baixo).
+
+Exemplo de interpretação:
+
+Para Destination_Port, valores altos (vermelho) tendem a contribuir para classificação como ataque, enquanto valores baixos (azul) muitas vezes indicam tráfego benigno.
+
+Isso confirma que portas incomuns estão associadas a comportamentos maliciosos no dataset.
+
+📊 shap_dependence_plot.png
+Exibe a relação entre o valor da feature mais importante (Destination_Port) e seu impacto SHAP.
+
+Mostra que para certas faixas de portas (principalmente as mais altas ou não padrão), há um aumento expressivo no valor SHAP → maior probabilidade de o modelo classificar como ataque.
+
+Pode-se observar clusters ou transições bruscas, indicando possíveis thresholds que o modelo implicitamente aprendeu.
+
+📌 Conclusão da Análise Visual
+Etapa	Gráfico	Insight Principal
+Dados Brutos	raw_data_feature_distribution	Presença de portas suspeitas; picos em portas padrão e anomalias em portas altas.
+raw_data_label_distribution	Desbalanceamento de classes.
+Dados Tratados	processed_data_feature_distribution	Distribuição preservada; normalização eficaz.
+processed_data_label_distribution	Desbalanceamento mantido para estudo realista.
+Interpretação com SHAP	shap_bar_plot	Destination_Port domina; features temporais também são muito relevantes.
+shap_summary_plot	Correlação clara entre valores altos da porta e ataques.
+shap_dependence_plot	Portas incomuns aumentam a probabilidade predita de ataque.
--- a/README.md
+++ b/README.md
--- a/commands.txt
+++ b/commands.txt
@@ -0,0 +1,89 @@
+(artigo_final) root@tiago:~/artigo_final# python3 preprocess_data_full.py
+Carregando o dataset completo de: cicids2017.csv
+Dataset completo carregado com 3056496 linhas e 79 colunas
+Distribuição das classes antes da limpeza:
+Label
+BENIGN                        2370815
+DDoS                           256054
+DoS Hulk                       231073
+PortScan                       158930
+DoS GoldenEye                   10293
+FTP-Patator                      7938
+SSH-Patator                      5897
+DoS slowloris                    5796
+DoS Slowhttptest                 5499
+Bot                              1966
+Web Attack   Brute Force         1507
+Web Attack   XSS                  652
+Infiltration                       36
+Web Attack   Sql Injection         21
+Heartbleed                         11
+ Label                              8
+Name: count, dtype: int64
+Convertendo 78 colunas para numérico...
+Removidas 2909 linhas com valores NaN ou infinitos.
+Removidas colunas com baixa variância: ['Bwd_PSH_Flags', 'Bwd_URG_Flags', 'Fwd_Avg_Bytes_Bulk', 'Fwd_Avg_Packets_Bulk', 'Fwd_Avg_Bulk_Rate', 'Bwd_Avg_Bytes_Bulk', 'Bw'Bwd_Avg_Bulk_Rate']
+Características finais: 70 colunas
+Amostras finais: 3053587 linhas
+Distribuição das classes após limpeza:
+Label
+BENIGN                        2369006
+DDoS                           256050
+DoS Hulk                       230124
+PortScan                       158804
+DoS GoldenEye                   10293
+FTP-Patator                      7935
+SSH-Patator                      5897
+DoS slowloris                    5796
+DoS Slowhttptest                 5499
+Bot                              1956
+Web Attack   Brute Force         1507
+Web Attack   XSS                  652
+Infiltration                       36
+Web Attack   Sql Injection         21
+Heartbleed                         11
+Name: count, dtype: int64
+Aplicando normalização Min-Max...
+Dataset pré-processado salvo em: cicids2017_preprocessed.csv
+Formato final: (3053587, 71)
+
+(artigo_final) root@tiago:~/artigo_final# python3 train_model.py
+Carregando o dataset pré-processado de: cicids2017_preprocessed.csv
+Treinando o modelo Random Forest...
+Modelo salvo em: random_forest_model.joblib
+Avaliando o modelo...
+Acurácia: 0.9990
+Precisão: 0.9979
+Recall: 0.9978
+F1-score: 0.9978
+Matriz de confusão:
+[[710271    431]
+ [   455 204920]]
+
+(artigo_final) root@tiago:~/artigo_final# python3 visualize_raw_data_optimized.py
+Carregando o dataset completo de: cicids2017.csv
+Dataset carregado com 3056496 linhas e 79 colunas.
+✅ Coluna de rótulo detectada: 'Label'
+📊 Coluna numérica selecionada para distribuição: 'Destination_Port'
+✅ Gráfico de distribuição salvo: visualizations/raw_data_feature_distribution.png
+✅ Gráfico de distribuição das classes salvo: visualizations/raw_data_label_distribution.png
+
+(artigo_final) root@tiago:~/artigo_final# python3 visualize_processed_data.py
+Carregando o dataset pré-processado de: cicids2017_preprocessed.csv
+✅ Dataset carregado com 3053587 linhas e 71 colunas.
+✅ Colunas no dataset: Destination_Port, Flow_Duration, Total_Fwd_Packets, Total_Backward_Packets, Total_Length_of_Fwd_Packets, Total_Length_of_Bwd_Packets, Fwd_Packet_Length_Max, Fwd_Packet_Length_Min, Fwd_Packet_Length_Mean, Fwd_Packet_Length_Std, Bwd_Packet_Length_Max, Bwd_Packet_Length_Min, Bwd_Packet_Length_Mean, Bwd_Packet_Length_Std, Flow_Bytes_s, Flow_Packets_s, Flow_IAT_Mean, Flow_IAT_Std, Flow_IAT_Max, Flow_IAT_Min, Fwd_IAT_Total, Fwd_IAT_Mean, Fwd_IAT_Std, Fwd_IAT_Max, Fwd_IAT_Min, Bwd_IAT_Total, Bwd_IAT_Mean, Bwd_IAT_Std, Bwd_IAT_Max, Bwd_IAT_Min, Fwd_PSH_Flags, Fwd_URG_Flags, Fwd_Header_Length, Bwd_Header_Length, Fwd_Packets_s, Bwd_Packets_s, Min_Packet_Length, Max_Packet_Length, Packet_Length_Mean, Packet_Length_Std, Packet_Length_Variance, FIN_Flag_Count, SYN_Flag_Count, RST_Flag_Count, PSH_Flag_Count, ACK_Flag_Count, URG_Flag_Count, CWE_Flag_Count, ECE_Flag_Count, Down_Up_Ratio, Average_Packet_Size, Avg_Fwd_Segment_Size, Avg_Bwd_Segment_Size, Fwd_Header_Length.1, Subflow_Fwd_Packets, Subflow_Fwd_Bytes, Subflow_Bwd_Packets, Subflow_Bwd_Bytes, Init_Win_bytes_forward, Init_Win_bytes_backward, act_data_pkt_fwd, min_seg_size_forward, Active_Mean, Active_Std, Active_Max, Active_Min, Idle_Mean, Idle_Std, Idle_Max, Idle_Min, Label
+✅ Gráfico de distribuição das classes salvo como visualizations/processed_data_label_distribution.png
+✅ Gráfico de distribuição da feature 'Destination_Port' salvo como visualizations/processed_data_feature_distribution.png
+✅ Processamento completo!
+✅ Gráficos salvos em: 'visualizations/'
+✅ Total de linhas processadas: 3053587
+✅ Total de colunas processadas: 71
+
+(artigo_final) root@tiago:~/artigo_final# python3 interpret_model_with_shap.py
+Carregando modelo de: random_forest_model.joblib
+Carregando dados de: cicids2017_preprocessed.csv
+Gerando explicações SHAP com 10000 amostras...
+✅ Gráfico de importância (bar) salvo como shap_bar_plot.png
+✅ Gráfico de importância (summary) salvo como shap_summary_plot.png
+📌 Feature mais importante: Destination_Port
+✅ Gráfico de dependência salvo como shap_dependence_plot.png
--- a/interpret_model_with_shap.py
+++ b/interpret_model_with_shap.py
@@ -0,0 +1,87 @@
+import pandas as pd
+import joblib
+import shap
+import matplotlib.pyplot as plt
+import os
+import numpy as np
+
+def interpret_model_with_shap(model_path, data_path, output_dir="shap_outputs", sample_size=10000):
+    """
+    Gera explicações SHAP para o modelo treinado e os dados, com paralelização para acelerar o processo.
+    
+    Args:
+        model_path (str): Caminho para o modelo salvo.
+        data_path (str): Caminho para o dataset pré-processado.
+        output_dir (str): Diretório onde os gráficos serão salvos.
+        sample_size (int): Número de amostras a ser utilizado para gerar as explicações SHAP.
+    """
+    print(f"Carregando modelo de: {model_path}")
+    model = joblib.load(model_path)
+
+    print(f"Carregando dados de: {data_path}")
+    df = pd.read_csv(data_path)
+
+    if "Label" not in df.columns:
+        raise ValueError("A coluna 'Label' não foi encontrada no dataset.")
+
+    X = df.drop("Label", axis=1)
+    y = df["Label"].apply(lambda x: 0 if str(x).strip().upper() == "BENIGN" else 1)
+
+    # Se o dataset tiver mais de 10.000 amostras, fazemos uma amostragem aleatória
+    if len(X) > sample_size:
+        X_sample = X.sample(sample_size, random_state=42)
+    else:
+        X_sample = X
+
+    print(f"Gerando explicações SHAP com {len(X_sample)} amostras...")
+
+    # Usando o TreeExplainer corretamente sem n_jobs
+    explainer = shap.TreeExplainer(model)  # Remove n_jobs=-1
+    shap_values_list = explainer.shap_values(X_sample)
+
+    # Se for uma lista (para modelos multiclasse), escolhemos os valores de SHAP para a classe 1 (ataque)
+    if isinstance(shap_values_list, list):
+        shap_values = shap_values_list[1]  # Pegamos os valores SHAP da classe 1 (ataque)
+    else:
+        shap_values = shap_values_list
+
+    # Garante que os shap_values estão no formato correto
+    shap_values = np.array(shap_values)
+    if shap_values.ndim == 3:
+        shap_values = shap_values[:, :, 1]  # Se for 3D: (n_samples, n_features, n_classes)
+
+    # Cria o diretório para salvar os gráficos, se não existir
+    os.makedirs(output_dir, exist_ok=True)
+
+    # Gráfico de importância das features (tipo barra)
+    plt.figure()
+    shap.summary_plot(shap_values, X_sample, plot_type="bar", show=False)
+    plt.tight_layout()
+    plt.savefig(f"{output_dir}/shap_bar_plot.png", dpi=300)
+    plt.close()
+    print("✅ Gráfico de importância (bar) salvo como shap_bar_plot.png")
+
+    # Gráfico de importância das features (sumário)
+    plt.figure()
+    shap.summary_plot(shap_values, X_sample, show=False)
+    plt.tight_layout()
+    plt.savefig(f"{output_dir}/shap_summary_plot.png", dpi=300)
+    plt.close()
+    print("✅ Gráfico de importância (summary) salvo como shap_summary_plot.png")
+
+    # Gráfico de dependência para a feature mais importante
+    most_important_feature = X_sample.columns[abs(shap_values).mean(0).argmax()]
+    print(f"📌 Feature mais importante: {most_important_feature}")
+
+    plt.figure()
+    shap.dependence_plot(most_important_feature, shap_values, X_sample, show=False)
+    plt.tight_layout()
+    plt.savefig(f"{output_dir}/shap_dependence_plot.png", dpi=300)
+    plt.close()
+    print(f"✅ Gráfico de dependência salvo como shap_dependence_plot.png")
+
+if __name__ == "__main__":
+    model_file = "random_forest_model.joblib"  # Caminho para o modelo salvo
+    data_file = "cicids2017_preprocessed.csv"  # Caminho para o dataset pré-processado
+    interpret_model_with_shap(model_file, data_file)
+
--- a/preprocess_data_full.py
+++ b/preprocess_data_full.py
@@ -0,0 +1,88 @@
+import pandas as pd
+import numpy as np
+from sklearn.preprocessing import MinMaxScaler
+import gc
+
+def preprocess_cicids2017_full(input_path, output_path):
+    """
+    Realiza o pré-processamento e limpeza do dataset CICIDS2017 completo.
+
+    Args:
+        input_path (str): Caminho para o arquivo CSV de entrada do dataset.
+        output_path (str): Caminho para salvar o arquivo CSV pré-processado.
+    """
+    print(f"Carregando o dataset completo de: {input_path}")
+    
+    try:
+        df = pd.read_csv(input_path, low_memory=False)
+        print(f"Dataset completo carregado com {df.shape[0]} linhas e {df.shape[1]} colunas")
+    except Exception as e:
+        print(f"Erro ao carregar o dataset completo: {e}")
+        print("Por favor, verifique se há memória suficiente ou se o arquivo está corrompido.")
+        return
+
+    # Renomear colunas para remover espaços e caracteres problemáticos
+    df.columns = df.columns.str.strip().str.replace(' ', '_').str.replace('/', '_').str.replace('(', '', regex=False).str.replace(')', '', regex=False)
+
+    # Verifica se a coluna 'Label' existe
+    if 'Label' not in df.columns:
+        raise ValueError("A coluna 'Label' não foi encontrada no dataset. Verifique se o arquivo contém os rótulos.")
+
+    print(f"Distribuição das classes antes da limpeza:")
+    print(df['Label'].value_counts())
+
+    # Converte todas as colunas (exceto 'Label') para numérico
+    feature_cols = df.columns[df.columns != 'Label']
+    print(f"Convertendo {len(feature_cols)} colunas para numérico...")
+    
+    for col in feature_cols:
+        df[col] = pd.to_numeric(df[col], errors='coerce')
+
+    # Substitui valores infinitos por NaN e remove linhas inválidas
+    df.replace([np.inf, -np.inf], np.nan, inplace=True)
+    initial_rows = df.shape[0]
+    df.dropna(inplace=True)
+    print(f"Removidas {initial_rows - df.shape[0]} linhas com valores NaN ou infinitos.")
+
+    # Remover colunas com baixa variância (constantes ou quase constantes)
+    numeric_cols = df.select_dtypes(include=[np.number]).columns
+    low_variance_cols = [col for col in numeric_cols if df[col].nunique() <= 1]
+    if low_variance_cols:
+        df.drop(columns=low_variance_cols, inplace=True)
+        print(f"Removidas colunas com baixa variância: {low_variance_cols}")
+    else:
+        print("Nenhuma coluna com baixa variância encontrada.")
+
+    # Separar X e y
+    X = df.drop('Label', axis=1)
+    y = df['Label']
+
+    print(f"Características finais: {X.shape[1]} colunas")
+    print(f"Amostras finais: {X.shape[0]} linhas")
+    print(f"Distribuição das classes após limpeza:")
+    print(y.value_counts())
+
+    # Normalização Min-Max
+    print("Aplicando normalização Min-Max...")
+    scaler = MinMaxScaler()
+    X_scaled = scaler.fit_transform(X)
+    X_processed = pd.DataFrame(X_scaled, columns=X.columns)
+
+    # Combina X normalizado e y
+    df_processed = pd.concat([X_processed, y.reset_index(drop=True)], axis=1)
+
+    # Salva o resultado
+    df_processed.to_csv(output_path, index=False)
+    print(f"Dataset pré-processado salvo em: {output_path}")
+    print(f"Formato final: {df_processed.shape}")
+
+    # Limpeza de memória
+    del df, X, y, X_scaled, X_processed
+    gc.collect()
+
+if __name__ == '__main__':
+    input_file = 'cicids2017.csv'  # Caminho real do dataset bruto
+    output_file = 'cicids2017_preprocessed.csv'
+
+    preprocess_cicids2017_full(input_file, output_file)
+
--- a/shap_outputs/shap_bar_plot.png
+++ b/shap_outputs/shap_bar_plot.png
--- a/shap_outputs/shap_dependence_plot.png
+++ b/shap_outputs/shap_dependence_plot.png
--- a/shap_outputs/shap_summary_plot.png
+++ b/shap_outputs/shap_summary_plot.png
--- a/train_model.py
+++ b/train_model.py
@@ -0,0 +1,72 @@
+import pandas as pd
+from sklearn.model_selection import train_test_split
+from sklearn.ensemble import RandomForestClassifier
+from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix
+import joblib
+import os
+
+def train_and_evaluate_random_forest(input_path, model_output_path):
+    """
+    Treina e avalia um modelo Random Forest no dataset pré-processado CICIDS2017.
+    """
+    print(f"Carregando o dataset pré-processado de: {input_path}")
+    df = pd.read_csv(input_path)
+
+    if 'Label' not in df.columns:
+        raise ValueError("A coluna 'Label' não foi encontrada no dataset.")
+
+    X = df.drop('Label', axis=1)
+    y = df['Label']
+
+    # Codifica rótulos: BENIGN = 0, qualquer outro = 1
+    y = y.apply(lambda x: 0 if str(x).strip().upper() == 'BENIGN' else 1)
+
+    # Divide em treino e teste
+    X_train, X_test, y_train, y_test = train_test_split(
+        X, y, test_size=0.3, random_state=42, stratify=y
+    )
+
+    print("Treinando o modelo Random Forest...")
+    model = RandomForestClassifier(
+        n_estimators=100,
+        random_state=42,
+        n_jobs=-1,
+        class_weight='balanced'
+    )
+    model.fit(X_train, y_train)
+
+    joblib.dump(model, model_output_path)
+    print(f"Modelo salvo em: {model_output_path}")
+
+    print("Avaliando o modelo...")
+    y_pred = model.predict(X_test)
+    acc = accuracy_score(y_test, y_pred)
+    prec = precision_score(y_test, y_pred)
+    rec = recall_score(y_test, y_pred)
+    f1 = f1_score(y_test, y_pred)
+    cm = confusion_matrix(y_test, y_pred)
+
+    print(f"Acurácia: {acc:.4f}")
+    print(f"Precisão: {prec:.4f}")
+    print(f"Recall: {rec:.4f}")
+    print(f"F1-score: {f1:.4f}")
+    print("Matriz de confusão:")
+    print(cm)
+
+    # Salvar métricas
+    with open("model_metrics.txt", "w") as f:
+        f.write(f"Acurácia: {acc:.4f}\n")
+        f.write(f"Precisão: {prec:.4f}\n")
+        f.write(f"Recall: {rec:.4f}\n")
+        f.write(f"F1-score: {f1:.4f}\n")
+        f.write(f"Matriz de Confusão:\n{cm}\n")
+
+if __name__ == '__main__':
+    input_file = 'cicids2017_preprocessed.csv'
+    model_file = 'random_forest_model.joblib'
+
+    if not os.path.exists(input_file):
+        print(f"❌ Arquivo '{input_file}' não encontrado. Execute o preprocess_data.py antes.")
+    else:
+        train_and_evaluate_random_forest(input_file, model_file)
+
--- a/visualizations/processed_data_feature_distribution.png
+++ b/visualizations/processed_data_feature_distribution.png
--- a/visualizations/processed_data_label_distribution.png
+++ b/visualizations/processed_data_label_distribution.png
--- a/visualizations/raw_data_feature_distribution.png
+++ b/visualizations/raw_data_feature_distribution.png
--- a/visualizations/raw_data_label_distribution.png
+++ b/visualizations/raw_data_label_distribution.png
--- a/visualize_processed_data.py
+++ b/visualize_processed_data.py
@@ -0,0 +1,70 @@
+import pandas as pd
+import matplotlib.pyplot as plt
+import seaborn as sns
+import os
+
+def visualize_processed_data(input_path):
+    """
+    Gera visualizações para o dataset pré-processado.
+    
+    Args:
+        input_path (str): Caminho para o arquivo CSV do dataset pré-processado.
+    """
+    print(f"Carregando o dataset pré-processado de: {input_path}")
+    df = pd.read_csv(input_path)
+
+    # Verifica se a coluna "Label" está presente
+    if "Label" not in df.columns:
+        raise ValueError("A coluna 'Label' não foi encontrada no dataset.")
+
+    # Exibe informações iniciais sobre o dataset
+    print(f"✅ Dataset carregado com {df.shape[0]} linhas e {df.shape[1]} colunas.")
+    print(f"✅ Colunas no dataset: {', '.join(df.columns)}")
+
+    # Conversão para rótulos legíveis
+    label_counts = df["Label"].apply(lambda x: "Ataque" if x == 1 else "Benigno")
+
+    # Gráfico de barras da distribuição das classes
+    plt.figure(figsize=(8, 5))
+    sns.countplot(x=label_counts)
+    plt.title("Distribuição das Classes (Dados Tratados)")
+    plt.xlabel("Classe")
+    plt.ylabel("Contagem")
+    plt.grid(True)
+    plt.tight_layout()
+    plt.savefig("visualizations/processed_data_label_distribution.png", dpi=300)
+    plt.close()
+    print("✅ Gráfico de distribuição das classes salvo como visualizations/processed_data_label_distribution.png")
+
+    # Gráfico da mesma feature do 4.1 (exemplo: "Destination_Port")
+    feature = "Destination_Port"
+    if feature in df.columns:
+        plt.figure(figsize=(10, 6))
+        sns.histplot(df[feature], kde=True)
+        plt.title(f"Distribuição da Feature '{feature}' (Dados Tratados)")
+        plt.xlabel(feature)
+        plt.ylabel("Frequência")
+        plt.grid(True)
+        plt.tight_layout()
+        plt.savefig("visualizations/processed_data_feature_distribution.png", dpi=300)
+        plt.close()
+        print(f"✅ Gráfico de distribuição da feature '{feature}' salvo como visualizations/processed_data_feature_distribution.png")
+    else:
+        print(f"⚠️ A feature '{feature}' não foi encontrada no dataset.")
+
+    # Informações finais
+    print("✅ Processamento completo!")
+    print("✅ Gráficos salvos em: 'visualizations/'")
+    print(f"✅ Total de linhas processadas: {df.shape[0]}")
+    print(f"✅ Total de colunas processadas: {df.shape[1]}")
+
+if __name__ == "__main__":
+    input_file = "cicids2017_preprocessed.csv"  # Caminho para o dataset pré-processado
+    if not os.path.exists(input_file):
+        print(f"Erro: Arquivo {input_file} não encontrado.")
+    else:
+        # Cria o diretório para salvar as visualizações, se não existir
+        os.makedirs("visualizations", exist_ok=True)
+        # Chama a função para gerar as visualizações
+        visualize_processed_data(input_file)
+
--- a/visualize_raw_data_optimized.py
+++ b/visualize_raw_data_optimized.py
@@ -0,0 +1,91 @@
+import pandas as pd
+import matplotlib.pyplot as plt
+import seaborn as sns
+import os
+import gc
+
+def visualize_raw_data(input_path):
+    """
+    Gera visualizações para o dataset completo (distribuição de uma feature e das classes),
+    processando todas as linhas do arquivo.
+    """
+
+    print(f"Carregando o dataset completo de: {input_path}")
+    
+    # Carregar o dataset inteiro
+    df_raw = pd.read_csv(input_path, low_memory=False)  # Carrega o dataset inteiro
+    print(f"Dataset carregado com {df_raw.shape[0]} linhas e {df_raw.shape[1]} colunas.")
+
+    # Renomear colunas para remover espaços e caracteres problemáticos
+    df_raw.columns = df_raw.columns.str.strip().str.replace(' ', '_').str.replace('/', '_').str.replace('(', '', regex=False).str.replace(')', '', regex=False)
+
+    # Criar diretório de saída
+    os.makedirs("visualizations", exist_ok=True)
+
+    # Detectar coluna de rótulo
+    label_col = None
+    for col in df_raw.columns:
+        if col.strip().lower() in ["label", "attack", "class"]:
+            label_col = col
+            break
+
+    if label_col is None:
+        print("❌ Nenhuma coluna de rótulo encontrada.")
+        return
+
+    print(f"✅ Coluna de rótulo detectada: \'{label_col}\'")
+
+    # Tentativa de conversão forçada para float (ignora erros e deixa NaN)
+    df_converted = df_raw.copy()
+    for col in df_converted.columns:
+        if col != label_col:  # Não converter a coluna de label
+            df_converted[col] = pd.to_numeric(df_converted[col], errors='coerce')
+
+    # Seleciona a primeira coluna numérica válida (com poucos NaNs)
+    numeric_cols = df_converted.select_dtypes(include=["float", "int"]).columns
+    if len(numeric_cols) == 0:
+        print("❌ Ainda nenhuma coluna numérica detectada após conversão.")
+        return
+
+    selected_feature = None
+    for feature in numeric_cols:
+        if df_converted[feature].notna().sum() > 1000:  # Pelo menos 1000 valores não-NaN
+            selected_feature = feature
+            break
+    else:
+        print("❌ Nenhuma feature numérica com dados suficientes encontrada.")
+        return
+
+    print(f"📊 Coluna numérica selecionada para distribuição: \'{selected_feature}\'")
+
+    # Histograma da feature numérica
+    plt.figure(figsize=(10, 6))
+    sns.histplot(df_converted[selected_feature].dropna(), kde=True, bins=50)
+    plt.title(f"Distribuição da Feature \'{selected_feature}\' (Dados Brutos Completo)")
+    plt.xlabel(selected_feature)
+    plt.ylabel("Frequência")
+    plt.grid(True)
+    plt.tight_layout()
+    plt.savefig("visualizations/raw_data_feature_distribution.png", dpi=300)
+    plt.close()
+    print("✅ Gráfico de distribuição salvo: visualizations/raw_data_feature_distribution.png")
+
+    # Gráfico de distribuição da classe
+    plt.figure(figsize=(10, 5))
+    sns.countplot(x=df_raw[label_col].astype(str).str.strip())
+    plt.title("Distribuição das Classes (Dados Brutos Completo)")
+    plt.xlabel("Classe")
+    plt.ylabel("Contagem")
+    plt.xticks(rotation=45, ha='right')
+    plt.tight_layout()
+    plt.savefig("visualizations/raw_data_label_distribution.png", dpi=300)
+    plt.close()
+    print("✅ Gráfico de distribuição das classes salvo: visualizations/raw_data_label_distribution.png")
+
+if __name__ == '__main__':
+    input_file = 'cicids2017.csv'
+    if not os.path.exists(input_file):
+        print(f"❌ Arquivo '{input_file}' não encontrado.")
+    else:
+        visualize_raw_data(input_file)
+