Aulas particulares Tarefas Minerva IA Entrar Criar conta

QCurva ROC: Teoria e Implementação em Python

06/11/24

Profes / Blog / Python

Curva ROC (Receiver Operating Characteristic)

A Curva ROC (Receiver Operating Characteristic) é uma ferramenta gráfica usada para avaliar a performance de modelos de classificação binária. Ela mostra a relação entre a Taxa de Verdadeiros Positivos (TPR) e a Taxa de Falsos Positivos (FPR) em diferentes limiares de classificação. A área sob a curva ROC, conhecida como AUC (Area Under the Curve), fornece uma medida única da performance do modelo: quanto maior a AUC, melhor é o modelo.

2. Conceitos Básicos

Verdadeiros Positivos (TP): Número de exemplos positivos corretamente classificados.
Falsos Positivos (FP): Número de exemplos negativos incorretamente classificados como positivos.
Taxa de Verdadeiros Positivos (TPR): Proporção de exemplos positivos corretamente classificados. Também conhecida como sensibilidade ou recall.
Taxa de Falsos Positivos (FPR): Proporção de exemplos negativos incorretamente classificados como positivos.
Curva ROC: Um gráfico que mostra a TPR (no eixo y) contra a FPR (no eixo x) para diferentes valores de limiar de decisão do modelo.

3. AUC - Área Sob a Curva

A AUC é uma medida da capacidade do modelo em classificar corretamente entre classes positivas e negativas. Uma AUC de 0,5 indica que o modelo não tem capacidade de discriminação, ou seja, classifica as classes de forma aleatória. Uma AUC de 1,0 indica uma classificação perfeita.

4. Exemplo em Python

https://colab.research.google.com/drive/1sHt2GE4kDeZFe9IGiuU9CPk3FPZaQ6qH?usp=sharing

4.5. Interpretação

No gráfico gerado, a linha pontilhada vermelha representa um classificador aleatório, enquanto a curva azul mostra a performance do nosso modelo. A área sob a curva (AUC) é uma métrica que resume a performance do modelo em diferentes limiares de decisão. Neste exemplo, a AUC deve estar próxima de 1, indicando um bom desempenho do modelo.

5. Conclusão

A curva ROC e a métrica AUC são ferramentas essenciais para avaliar a performance de modelos de classificação binária. Elas permitem uma análise detalhada de como o modelo se comporta em diferentes limiares de decisão, ajudando a identificar o ponto ideal de corte e a comparar diferentes modelos. O exemplo em Python demonstrou como é simples gerar e interpretar essa curva usando bibliotecas como sklearn.

Quer saber mais?

Entre em contato através do link: https://lnkd.in/dQtXuf_c