Explorando a Inteligência Artificial

Explorando a Inteligência Artificial

Share this post

Explorando a Inteligência Artificial
Explorando a Inteligência Artificial
K-Nearest Neighbors (KNN): Simples, Eficiente e Versátil

K-Nearest Neighbors (KNN): Simples, Eficiente e Versátil

Às vezes, a melhor resposta está entre os vizinhos mais próximos

Avatar de Elisa Terumi Rubel Schneider
Elisa Terumi Rubel Schneider
fev 15, 2025
∙ Pago
11

Share this post

Explorando a Inteligência Artificial
Explorando a Inteligência Artificial
K-Nearest Neighbors (KNN): Simples, Eficiente e Versátil
Partilhar
Fonte: Wikipedia

Continunado nossa série Top 8 Algoritmos de Machine Learning, hoje chegou a vez de vermos o algoritmo KNN !

K-Nearest Neighbors (KNN), ou K-vizinhos mais próximos, é um dos métodos de machine learning mais simples e intuitivos, amplamente utilizado para classificação e regressão.

Sua facilidade de implementação e eficácia em problemas diversos o tornam uma escolha popular para iniciantes e profissionais da área de ciência de dados.

Acesse o Colab (Notebook) com o código: https://elisaterumi.substack.com/p/notebooks

O Que é o KNN?

KNN é um algoritmo baseado em instância que classifica um novo dado com base nos exemplos mais próximos a ele em um espaço multidimensional.

Ele assume que dados semelhantes estão localizados próximos uns dos outros. Em termos práticos, o KNN busca os "K" vizinhos mais próximos de um novo ponto e decide sua classificação ou valor com base neles.

Como o KNN Funciona?

  1. Escolha do valor de K: Define-se um número K de vizinhos a serem considerados para classificação ou previsão.

  2. Cálculo da Distância: Para cada novo dado, calcula-se a distância entre ele e todos os pontos do conjunto de treinamento. A métrica de distância mais comum é a Distância Euclidiana.

  3. Seleção dos K Vizinhos: Ordenam-se os vizinhos pela menor distância e selecionam-se os K mais próximos.

  4. Decisão da Classificação ou Regressão:

    • Para classificação: A classe mais frequente entre os vizinhos é atribuída ao novo dado.

    • Para regressão: A média dos valores dos vizinhos é usada como previsão.

Escolhendo o Valor de K

A escolha de K impacta diretamente o desempenho do modelo:

  • Valores pequenos (K=1, K=3): Pode levar a overfitting, pois o modelo se torna sensível a ruídos nos dados.

  • Valores muito grandes (K=20) podem tornar o modelo excessivamente genérico e reduzir sua capacidade de capturar padrões, levando ao underfitting.

O parâmetro K é crucial para o desempenho do KNN. Uma técnica comum para escolher o valor de K é o método de validação cruzada, testando diferentes valores e escolhendo aquele que minimiza o erro de validação.

Vantagens e Desvantagens do KNN

Vantagens:

  • Simples de entender e implementar

  • Não requer treinamento antes da predição

  • Funciona bem para conjuntos de dados pequenos e bem distribuídos

Desvantagens:

  • Ineficiente para grandes volumes de dados, pois exige cálculo de distância para todos os pontos

  • Sensível a dados ruidosos e features irrelevantes

  • Dependente da escolha da métrica de distância

Implementação Prática com Python

Agora vamos ver um exemplo simples de como implementar o KNN usando a biblioteca scikit-learn, com um dataset gerado artificialmente para classificar frutas com base em seu peso e tamanho.

O objetivo é prever se uma fruta é uma maçã ou uma laranja com base nessas características.

Acesse o Colab (Notebook) com o código: https://elisaterumi.substack.com/p/notebooks

Continue a ler com uma experiência gratuita de 7 dias

Subscreva a Explorando a Inteligência Artificial para continuar a ler este post e obtenha 7 dias de acesso gratuito ao arquivo completo de posts.

Já é um subscritor com subscrição paga? Entrar
© 2025 Elisa Terumi Rubel Schneider
Privacidade ∙ Termos ∙ Aviso de cobrança
Comece a escreverObtenha o App
Substack é o lar da grande cultura

Partilhar