Os 10 melhores algoritmos em mineração de dados

A mineração de dados (“Data Mining” em inglês) é o processo de analisar e resumir dados de diferentes perspectivas. Trabalhe para encontrar padrões de dados e relacionamentos em grandes conjuntos de informações usando algoritmos, que são conjuntos de regras para resolver um problema através de uma série de etapas concretas (pense no algoritmo euclidiano na álgebra, que encontra os dois números do maior divisor comum) . A Conferência Internacional do IEEE de 2006 (sigla em inglês do Instituto de Engenharia Elétrica e Eletrônica) sobre mineração de dados obteve os 10 melhores algoritmos no campo.

Árvores de decisão

Os algoritmos da árvore de decisão consistem em organizar os dados em eleições concorrentes, formando ramos de influência após uma decisão inicial. O tronco da árvore representa a decisão inicial e começa com uma pergunta sim ou não, como tomar café da manhã ou não. Tomar café da manhã e não tomar café da manhã seriam os dois ramos divergentes da árvore, e cada escolha subsequente teria seus próprios ramos divergentes que levariam a um ponto final.

O algoritmo K-means

O algoritmo K-means é baseado em análise de grupo. Tente dividir os dados coletados em “blocos” separados (agrupamentos) agrupados por características comuns.

Máquinas de vetores de suporte

Os algoritmos da máquina de vetores de suporte recebem dados de entrada e prevêem quais das duas categorias possíveis incluem os dados de entrada. Um exemplo seria coletar os códigos postais de um grupo de eleitores e tentar prever se um eleitor é democrata ou republicano.

O algoritmo apriori

O algoritmo apriori normalmente controla os dados da transação. Por exemplo, em uma loja de roupas, o algoritmo pode controlar quais camisas os clientes costumam comprar juntos.

Algoritmo EM

Esse algoritmo define parâmetros analisando os dados e prevê a possibilidade de uma saída futura ou evento aleatório dentro dos parâmetros de dados. Por exemplo, o algoritmo EM poderia tentar prever o momento da próxima erupção de um gêiser com base nos dados de tempo de erupções passadas.

Algoritmo PageRank

O algoritmo PageRank é um algoritmo básico para os mecanismos de pesquisa. Avalie e estime a relevância de um dado em particular em um conjunto grande, como um único site em um conjunto maior de todos os sites da Internet.

Algoritmo AdaBoost

O algoritmo AdaBoost funciona em outros algoritmos de aprendizado que antecipam um comportamento de acordo com os dados observados, para que sejam sensíveis a extremos estatísticos. Embora o algoritmo EM possa ser tendencioso devido a um gêiser que possui duas erupções em menos de um minuto, quando normalmente ocorre uma erupção uma vez por dia, o algoritmo AdaBoost modifica a saída do algoritmo EM analisando a relevância do fim.

Algoritmo k do vizinho mais próximo

Esse algoritmo reconhece padrões na localização dos dados e os associa aos dados com um identificador maior. Por exemplo, se você deseja atribuir uma agência postal a cada localização geográfica da residência e possuir um conjunto de dados para cada localização geográfica da residência, o algoritmo do vizinho mais próximo k atribuirá as residências à agência postal mais próxima, de acordo com a proximidade.

Naive Baye

O algoritmo Naive Baye prevê a saída de uma identidade com base nos dados de observações conhecidas. Por exemplo, se uma pessoa tem 1,97 m de altura e usa sapatos de tamanho 14, o algoritmo Naive Baye pode prever com uma certa probabilidade que a pessoa seja homem.

Algoritmo CART

“CART” é um acrônimo em inglês que significa análise regressiva e de árvore de classificação. Como as análises da árvore de decisão, ele organiza os dados de acordo com as opções concorrentes, como se uma pessoa tivesse sobrevivido a um terremoto. Ao contrário dos algoritmos da árvore de decisão, que podem classificar apenas uma saída ou uma saída numérica com base na regressão, o algoritmo CART pode usar ambos para prever a probabilidade de um evento.

Referências

 

Você pode estar interessado:

Deixe um comentário