SELEÇÃO GLOBAL DE ATRIBUTOS EM CLASSIFICADOR HIERÁRQUICO BASEADO EM CAMADAS

MUDREK, Thaynara Cristina Meger1; NIEVOLA, Julio Cesar2;

Resumo

Introdução:Este projeto visa avaliar o comportamento de classificadores tradicionais em problemas de classificação hierárquica baseada na abordagem local por camadas, usando como validação de seu desempenho dados referentes à classificação de proteínas. Portanto, busca-se determinar quais técnicas de aprendizagem de máquina podem ser utilizadas com maior eficácia sobre este tipo de dados agregando esta abordagem à série de trabalhos anteriores PIBIC anteriores.

Objetivo:O objetivo desse projeto foi elaborar, criar e avaliar classificadores hierárquicos baseados em camadas para ser utilizados em oito bases de classificação da função de proteínas.

Metodologia:Para desenvolvimento do classificador proposto, foi necessário adaptar um grupo de classificadores (Ripper, kNN, C4.5, Naïve Bayes e MLP), para serem utilizados na resolução de problemas de classificação hierárquica. A adaptação consiste em criar uma nova versão do algoritmo para prever a resposta em cada camada, ou seja, em cada nível da hierarquia de funções. Tendo-se o conjunto de classificadores que representa o conjunto de todas as camadas, faz-se a previsão da função usando-se o método top-down. Com o classificador pronto, ele foi executado sobre os dados e obteve-se uma indicação de sua taxa de acertos. Em seguida, realizou-se a seleção de atributos sobre a base original (através de dois algoritmos Ranked e BestFirst) obtendo-se duas nova bases, cada uma contendo somente os atributos considerados relevantes por aquele algoritmo. O classificador foi executado novamente, agora sobre as duas novas bases e avaliando-se a taxa de acerto em cada caso.

Resultados:A base com atributos selecionados pelo algoritmo BestFirst apresentou uma melhora em relação aos resultados obtidos com a base original (sem seleção de atributos). Ainda assim os resultados não são adequados para uso prático pois a taxa de acerto é baixa. Já a base com os atributos indicados pelo algoritmo Ranked, além de apresentar os melhores resultados, também tem uma taxa de acerto que permite seu uso em situações reais.

Conclusões:Com base nos resultados obtidos recomenda-se o uso de algoritmos de seleção de atributos para previsão da funções de proteínas; entretanto, deve-se ter em mente que a qualidade dos resultados é dependente do algoritmo específico que se estiver utilizando.

Palavras-chave:Classificadores. Redes Neurais. Seleção de atributos. Previsão da função de proteínas

Legendas

    1. Estudante
    2. Orientador