APLICAÇÃO E AVALIAÇÃO DE TÉCNICAS DE APRENDIZAGEM DE MÁQUINA PARA PROBLEMAS DE CLASSIFICAÇÃO HIERÁRQUICA

JUNIOR, Marcos Antonio Correia1; MALINOWSKI, Erich Lacerda 3; JUNIOR, Marcos Antonio Correia 3; MALINOWSKI, Erich Lacerda2;

Resumo

Introdução:Com a criação do projeto GENOMA, que visa desvendar o código genético de um organismo, um vasto número de novas proteínas foram descobertas. As pesquisas genéticas relacionadas a este assunto, denominado Proteômica, estão crescendo cada vez mais na comunidade científica. Porém, a dificuldade dos processos de descoberta da função que essa proteína pode proporcionar, bem como seu alto custo, faz com que apenas uma pequena quantidade destas proteínas tenha sua função identificada. As relações hierárquicas entre as classes funcionais da proteína dificultam o processo de classificação destas funções. Classificações planas não conseguem trabalhar diretamente com a hierarquia de funções que estas proteínas estão organizadas. Neste sentido, muitos pesquisadores estão desenvolvendo novas abordagens e métodos para resolver estes problemas de classificação hierárquica. De acordo com a literatura há duas formas de resolver problemas de classificação hierárquica, chamadas: Global e Local. Baseado neste contexto, esta pesquisa propõe a execução e avaliação de métodos de Classificação Hierárquica para classificação e predição de função de proteínas.

Objetivo:O objetivo principal deste trabalho é a execução e avaliação de métodos de classificação hierárquica para predição de função de proteínas.

Metodologia:Neste trabalho foram abordadas duas estratégias utilizadas para resolver problemas de classificação hierárquica. Na primeira abordagem foi utilizada a Classificação Hierárquica Plana, onde na fase treinamento são utilizadas somente os nós-folhas, ou seja, não leva em consideração a hierarquia entre as classes. Já na segunda abordagem, foi utilizado a abordagem de Classificação Hierárquica Local por Nó-Pai. Nesta abordagem, para cada Nó-pai da hierarquia um classificador plano local é criado na fase de treinamento. Já na etapa de teste é realizado uma avaliação Top-Down, iniciando pelo Nó-Raiz da hierarquia e pelo resultado, passa até o próximo Nó-Filho. Quando um nó-folha é alcançado, a fase de teste é interrompida, retornado o nó-folha como resultado da classificação. A avaliação dos resultados alcançados é realizada por meio das métricas de avaliação Precisão Hierárquica (hP), Revocação Hierárquica (hR) e medida-F Hierárquica (hF). Para a execução e avaliação destes experimentos foram utilizados oito datasets de função de proteínas da Functional Catalogue.

Resultados:Os resultados alcançados, somente destas duas abordagens avaliadas e nos oito datasets da base FunCat, mostraram que a Classificação Hierárquica Local por Nó-Pai teve melhores resultados que a abordagem de Classificação Hierárquica Plana.

Conclusões:Em etapas futuras, pretende-se realizar novos experimentos utilizando outros domínios, execução de outras abordagens hierárquicas e a utilização de diferentes classificadores.

Palavras-chave: Predição da função das proteínas. Classificação Hierárquica. Bioinformática.

Legendas

    1. Estudante
    2. Orientador
    3. Colaborador