Pesquisadores do Instituto de Computação (IC) da Unicamp propuseram uma nova técnica de diagnóstico automático por computador que poderá auxiliar na detecção de doenças respiratórias em tomografias, aliviando o trabalho de médicos e outros profissionais da saúde. A invenção resultou do doutorado do cientista da computação Azael de Melo e Sousa e utiliza técnicas de aprendizado profundo – ramo da inteligência artificial inspirado no funcionamento do cérebro humano – para criar modelos eficientes e compactos lançando mão de bases de dados pequenas.
Embora o aprendizado profundo já seja amplamente empregado em sistemas de visão computacional – que permitem a computadores processarem e identificarem informações visuais –, essas tecnologias demandam grandes volumes de dados na fase de treinamento. As redes neurais, por exemplo, uma das ferramentas de aprendizado profundo mais utilizadas no reconhecimento de padrões, requerem o ajuste de milhares de parâmetros para serem capazes de identificar corretamente o conteúdo de uma imagem. Ao mesmo tempo, faz parte da aprendizagem do algoritmo a ocorrência de erros de identificação, o que pode ser remediado com um processo conhecido como retropropagação. Nesse processo, o algoritmo avalia novos dados para detectar quais parâmetros devem ser reajustados, o que demanda grande esforço computacional.
Para lidar com essa limitação, Sousa desenvolveu um algoritmo que ajusta os parâmetros sem a necessidade de grandes quantidades de imagens ou de retropropagação. Isso é feito por meio da participação de seres humanos no processo – dentro de um conceito chamado de human-in-the-loop –, o que torna o treinamento mais eficiente porque exige menos gasto computacional e energético, bem como menos tempo. “A ideia principal é inserir o especialista junto com o algoritmo, para que ele consiga ensinar a máquina a realizar o trabalho de análise de tomografias. A partir desse conhecimento codificado do especialista, a gente monta a rede neural, que vai conseguir, dada uma imagem, gerar uma resposta ao problema investigado”, explica o cientista.
Para que isso ocorresse, utilizou-se um tipo de rede neural chamado de convolucional. Sua principal característica é aplicar diversos filtros, também chamados de kernels ou máscaras, que percorrem a imagem realizando cálculos pixel a pixel ao longo de diversas camadas. Os cálculos realizados com cada um desses kernels produzem novas imagens que contêm, cada uma, informações sobre a imagem original, de modo que, ao final do processo, consegue-se destacar os atributos – como contornos, cor, ruído e textura – relevantes para a identificação do conteúdo da imagem original.
No caso do novo algoritmo, ao invés da retropropagação, cabe aos usuários humanos fornecerem as informações de que o modelo necessita para aprender a generalizar. Na primeira intervenção, o usuário seleciona o corte da imagem que deseja visualizar e marca as características mais relevantes – como os sinais da doença respiratória ou de um pulmão saudável – e, a partir dessa marcação, o algoritmo estima a quantidade de filtros da primeira camada convolucional. Após calcular a primeira camada de convoluções, o computador vai gerando, sucessivamente, os filtros das camadas seguintes, até o especialista se sentir satisfeito com a quantidade de camadas existentes.
De acordo com o professor Alexandre Falcão, que orientou a pesquisa, a literatura científica da área não possui metodologias claras sobre como o usuário pode construir um modelo de rede neural. A forma mais simples de fazer isso, explica, é adaptar um modelo já existente para o problema que se pretende resolver, o que acaba transformando o algoritmo em uma caixa-preta cujas vantagens ou limitações são desconhecidas. “A ideia, portanto, é fornecer uma resposta para essas dúvidas, o que significa incluir o especialista da área de aprendizado de máquina no processo de construção do modelo. O especialista sabe quais filtros foram bons para a identificação de determinado objeto e quais não foram e consegue selecioná-los, eliminando aquilo de que não precisa”, esclarece.
Para validar o método, Sousa testou o algoritmo em análises de tomografias de pacientes com marcas deixadas pela covid-19 e por inalação de poeira de amianto ou que desenvolveram a condição chamada vidro fosco, caracterizada pelo aumento da densidade do parênquima pulmonar.
“Os resultados indicam que o nosso algoritmo é superior aos métodos mais tradicionais de aprendizado de máquina e competitivo com um método chamado nnU-NET, que venceu 20 campeonatos mundiais. Mas o nosso algoritmo tem três camadas convolucionais, uma cifra 40 vezes menor do que a do nnU-NET, significando então uma redução no uso de memória, no armazenamento e na quantidade de operações realizadas”, detalha o pesquisador.
O professor alerta, no entanto, que o método desenvolvido por Sousa se limita a responder essa questão para o codificador – parte do algoritmo que gera as imagens filtradas contendo os atributos. A outra parte do algoritmo, chamada de decodificador, combina as informações do codificador e extrai os atributos mais importantes para a análise da imagem. Com isso, ele gera um mapa no qual os elementos procurados na imagem estão salientes, algo que ainda depende do uso de retropropagação. “Atualmente, com o trabalho de outros alunos, a gente está conseguindo, no caso de algumas aplicações, fazer decodificadores sem retropropagação. Conseguir fechar isso bem para os problemas principais da literatura científica, com um modelo todo treinado a partir dos marcadores e com pouquíssimas imagens, resolve o problema”, disse Falcão.