Tudo o que você precisa saber sobre Classificação Multirrótulo - Parte 1
Oi pessoal!!! Estou aqui de volta com mais um artigo da área de Inteligência Artificial.
Meu objetivo com este artigo é passar para vocês os conceitos básicos de Classificação Multirrótulo (Multilabel Classification) de forma mais geral. Não serei capaz de falar tudo em um artigo só, então estou dividindo o conteúdo. Assim fica mais legível e entendível para todos.
Depois disso, começarei uma série de artigos aprofundando os tópicos abordados, trazendo inclusive um pouco de código e provavelmente alguns tutoriais em linguagem R.
Ah, sim, se você não é da área de computação, não se preocupe, este artigo é pra você também! Afinal, um dos meus objetivos aqui na Prensa é tornar o conhecimento científico e tecnológico acessível a todos os públicos! Claro, se você ficar com alguma dúvida, ficarei feliz em responder. Não tenha medo de me contatar no linkedin. Vamos começar então?
Que cargas d’água é Classificação Multirrótulo?
Primeiro, vamos entender o que é a palavra Classificação. De acordo com os dicionários na Internet:
“Classificação é a distribuição sistemática de pessoas ou coisas em classes ou categorias, de acordo com critérios estabelecidos.”
Já na área de Aprendizado de Máquina entendemos da seguinte forma:
“Um Problema de Classificação de Dados consiste em determinar um rótulo, para um objeto, baseado em um conhecimento prévio. Um rótulo é um nome dado a determinado objeto.” (GATTO, 2019)
Um algoritmo de aprendizado de máquina para a Classificação Multirrótulo, portanto, é capaz de aprender rótulos (classes, categorias ou etiquetas), a partir de dados coletados e depois de ter aprendido, ele é capaz de predizer (dizer antecipadamente, prever ou profetizar) rótulos para novos dados ainda não classificados. Agora já sabemos o que é Classificação, resta saber o tal do Multirrótulo.
Vamos pensar em música, pois é algo bem presente na vida cotidiana das pessoas!
Todo mundo conhece um mínimo de gêneros musicais: sertanejo, forró, axé, pop, rock, dance, etc. Mas vocês sabem que existem subgêneros e que uma música pode possuir diferentes gêneros em partes diferentes da música?
Por exemplo, está na moda há um tempo ouvir músicas sertanejas que tem partes dance e até mesmo de house music. Um exemplo é a música Camaro Amarelo da dupla Munhoz e Mariano, que começa com uma parte bem dance music e depois muda para o sertanejo. Portanto, a música em si é construída com diferentes gêneros musicais. Veja, é diferente de um remix onde um DJ pega uma música e muda completamente o estilo dela.
A figura a seguir foi retirada deste artigo científico, “Automatic Genre Classification of Musical Signals”, e apresenta uma taxonomia (categorização) de gêneros musicais.
Esta é apenas uma das várias taxonomias de gêneros musicais que a gente pode encontrar por aí! Se observarmos o rótulo Pop/Rock, vamos notar que a partir dele existem (ou nascem) outros 2 gêneros principais: o Orgânico e o Eletrônico.
De Orgânico vem o Rock e o Country, e do Rock vem o Soft Rock, Hard Rock e Heavy Metal. Dessa forma, podemos ter uma música do gênero Pop/Rock que também é do gênero Heavy Metal, e assim por diante.
Portanto, quando uma música pertence a mais de um gênero ao mesmo tempo, nós temos um cenário de Classificação Multirrótulo. O gênero musical neste caso é o RÓTULO, e MULTIRRÓTULO indica múltiplos rótulos (ou mais de um rótulo). Pronto, agora já entendemos o que significam ambas as palavras isoladas “Classificação” e “Multirrótulo”.
O mesmo cenário serve para qualquer outro objeto que possa pertencer a mais de um rótulo (o qual também pode ser chamado de categoria, classe ou etiqueta). Filmes podem pertencer a vários gêneros, por exemplo, ficção científica e fantasia.
Um artigo científico, por exemplo, que fale sobre robôs no planeta Marte provavelmente pertence às áreas de computação, mecatrônica, robótica, eletrônica e elétrica. Uma imagem pode possuir vários rótulos já que ela é formada por várias coisas diferentes. Acredito que agora você já é capaz de identificar vários outros contextos presentes no seu cotidiano que se encaixam em Classificação Multirrótulo, não é mesmo?
Retomando a nossa definição de Classificação, vamos reescrevê-la para o contexto Multirrótulo:
“Um Problema de Classificação Multirrótulo consiste em determinar rótulos para um objeto baseado em um conhecimento prévio.”
Uau! Ficou bem legal e simples né?! Formalizando um pouco, a definição em Aprendizado de Máquina pode ser:
“Um classificador tem como objetivo atribuir um objeto, ainda não classificado, a um ou mais rótulos disponíveis conhecidos previamente. Quando um objeto é atribuído (ou associado) a um único rótulo, a classificação é denominada Simples-Rótulo, Monorrótulo ou Binária. Quando um objeto pode ser atribuído a vários rótulos ao mesmo tempo, então a classificação é denominada Multirrótulo (Faceli, 2011; Han, 2011).”
Classificador é o nome que damos ao algoritmo que classifica os objetos, isto é, um classificador associa um objeto a um ou mais rótulos (conjunto de rótulos). Sabemos que algoritmos de aprendizado de máquina predizem “coisas” a partir de um conhecimento prévio. De acordo com isto podemos elaborar a seguinte definição:
“A Tarefa de Classificação Multirrótulo tem como objetivo prever um conjunto de rótulos para uma instância.”
Como vocês já podem imaginar, existem inúmeros algoritmos disponíveis para realizar este tipo de tarefa! Sim, classificar “coisas” é uma das várias TAREFAS do Aprendizado de Máquina (não é o escopo deste artigo falar sobre elas). Caros leitores, agora que entendemos o conceito mais básico por trás da Classificação Multirrótulo, vamos dar uma olhada em outros conceitos importantes.
Como é um conjunto de Dados Multirrótulo?
Um dataset (conjunto de dados) multirrótulo é uma tabela onde as linhas representam as instâncias (também podem ser chamados de objetos, observações ou exemplos) e as colunas são os atributos (ou características) dos dados. Dividimos os atributos em entrada e saída, sendo estes últimos os rótulos. Essa parte do dataset em que se concentram os rótulos também pode ser chamada de espaço de rótulos.
Os atributos descrevem características dos dados. Como você descreveria um carro? Um carro tem cor, quantidade de portas, tipo de direção, marca, modelo, ano, etc. Essas “coisas” são características, isto é, informações que descrevem o carro, portanto, são atributos do carro! Marca e Modelo poderiam ser os rótulos (ou atributos alvo) para categorizar carros, por exemplo.
Um exemplo de dataset do mundo real que trago aqui para vocês faz parte do dataset SCENE, que contém informações de imagens e os rótulos basicamente indicam se naquela imagem existe uma praia, uma montanha, e assim por diante. O valor 1 indica se o rótulo está presente na imagem, e o valor 0 se o rótulo não está presente.
Olhando para a imagem da linha 1 (x1) sabemos que ela possui apenas o rótulo “mountain” e “field”, pois estes são os únicos rótulos com o valor 1. Este dataset possui um total de 2.407 imagens (linhas), 300 atributos (colunas) sendo 294 de entrada e 6 de saída (rótulos). Se você olhar com mais cuidado, verá que algumas imagens possuem um único rótulo e isso é totalmente normal. Não nos esqueçamos que na Classificação Multirrótulo, um objeto pode ser associado a UM ou MAIS rótulos AO MESMO TEMPO.
Nestes dois sites estão vários datastes multirrótulo para vocês darem uma olhada:
https://cometa.ujaen.es/datasets/ e http://semantichub.ijs.si/MLCdatasets/datasets-list
Encerrando
Pessoal, para este artigo não ficar muito longo, vou parando por aqui. No próximo artigo, darei continuidade aos conceitos básicos fundamentais que englobam o “tudo que você precisa saber sobre Classificação Multirrótulo”. Espero vocês lá.
Referências
BARBEDO, J.G.s., Lopes, A. Automatic Genre Classification of Musical Signals. EURASIP J. Adv. Signal Process. 2007, 064960 (2006). https://doi.org/10.1155/2007/64960
BOUTELL, M. R.; LUO, J.; SHEN, X.; BROWN, C. M. Learning multi-label scene classification. Pattern Recognition. Volume 37, Issue 9, September 2004, Pages 1757-1771. https://www.sciencedirect.com/science/article/abs/pii/S0031320304001074
FACELI, K.; LORENA, A. C.; GAMA, J.; CARVALHO, A. C. P. L. F. de. Inteligência Artificial: Uma Abordagem de Aprendizado de Máquina. LTC, 2011. ISBN 9788521618805.
GATTO, E. C. Classificação Multirrótulo Hierárquica: Introdução. Portal Embarcados. Publicado em 03/04/2019. Disponível em: https://www.embarcados.com.br/classificacao-multirrotulo-hierarquica-intro/ Acessado em: 27/11/2021 às 09:00.
HAN, J.; KAMBER, M.; PEI, J. Data Mining: Concepts and Techniques. Elsevier LTD, Oxford, 2011. ISBN 0123814790.
Este artigo foi escrito por Elaine Cecília Gatto - Cissa e publicado originalmente em Prensa.li.