Classificação Multirrótulo: Calculando Similaridades entre Rótulos - Parte 2
Olá pessoal. Bem vindos de volta! Hoje continuaremos nossa pequena série de artigos sobre como calcular similaridades entre rótulos! No entanto, o artigo de hoje será um pouco diferente do que vocês andaram lendo até o momento. Bom, nós vamos automatizar o processo todo desenvolvendo um script no R juntos.
Você não precisa ter nenhum conhecimento prévio de programação, nem sobre a ferramenta que vamos utilizar, que é o RStudio. O que for essencial para você saber, eu vou te ensinar aqui. É legal fazer as coisas no Excel, mas se você tiver um script no R que pode ser usado SEMPRE que você for fazer a mesma tarefa, então isso vai te economizar um tempo enorme, sem contar que será super rápido de executar também. Partiu então??!!
Instalando R e RStudio
Antes de mais nada você precisará instalar o R no seu computador. Para instalá-los em seu computador siga os tutoriais: Windows, ou Linux: R/RStudio. Feitas as instalações vocês já podem prosseguir com o tutorial. Se tiverem dúvidas, entrem em contato comigo por email.
Arquivo do Dataset
Para calcularmos as similaridades, precisaremos que o nosso dataset esteja em um formato CSV. Já deixei o arquivo do nosso exemplo preparado e vocês podem baixá-lo aqui. Se vocês quiserem criar o seu próprio arquivo, vocês podem, apenas lembrem-se de que aqui vamos usar apenas os rótulos do conjunto, não precisaremos das características (atributos de entrada).
Automatizando
Acho legal usar essa palavra aqui pois tem tudo a ver com o que vamos fazer, isto é, vamos automatizar um processo que estavámos fazendo no excel e que dava um certo trabalho. O excel sem dúvidas automatiza tarefas, mas um script pode fazê-lo com ainda mais precisão e rapidez!
Criando o projeto no RStudio
Bom, o primeiro passo é criar um projeto no RStudio. Nós vamos fazer o seguinte:
1. Entre no RStudio. Esta é a cara da minha IDE. Ela está em inglês.
RStudio IDE
2. Vamos criar um novo projeto. Vá no meu FILE, escolha NEW PROJECT, em seguida escolha NEW DIRECTORY, depois NEW PROJECT, e então deem o nome "Multirrotulo-Similaridade". Evitem sempre usar acentos e espaços nos nomes dos projetos. Cliquem em CREATE PROJECT e pronto! Aqui vocês conferem um vídeo!
3. Feito isto, vamos criar o nosso script R clicando em FILE, em seguida NEW FILE, e então R Script. Vamos criar uma pasta chamada R para armazenar os scripts R. Vocês podem fazer isso na hora de salvar o arquivo, ou então, podem criar a nova pasta na área de arquivos do RStudio clicando em NEW FOLDER. Salvem o script com o nome de Main.
Escreva a legenda e créditos da imagem
Pronto, já podemos começar a programar!
Abrindo o arquivo do Dataset
Antes de qualquer coisa, coloquem o arquivo dataset.csv dentro uma pasta chamada DATA dentro do projeto do R. Confiram aqui neste vídeo como! Vocês precisam criar a pasta DATA dentro do projeto "Multirrotulo-Similariade" ok??!! Da mesma forma que fizemos com a pasta R. No script digitem getwd(), selecionem a palavra digitada e apertem CTRL+ENTER. No console vai aparecer o caminho do projeto, que no meu caso é "/home/cissa/Multirrotulo-Similaridade".
Abaixo de getwd(), isto é, na linha seguinte, digitem dir(), selecionem e apertem CTRL+ENTER. Note que, sempre que vocês quiserem executar um ou mais comandos, vocês devem selecioná-los e apertar CTRL+ENTER. Quando fizerem isso, no console vai ser listado tudo o que tem dentro do diretório. Esse é um bom jeito de vocês saberem onde estão trabalhando no computador.
Para abrirmos o arquivo dataset.csv, primeiro precisamos setar o local onde ele está, caso contrário receberemos um erro. Digitem o caminho da sua pasta dentro de setwd(). No meu caso é setwd("/home/cissa/Multirrotulo-Similaridade/Data").
Na linha abaixo digite dataset = data.frame(read.csv("dataset.csv")). O comando setwd() nos permite mudar o local da pasta e o read.csv() nos permite ler um arquivo csv. Lembrem-se de selecionar os comandos e apertar CTRL+ENTER para que eles sejam executados. Confiram como neste vídeo!
Dataframe é um tipo de tabela que existe no R que nos permite manipular com mais facilidade as linhas e as colunas dos dados carregados. Além disso, eu usei a palavra dataset como nome de variável para armazenar os dados carregados do csv para o dataframe.
Vocês vão perceber que o arquivo foi carregado na área de ENVIROMENT. Ali é onde ficam todas as variáveis que estamos manipulando. Se vocês clicarem em cima de dataset nessa área, o RStudio abrirá uma nova janela ao lado do seu script, onde é possível ver o conteúdo da variável. Verifiquem neste vídeo!
Como nós não vamos precisar da coluna INSTÂNCIAS em nossos cálculos, então nós vamos tirá-la dos nossos dados. Digite dataset_2 = dataset[,-1] na próxima linha, selecione e aperte CTRL+ENTER. Depois digite View(dataset_2) e execute o comando. Você notará que a coluna instância não está mais presente! Eu preferi criar uma nova variável com o novo conteúdo, e assim ficar com os dados originais salvos.
Entendemos o dataframe da seguinte forma: dataset[ linha , coluna ]. Então, dataset[ , -número] vai retirar do dataframe o número da coluna que você colocar ali. O número 1 é a primeira coluna e o sinal de negativo indica remoção. Se colocarmos dataset[ -número, ] uma linha será removida e, se fizermos dataset[-número , -número] uma posição específica será removida.
Pronto, agora estamos prontos para calcular de fato, mas este artigo já ficou bem grande, então espero vocês no próximo artigo!
Este artigo foi escrito por Elaine Cecília Gatto - Cissa e publicado originalmente em Prensa.li.