Inteligência Artificial: o que são dados
Olá pessoal! Estou de volta com mais um artigo sobre os temas do momento: Inteligência Artificial (IA) e Aprendizado de Máquina (AM). Hoje vou explicar o que são Dados!
Como sempre, os meus conteúdos são para todos os públicos, isto é, não importa sua área de atuação, nem mesmo se você está no ensino médio, ou se já está na melhor idade. Tenho certeza de que vocês conseguirão entender as bulhufas dessas tecnologias estranhas que permeiam a sua vida. Bora lá minha gente?!
Dados, informações, bits e bytes!
Dados são a fonte combustível da área de AM. O que quero dizer é que sem dados AM não existe. O motivo pelo qual AM se tornou tão popular nos últimos anos é justamente porque muitos dados começaram a se tornar disponíveis na Internet. Bem, os dados só se tornaram disponíveis porque a Internet também se tornou mais acessível e o mundo começou a ficar mais tecnológico. Todo mundo usa algum sistema computacional para organizar a sua empresa e quer aparecer nas redes sociais para captar cada vez mais clientes.
Todo dia, milhões de fotos, textos e vídeos são postados na Internet, publicamente em muitos casos, portanto, esses dados públicos você pegar e usar! Além disso, áreas como as de saúde, biotecnologia, agronomia, etc., passaram também a utilizar sistemas de computação para processar exames médicos, prontuários médicos, resultados de exames, monitoramento de solo, água, etc. Enfim, tudo fica armazenado em algum computador. O que a empresa pode fazer com tudo isso? Já imaginaram ai?
No entanto, existem alguns conceitos básicos que precisamos definir aqui para que você não entenda erroneamente algumas coisas que vamos trabalhar ao longo dessa série de artigos. Primeiro, dado não necessariamente é uma informação. Digo isto pois você pode sim obter algum tipo de informação a partir de um dado, mas ela pode não estar correta. Pense na palavra MANGA.
O que veio primeiro à sua cabeça? Aposto que você pensou na fruta logo de cara. Só que manga também pode ser a manga da camisa! As palavras isoladamente podem não ter significado algum e, em nosso dicionário, podemos constatar que existem palavras que tem inúmeros significados. Portanto, em diversas ocasiões, o contexto é que vai definir o que é significa aquela palavra. O mesmo serve para os dados.
“Aquela manga está madura” é uma frase que te oferece um significado, está dizendo que você pode comer a manga se quiser, ou comprá-la, depende do contexto não é mesmo? Ainda assim, nesta frase você tem informação a respeito, é diferente de apenas “manga”. O mesmo podemos pensar com os números. O número 1 pode não significar nada, mas em um exame médico, ele pode indicar um alto índice de algum hormônio do nosso organismo, o qual pode ou não ser prejudicial á sua saúde.
Os dados e informações podem ser mensurados na computação. Por exemplo, este texto que vocês estão lendo, eu o escrevi usando o LibreOffice, uma ferramenta open source para escrever textos. Toda vez que eu salvo o arquivo, ele guarda a informação e é possível ver lá no gerenciador de pastas o valor total armazenado. Até o momento, este texto tem 330kb. Mas o que é kb? Bom, a unidade de medida básica são os bits e kb significa kilo bytes. Pra facilitar, fiz a tabela abaixo que resume as principais unidades de medida.
Termo
Significado
Exemplo
bit
0 ou 1
1
nibble
4 bits
0000
byte
8 bits
00001111
word
16 bits
0101 0101 1010 1001
double word
32 bits
0000 1111 0101 1010 0000 1111 0101 1010
quad word
64 bits
1 kilo byte (KB)
1.024 bits
1 mega byte (MB)
1.024 * 1.024 = 1.048.576 bits
1 giga byte (GB)
1.024 MB = 1.048.576 KB = 1.073.741.824 bits
1 tera byte (TB)
1.024 GB = 1.048.576 MB = 1.073.741.824 KB = 1.099.511.627.776 bits
Agora que já temos uma noção a respeito de dado, informação, bits e bytes, vamos continuar e aprender um pouco mais sobre isso tudo.
Domínios de Dados
Os dados costumam ter tipos, como veremos mais adiante, mas além disso, eles também podem ser classificados em domínios. Por exemplo, um arquivo de música contém informações sobre um música e, portanto, o seu domínio é música. Uma gravação de sons de passarinhos cantando em uma floresta é um áudio, o que é um pouco diferente do domínio de músicas, portanto, temos também o domínio de áudio.
Falamos domínios, pois se refere principalmente à área de aplicação que aquela informação pertence, por exemplo, vídeo, biologia, textos, imagens, voz, etc. Portanto, você pode ter uma coleção de imagens, que podem estar descritas nos mínimos detalhes em uma tabela, ou uma coleção de imagens que são imagens médicas digitais vindas de tomografias, ressonâncias ou raios-X. Em todos esses domínios, você pode utilizar essas coleções em um algoritmo de aprendizado de máquina. Um algoritmo vai aprender sobre imagens, outro tentará detectar doenças nas imagens médicas, outro vai tentar entender o que está sendo falado, e assim por diante.
Um texto pode ser um artigo científico, ou um artigo técnico como este, ou ainda livros, blogs, etc. No domínio de vídeos entram os filmes, animes, novelas, etc. Em biologia temos proteínas, DNA, entre outros, e por ai vai. Para cada domínio normalmente são desenvolvidas técnicas e algoritmos específicos, porque existem características particulares em cada domínio que devem ser consideradas. No entanto, esses algoritmos e técnicas podem ser adaptadas para serem usadas em outros domínios desde que bem projetado! Interessante não é?!
Tipos de Dados
Depois de aprendermos sobre os domínios de dados, vamos agora aprender um pouco sobre o tipo do dado. Você sabe me dizer a diferença conceitual entre os 1 e 1.0? De acordo com a matemática, 1 é um número inteiro e 1.0 é um número real. Legal, então temos dois tipos de dados numéricos diferentes aqui! Os números inteiros e os números podem então ser considerados dados numéricos: temperatura, salário, são dados desse tipo.
Tá, mas e se tivermos um conjunto de dados em que algumas colunas estão preenchidas com palavras. Por exemplo, poderiam ser características que indicam as cores “amarela” ou “verde”. Poderia também ser uma planilha de um banco que tem uma coluna indicando um nível de risco como “alto”, “médio” ou “baixo”. Nestes casos, os dados são chamados de categóricos, pois em sua grande maioria indicam alguma categoria.
Nem todos os algoritmos são capazes de trabalhar diretamente com dados categóricos. Então, o que fazer? Basta converter os dados categóricos para dados numéricos. Por exemplo, branco pode ser 0 e preto pode ser 1, enquanto que alto, médio e baixo podem ser 2, 1 e 0. Realizando esse mapeamento, é possível então usar os dados em diversos algoritmos, mas é sempre necessário fazer uma análise antes, pra ter certeza de qual é o melhor algoritmo a ser utilizado para o problema que está sendo tratado.
Além disso, os dados podem, ou não, ter uma ordem ou estrutura. No caso do exemplo de risco existe uma estrutura: 2 é o risco mais alto, 1 é o nível médio, e 0 é o nível mais baixo. Já no caso das cores, não existe uma ordem, ou a cor é amarela ou a cor é verde. Um número de telefone de celular, por exemplo, tem uma estrutura: +55 17 99000-1234.
Portanto, além dos dados serem categóricos ou numéricos, eles também podem ser estruturados ou não estruturados, ordinais ou não ordinais, e nominais ou não nominais. Resumindo:
Acredito que com esta imagem consegui resumir, ou melhor, sumarizar um pouco dos tipos de dados que podemos trabalhar em AM. Agora que já temos uma noção do que são dados, informações e os seus tipos, ficará mais fácil acompanhar o restante dos artigos.
Por exemplo, sempre que em um artigo houver o termo “domínio de dados”, você já vai ter o conhecimento básico do que é isso, lembrando que são dados que fazem parte de um mesmo universo, e assim por diante. Caso deseje, pode também fazer o seu próprio glossário para consultar rapidamente, anotando os termos que tem aprendido e os seus significados! Legal né? Fica a dica.
Finalizando
Pessoal, encerro o artigo por aqui. Estou muito feliz por você ter chegado até o final. Espero também que tenha gostado do que leu. Sugestões? Me mande um oi lá no linkedin tá bom! Te espero no próximo artigo.
Este artigo foi escrito por Elaine Cecília Gatto - Cissa e publicado originalmente em Prensa.li.