Capítulo 1 Metadados de Métodos

Alessandro Samuel-Rosa1

1.1 Conceitos e definições

Um dos conteúdos mais importantes de qualquer conjunto de dados da pesquisa são os metadados de métodos. Os metadados de métodos descrevem como os dados foram produzidos. Eles incluem, desde aspectos relacionados à amostragem, passando pelos menores detalhes sobre os procedimentos laboratoriais implementados, até as correções e transformações aplicadas aos dados antes de seu uso.

Os metadados de métodos são fundamentais para possibilitar o reúso seguro dos dados da pesquisa num futuro próximo (cinco anos) ou distante (50 ou mais anos). E isso se aplica, tanto a terceiros, como a quem produziu os dados. Sem os metadados de métodos, a decisão sobre reusar ou não um conjunto de dados, e qual a maneira mais apropriada de fazer isso, fica repleta de incertezas. As pessoas interessadas em reusar os dados acabam tendo o trabalho adicional de contactar os produtores dos dados para obter mais informações. Muitas vezes, esse trabalho adicional se mostra ineficiente ou, até mesmo, impossível. Isso porque os produtores dos dados podem não ter muitas informações adicionais para compartilhar e, na pior das hipóteses, já são falecidos e não deixaram nenhum registro documental.

Os metadados de métodos também são fundamentais quando queremos utilizar dados de dois ou mais conjuntos de dados de modo combinado. São eles que permitem definir se dados de diferentes origens podem ser combinados e qual é a maneira mais apropriada de fazermos sua junção. Para compreender melhor esse cenário, suponha que dispomos de dois conjunto de dados do solo. Ambos consistem na classificação taxonômica de perfis de solo, identificada utilizando uma mesma edição do Sistema Brasileiro de Classificação de Solos. A junção dos dois conjuntos de dados parece razoável, dado que lidam com a mesma variável, a classificação taxonômica.

Agora suponha que, ao consultarmos a descrição dos métodos de campo e laboratório, identificamos que cada conjunto de dados foi produzido utilizando métodos consideravelmente distintos. Um deles utilizou descrições morfológicas e resultados de análises laboratoriais de amostras coletadas em trincheiras. Já o outro usou apenas descrições morfológicas de amostras coletadas em sondagens feitas com trado holandês. Isso significa que as variáveis são operacionalmente distintas e sua junção exigirá algum tipo de pré-processamento. Contudo, como uma classificação taxonômica inferida a partir de sondagens com trado é mais incerta do que aquela identificada usando perfis completos, dependendo da aplicação intendida, a junção dos conjuntos de dados pode passar a ser questionável.

1.2 Estrutura de metadados

Os detalhes mais importantes sobre os campos das tabelas observacao e camada são armazenados na tabela metadado usando campo_descricao, campo_unidade e campo_tipo. O primeiro deles, campo_descricao, é o mais importante de todos, onde são armazenados todos os detalhes sobre a obtenção das informações armazenadas nas tabelas observacao e camada. Por exemplo, enquanto o campo ferro_cloridrico_eaa na tabela camada identifica o conteúdo de ferro no solo determinado por espectrofotometria de absorção atômica no extrato de solução de ácido clorídrico, a tabela metadado armazena informações sobre como as amostras do solo foram preparadas, a qualidade dos reagentes utilizados e dos equipamentos empregados, a sequência de passos adotados durante a análise laboratorial, as possíveis adaptações realizadas em relação ao método padrão, e assim por diante. Nesse caso, os identificadores cloridrico e eaa são responsáveis pela maior porção da variação nos resultados – quando diferentes métodos são comparados –, enquanto as informações em campo_descricao explicam as variações de menor magnitude nos resultados.

Os campos campo_unidade e campo_tipo destinam-se a informações mais específicas sobre os dados armazenados nas tabelas observacao e camada. O primeiro deles armazena a unidade de medida, a qual também é armazenada na segunda linha de ambas as tabelas observacao e camada. No momento, o autor ou responsável pelos dados precisa informar a unidade de medida em ambas as tabelas. Como isso pode ser fonte de erros, se pretende implementar no futuro uma rotina automatizada de preenchimento do campo campo_unidade a partir das informações inseridas nas tabelas observacao e camada. O segundo campo, campo_tipo, serve para armazenar a categorização das informações contidas nas observacao e camada. As categorias possíveis são descritas na Tabela 1.1.

Tabela 1.1: Tipificação de dados de variáveis do solo.
Tipo Descrição Exemplo
Inteiro Números positivos ou negativos sem casas decimais Número de subamostras coletadas, número de identificação de uma amostra
Real Números positivos ou negativos com casas decimais Conteúdo de argila, Profundidade do solo, elevação acima do nível do mar
Texto Uma cadeia de caracteres alfanuméricos e especiais Classificação taxonômica, descrição morfológica
Booleano Um valor verdadeiro (1) ou falso (0) Presença/ausência de carbonatos, presença/ausência de cerosidade
Data Datas na representação aaaa-mm-dd Data em que as amostras foram coletadas
Moeda Números com casas decimais representando moeda corrente Valor monetário da terra, custo monetário de análise de uma amostra

O último grupo de colunas da tabela metadado está destinado à identificação do laboratório responsável pela geração dos dados armazenados nas tabelas observacao e camada. Essas informações são necessárias para que os usuários dos dados possam sanar quaisquer dúvidas sobre a consistência dos dados que por ventura surjam durante a sua utilização.

Tabela 1.2: Campos usados na identificação de laboratórios responsáveis pela produção de dados do solo.
Campo Nome Descrição
lab_nome Nome do laboratório Nome do laboratório responsável pela geração dos dado do respectivo campo da tabela observacao ou camada.
lab_endereco Endereço físico do laboratório Endereço físico do laboratório responsável pela geração dos dados do respectivo campo da tabela observacao ou camada. Informar rua, número, complemento, bairro, cidade, estado, CEP e país.

  1. Dr. Alessandro Samuel-Rosa é professor na Universidade Tecnológica Federal do Paraná, Departamento de Agronomia, Prolongamento da Rua Cerejeira, s/n, CEP 85892-000, Santa Helena, Paraná, Brasil.


Licença Creative Commons Exceto quando proveniente de outras fontes ou onde especificado o contrário, o conteúdo desta página está licenciado sob uma licença Creative Commons Atribuição-NãoComercial-CompartilhaIgual 4.0 Internacional.