Qualidade de Dados

By 5 de março de 2021Uncategorized

Todos aqui que tiveram que entregar um relatório para o chefe já sentiram na pele a importância de ter uma base de dados com qualidade e bem estruturada.

Ou se precisaram fazer alguma análise, já sofreram em tentar cruzar diversas planilhas fazer uma bater com a outra, descobrir no meio do caminho que existem dados faltando, mal preenchidos ou com valores errados.

Não é segredo nenhum que para qualquer entrega que envolva utilização de dados, a qualidade da base de dados é fator determinante para um bom resultado.

Em projetos de machine learning por exemplo, boa parte do trabalho do cientista é preparar a base que servirá de entrada ao algoritmo, e neste caso a importância da qualidade é ainda maior.

A grande maioria dos modelos “preditivos” utilizados atualmente são o que chamamos de modelos supervisionados. Isso significa que para treinar a máquina, você precisa de um razoável volume dados cuja variável que queremos prever já tenha seu valor descoberto (os famosos dados históricos).

Vou me explicar melhor. Se quisermos, por exemplo, prever um valor de pagamento de um processo, precisamos de uma base histórica que tenha todos os valores preenchidos corretamente.

Mas mesmo se verificarmos que todas as linhas estão preenchidas, muitas dúvidas podem surgir: Foi um acordo ou indenização? O valor incluí danos morais? O valor é o total ou parcelado? Os casos sem valor zerado não foram preenchidos ou houve êxito?

Estas são, apenas algumas perguntas que nós fazemos durante alguns trabalhos de ciência de dados aqui na Legal Insights. Existem outras inúmeras dúvidas que surgem durante a análise e preparação das bases de dados para a utilização.

Meu ponto aqui é que mesmo com a base 100% preenchida, existe (e sempre existirá) algum grau de incerteza que temos que aceitar para que estejamos confortáveis em usá-los, principalmente criando modelos preditivos mais sofisticados.

Por isso, gostaria de deixar algumas “dicas” de como trabalhar a qualidade de dados da base e aumentar a confiança e conhecimento sobre ela.

  1. Ver os dados como ativo da empresa: Uma coisa que sempre falo para meus clientes é que os dados são um ativo da empresa, e por isso, devem ser tratados como tal. Portanto temos que ter em mente é que, mesmo que o processo de cadastro de dados seja um processo operacional e repetitivo, não podemos ver como uma tarefa de pouca importância. Temos que pensar em sistemas que priorizem o user experience do usuário, dar treinamento constante para equipes de cadastro, entender a fundo quais são as informações relevantes e quais não são (evitar cadastros longos e desnecessários), e por fim definir um “guardião” dos dados que é responsável por, periodicamente, revisar os dados e o processo de cadastros a fim de otimizar o processo.
  2.  Entender a real qualidade da base: Lembro em uma reunião com um potencial cliente, que uma das pessoas reclamou bastante da base de dados, e o diretor questionou: “Mas não é com essa base que entregamos os números para a auditoria?”. Esse episódio diz muito sobre nossa percepção em relação a base de dados. Muitas vezes o trabalho manual, repetitivo e desafiador de gerar os relatórios faz com que colocamos nossas frustações na “base de dados” e não no processo em si. Portanto o primeiro passo para melhorar é entender a real situação dos dados. Para isso existem diversas técnicas e conceitos de qualidade de dados, como TDQM (Total Data Quality Management) que permitem uma avaliação real da qualidade de dados utilizando métricas, e priorização do que é mais importante para a empresa.
  3.  As tratativas são constantes: Uma das coisas que posso citar como erro é querer “corrigir” a base de uma vez só, em um projeto único e nunca mais olhar para a base. Ou mesmo trocar de sistema e acreditar que a base será corrigida na implantação do novo software. A base está em mudanças constantes (atualizações, novas inclusões e etc.) e um projeto de qualidade de dados deve prever o que deve ser feito na “pós-higienização”. Os formulários de cadastro foram adaptados? Como vamos monitorar a qualidade de dados? Quais as métricas de qualidade?
  4.  Pondere o custo-benefício da base de dados: Dificilmente uma base de dados estará 100% preenchida corretamente. Eventualmente campos com valores incorretos ou não preenchidos estarão na base e você terá que conviver com isso. Porém vale ressaltar que mesmo em fase de higienização, preencher 100% das colunas pode não ser o mais inteligente a se fazer. É importantíssimo que uma revisão da importância de cada coluna seja feita, pensando no agora e nas possibilidades futuras de análise.
  5.  Não se limite ao sistema: A última dica que gostaria de ressaltar é que existem diversas fontes de dados que podem (e devem) ser combinadas para auxiliar na higienização e na manutenção da qualidade de dados. Pense em relatórios de outros sistemas, planilhas do financeiro (contas a pagar), planilhas dos escritórios, documentos dos processos e diversas outras fontes de dados. Claro que existem desafios em utilizar estas bases adicionais, como chaves de cruzamento e extração de dados de documentos de forma automatizada, porém vale sempre manter a mente aberta e pensar “fora da caixa” quando se está buscando fontes para enriquecimento da base de dados.

Para concluir, muitas empresas já estão tendo ótimos resultados na tomada de decisão baseada em dados, mesmo que sua base de dados não esteja 100% higienizada e preenchida. Basta entender realmente quais são os “furos” da base, e avaliar se estes furos vão realmente impactar nas análises que precisam ser feitas.

Leave a Reply