Seus dados são confiáveis?
Seus dados são confiáveis?

Seus dados são confiáveis?

Até onde pode-se seguir com dados falhos? Há algum limite no uso de dados ruins?

Em nosso dia a dia, temos acesso a alguns dados novos que podem oferecer insights importantes para o negócio. Mas não pode haver uma indicação de que essa nova informação não seja confiável. Como se deve proceder nesta situação? Até onde pode-se seguir com dados falhos? Há algum limite no uso de dados ruins?

Para ajudar os analistas de dados e gestores a entender se os dados que eles estão trabalhando são confiáveis o suficiente para seguir com a análise, o escritor Thomas C. Redman desenvolveu um esquema para facilitar o processo de entendimento destes dados. Neste texto, desenvolvemos uma versão em português para o artigo “Can your Data Be Trusted?” do autor.

Qual é a fonte dos dados?

Segundo o autor, a primeira pergunta a ser feita é ‘Os dados foram criados de acordo com um programa de qualidade de dados de primeira categoria?’ No livro Data Driven, também escrito pelo mesmo autor do artigo, está a explicação detalhada para o que Redman define como um sistemas de qualidade de dados.

Mas de uma forma básica, o autor nesta etapa quer fazer o alerta ao quanto é confiável a fonte dos dados. É importante se certificar de onde os dados foram criados e como são definidos, e não apenas como alguém os acessou. Questione ao seu time de Cientista de Dados o quanto seguro e confiável são as ferramentas que geraram os dados. É importante ter em mente que esta etapa irá calibrar todas as próximas.

“Você pode confiar nos dados quando eles são criados de acordo com um programa de qualidade de dados de primeira linha (eu descrevo completamente esses programas em meu livro, Data Driven). Eles apresentam responsabilidades claras para os gerentes criarem dados corretamente, controles de entrada e esforços para encontrar e eliminar as causas-raiz do erro. Você não precisará opinar se os dados são bons – as estatísticas de qualidade de dados serão informadas. Você encontrará um ser humano que terá prazer em explicar o que você pode esperar e responder às suas perguntas. Se as estatísticas de qualidade dos dados parecerem boas e a conversa correr bem, confie nos dados. Por favor, note que este é o “padrão ouro”, contra o qual os outros passos abaixo devem ser calibrados.”

Se os dados não atenderem a esse padrão ouro, conduza sua própria avaliação de qualidade independente e limpe os dados em três níveis: “um enxágüe”, “uma lavagem” e “um esfoliante”, conforme iremos abordar neste texto.

Avalie qualidade do dado independentemente

Algumas vezes os dados até foram desenvolvidos usando um data warehouse baseado em nuvem que emprega a mais recente tecnologia, mas os dados foram criados em um fórum público duvidoso, por exemplo. É sua responsabilidade descobrir a organização criadora de dados. Aprofunde-se: o que os colegas aconselham sobre essa organização e os dados? Tem uma reputação boa ou ruim de qualidade? O que os outros dizem nas mídias sociais? Faça alguma pesquisa dentro e fora da sua organização.

Ao mesmo tempo, desenvolva suas próprias estatísticas de qualidade de dados. Por exemplo, se os novos dados envolverem perfil de compra dos clientes, esses elementos de dados podem incluir “nome do cliente”, “item comprado” e “preço”. Examine cuidadosamente cada elemento de dados. Os erros óbvios irão saltar para você – os nomes dos clientes estão digitados incorretamente, o item comprado é um item que você não vende, o preço pode estar faltando, entre outros erros de cadastro. Marque esses erros óbvios e compare com a fração de registros sem erros. Se a base apresentar menos de 5% dos registros com um erro óbvio, os dados poderão ser usados com cuidado. Não é necessário fazer esta análise para o banco inteiro, observar os 100 primeiros registros é o suficiente para definir a qualidade do banco.

O autor propõe a limpeza dos dados em 3 níveis: “um enxágüe”, “uma lavagem” e “um esfoliante”. “Enxágue” substitui erros óbvios por “valor faltante” ou os corrige se isso for muito fácil; “Esfoliante” envolve um estudo profundo, mesmo fazendo correções de uma só vez, manualmente, se necessário; e “Lavagem” ocupa um meio termo entre os dois conceitos descritos anteriormente. Empregue todos os meios de limpeza de dados possíveis e seja implacável! Elimine registros de dados errados e elementos de dados que você não pode corrigir e marque os dados como “incertos”, quando aplicável.

Quando terminar, avalie se a limpeza foi o suficiente, ou seja, se você criou um conjunto de dados com taxas altas na escala confiável. Se sim, não há problema em seguir em frente usando esses dados. Se a limpeza não foi satisfatória – por exemplo, muitos preços parecem errados e você não pode fazer correções – você deve classificar esses dados, e todos como se fossem, como indignos de confiança. A amostra sugere fortemente que nenhum dos dados deve ser usado para informar sua decisão.

Garanta a integração de dados de alta qualidade

Alinhe os dados nos quais você pode confiar – ou os dados com os quais você está avançando com cautela – com seus dados existentes. Há muito trabalho técnico aqui, então é importante garantir que três coisas sejam bem feitas:

Identificação: Verifique se um determinado cliente em um conjunto de dados é o mesmo em outros.

Alinhamento de unidades de medida e definições de dados: certifique-se de que as compras e os preços pagos, expressos em “paletes” e “dólares” em um conjunto, estejam alinhados com “unidades” e “euros” em outro.

Desduplicação: Verifique se um registro não aparece várias vezes de maneiras diferentes (Exemplo, Ligia Galvão pode estar repetido com a escrita de Ligia Galvao ou Ligia G).

Preste especial atenção quando obtiver resultados diferentes com base em dados “use com cuidado” e “confiáveis”. Quando um resultado parecer intrigante, isole os dados e repita as etapas acima, fazendo medições mais detalhadas, aprofundado a limpeza e melhorando as rotinas dela. Ao fazer isso, desenvolva uma ideia de quão profundamente você deve confiar nesses dados.

Conclusão

Thomas Redman faz um importante alerta em seu artigo: Os dados não precisam ser perfeitos para gerar novos insights, mas você precisa ter cautela ao entender onde estão as falhas, contornar erros, limpá-los e recuar quando os dados simplesmente não forem bons o suficiente. E não hesite em consultar o gráfico acima a qualquer momento em que dados promissores de uma fonte desconhecida aparecerem em seu caminho.

Vamos analisar!

ExibirMinimizar
aci institute 15 anos compartilhando conhecimento