Bones pràctiques per a recol·lectar dades

20 octubre 2020

Temps de lectura 5 minuts

Després de posar de manifest que una entitat ha de recol·lectar dades en l’article anterior, ara volem parlar de quines són les bones pràctiques a seguir per a dur-ho a terme. 

Dades vol dir informació, i cada entitat ha de personalitzar la recollida de dades en funció de la informació que vulgui aconseguir. Però… és possible aconseguir qualsevol tipus de dades? Què passaria si les dades caiguessin en mans equivocades? Es poden recol·lectar dades que puguin promoure el biaix o la discriminació? Com ens assegurem de què els drets de les persones són respectats?

Què volem recol·lectar?

Abans de començar a emmagatzemar dades és important analitzar quina informació es necessita i amb quin objectiu. Es tracta d’un exercici imprescindible que permet desenvolupar una metodologia sistemàtica per a recol·lectar, emmagatzemar i tractar les dades amb els mecanismes adients. De fet, garanteix que la informació que s’obté doni resposta a totes les preguntes que es vulguin fer. Aquest exercici és rellevant per assegurar-se que les dades es recol·lecten de forma òptima, evitant duplicats, i que s’emmagatzemen de la forma més acurada possible reduint al màxim l’error humà.

Legalitat

Les dades personals o sensibles han de ser tractades amb especial atenció. Per una banda, les dades personals es refereixen a informació que identifica directament o indirectament a una persona. Per altra banda, les dades sensibles son aquelles que fan referència a la salut (com les dades genètiques, mostres clíniques, etc.), l’origen ètnic o racial, ideologies, dades biomètriques dirigides a identificar de manera unívoca una persona física, i les dades relatives a la vida sexual o l’orientació sexual d’una persona física.

Com a dret constitucional, legislativament, la protecció de dades personals ha estat desenvolupada per diverses lleis orgàniques. En primer lloc, per la LORTAD de 1992, substituïda posteriorment per la LOPD de 1999, que ha estat vigent fins a l’aplicació definitiva, al maig de 2018, del reglament europeu (RGPD). Els principis bàsics del RGPD són: 

  • licitud, lleialtat i transparència: les dades només es poden tractar si la persona o entitat responsable té una base legítima per fer-ho;
  • limitació de la finalitat i minimització de dades: tractar les dades recollides només per a finalitats determinades, explícites i legítimes, i sol·licitar dades adequades, pertinents i limitades d’acord amb les finalitats per a les quals són tractades; 
  • exactitud: tractar dades exactes i mantenir-les actualitzades; 
  • limitació del termini de conservació: no utilitzar dades durant més temps del necessari per a les finalitats del tractament per al qual es van sol·licitar;
  • integritat i confidencialitat: aplicar les mesures de seguretat tècniques o organitzatives necessàries per a garantir la seguretat i confidencialitat de les dades, i repetir periòdicament l’applicació d’aquestes mesures; i
  • responsabilitat proactiva: garantir el respecte als principis anteriors i ser capaç de demostrar-ho. 

En poques paraules podem dir que no hi ha millor forma de protegir les dades personals que sol·licitant-ne només aquelles que siguin indispensables i conservant-les el mínim temps possible.

Els ciutadans també tenen drets respecte a les seves dades, aquests són: accés, rectificació, supressió i portabilitat. I respecte al seu tractament: limitació i oposició.
Aplicar els principis establerts legalment i adoptar mesures de seguretat garanteix la correcta aplicació de la normativa de protecció de dades com també protegeix el dret de les persones. És per aquest motiu que es recomana l’assessorament legal i tècnic per tal de complir amb la normativa vigent. 

Bona estructuració de les dades

Sovint es diu que el 80% de l’esforç que es dedica a l’anàlisi de les dades es destina al procés de neteja i preparació d’aquestes. És per això que és clau dissenyar el model de dades abans de començar el procés de recol·lecció. L’estructuració de les dades proporciona una manera normalitzada d’enllaçar l’estructura d’un conjunt de dades (la seva disposició física) amb la seva semàntica (el seu significat).

Un conjunt de dades és una col·lecció de valors, generalment de números (si són dades quantitatives) o de text (si són qualitatives). Els valors s’organitzen de dues maneres. Cada valor pertany a una variable i a una observació. Una variable conté tots els valors que mesuren el mateix atribut subjacent (com l’alçada, la temperatura, la durada) entre les unitats. Una observació conté tots els valors mesurats a la mateixa unitat (com una persona, un dia o una cursa) entre atributs.

En general, una base de dades s’estructura mitjançant l’ús de taules que es componen de registres (files) i camps (columnes). Un cop recollides les dades crues o primàries, és a dir, les que no han estat subjectes a cap tractament ni a cap manipulació, s’inicia un procés de normalització per tal d’organitzar-les, classificar-les en noves taules, i establir una relació entre elles.

Cada taula ha d’incloure com a mínim un camp que contingui valors únics per tal de diferenciar cada registre. Un bon exemple d’això és: el número de carnet d’identitat, l’identificador d’una comanda, etc. 

Una bona organització de les dades seria la següent:

  • Cada variable forma una columna.
  • Cada observació forma una fila.
  • Cada tipus d’unitat observacional forma una taula.

I els errors més comuns de dades no organitzades són:

  • Les capçaleres de columna són valors, no noms variables.
  • Múltiples variables s’emmagatzemen en una columna.
  • Les variables s’emmagatzemen tant a files com a columnes.
  • A la mateixa taula s’emmagatzemen diversos tipus d’unitats d’observació.
  • Una sola unitat d’observació s’emmagatzema en diverses taules.

Identificar l’objectiu amb el que s’analitza les dades és vital per poder dissenyar una estructura idònia que s’adapti a les necessitats de cada entitat. Alhora permet desenvolupar mecanismes que ajudin a evitar dades redundants o duplicades que poden comportar errors i incoherències. 

“Dades vol dir informació que et pot dur a l’acció.
Imagina que tens tota la informació al teu abast – què faries?
Si no ho saps, no la recol·lectis.”

Encreuament de dades

La majoria de les bases de dades necessiten més d’una taula per poder emmagatzemar la informació de manera lògica i estructurada, però s’han de distribuir de manera significativa per tal d’evitar la duplicació de camps i garantir la relació entre elles. 

Tal com s’ha explicat en el paràgraf anterior, una taula ha de tenir, com a mínim, un camp que tingui valors únics per cada registre que s’anomena la clau primària. L’element triat per definir unívocament la resta d’atributs i valors, alhora també serveix de referència per relacionar les taules entre elles. És a dir, la columna en comú és la clau principal d’una taula i la clau forana o externa de l’altra. 

Les relacions entre taules poden ser de tres tipus. En primer lloc, la relació un a un en què es garanteix la univocitat. Un exemple és que el número de professional que rep cada persona que forma part de la plantilla d’una empresa, té associat un únic número de carnet d’identitat. En segon lloc, la relació un a molts en què un sol cas està relacionat amb més casos d’una altra taula. Un exemple és la persona responsable d’una aula en relació al seu alumnat. I, en tercer lloc, la relació molts a molts en què hi ha vàries ocurrències a ambdues parts. Un exemple és una persona voluntària que participa en diversos projectes, i aquests projectes disposen de més persones voluntàries. 

 

Ètica

Com hem comentat anteriorment, la responsabilitat proactiva és un dels principis bàsics del RGPD. Aquest principi exigeix a les organitzacions que analitzin quines dades tracten, amb quina finalitat ho fan, i quin tipus d’operacions de tractament duen a terme. 

La falta de responsabilitat proactiva pot ocasionar injustícies i perpetuar desigualtats. Aquest va ser el cas de l’algoritme usat pel Govern Espanyol per a decidir si les persones que viuen en una vivenda vulnerable poden rebre el bo social per tal de rebre un petit descompte a la factura de la llum. La Fundació Ciutadana Civio va investigar aquest algoritme i va posar de manifest certs errors que feien que no apliquessin correctament les regles definides, perpetuant, així, la vulnerabilitat d’aquestes vivendes. 

L’ètica que hi ha darrere de la responsabilitat proactiva està esbiaixada per les nostres percepcions. I, alhora, les nostres percepcions estan configurades pels nostres temps. Les idees socials de virtut, justícia, bondat, i equitat no són les mateixes avui en dia que fa uns quants milers d’anys, i poden seguir canviant. Així que és responsabilitat de tothom esforçar-nos per fer el màxim possible èticament i tractar a totes les persones amb els màxims estàndards de respecte i cura.

Autoria

DataForGoodBCN, Associació sense ànim de lucre que promou l’ús de dades en entitats que treballen per un impacte positiu a Barcelona. Ho fa mitjançant voluntariat i assessorament en projectes relacionats amb dades.