Friday, March 16, 2012

Sobre bases de datos muy grandes

Un tema que poco a poco se convertirá en algo cotidiano es hablar de grandes bases de datos (Very Large Databases (VLDB). Esto es un asunto que va de la mano con los avances de la tecnología. Por ejemplo, en los años de la Apple //e, en un diskette cabían 77Kbytes solamente. Casi cualquier imagen que podamos generar ocupa más espacio que eso. Y curiosamente se podían escribir programas para la Apple //e y además, guardar información en diskettes, etc. eso sí, teníamos muchos disquitos de 5.25 pulgadas pero no había otro remedio. De hecho, alguna vez vi un disco duro con 10 megabytes para esta maquinita. Como los sistemas operativos estaban tan limitados, los creadores de este nuevo dispositivo de almacenamiento habúan partido el disco en unos 140 volúmenes, los cuales podían ser accedidos por la Apple //e.

Hoy hablamos de gigabytes y ya de pronto no es tan fuera de lo común hablar de terabytes. Así que es de esperarse que en el futuro hablemos quizás de Petabytes. Ahora los seres humanos necesitamos más espacio de almacenamiento. Para los estándares de hace unos años, vivimos una época con gran capacidad de almacenamiento, pero parece que siempre es poca.

Y esto tiene relación con mi artículo anterior sobre el fichaje que hizo el SAT, tomándome medidas biométricas que en mi opinión, son ilegales porque invaden la privacidad. Si para dar los tres tristes datos que pedían en el registro de celulares era un problema, estos datos que recolecta el SAT parecen de verdad inadmisibles. Me gustaría saber quién implementó esta idea y por qué no se ha hecho pública. Max de Mendizábal comentó vía Facebook que era inconstitucional. Habrá que analizar esto.

El punto es que las grandes bases de datos tienden a ocupar un lugar en nuestras vidas. El IFE tiene una base de información de unos 88 millones de mexicanos, si es que no me equivoco en la cifra que creo recordar. Como sea, aunque 88 millones de registros parecen muchos, son manejables con los diferentes esquemas de bases de datos relacionales que hay ahora. Aún así, poco a poco nos vamos acercando a la necesidad de manejar cada vez más información.

Yo no sé cuántos contribuyentes tenga registrados el SAT, pero de acuerdo a una nota del Universal, en agosto del 2012 había unos 30 millones de personas. Si todos ellos han hecho el trámite de la Firmal Electrónica (FIEL), una suposición no estrictamente cierta, es claro que el SAT tiene los datos biométricos de todos ellos y por ende, si tenemos 10 dedos, una foto de nuestro rostro y otra de nuestros iris, esto suma 12 campos por persona, cosa que no califica como una gran base de datos. El asunto es que la información que se guarda (independientemente de los registros fiscales de la base de datos, nombre, RFC, etc.), no califica como números o texto. No, son datos biométricos que programas especiales pueden analizar para encontrar, por ejemplo, si una huella digital pertenece a una persona en particular. Cabe decir que a pesar de que los algoritmos de búsqueda de huellas digitales suelen ser muy rápidos, una búsqueda en una base de datos de huellas de datos de criminales, en los Estados Unidos, puede llevar días.

El punto es que no es fácil indizar los datos biométricos, porque la naturaleza de los mismos es diferente a los que vemos cuando ponemos fechas o nombres. En consecuencia, el manejo de la base de datos tiende a hacerse mucho más complejo.

Desde luego que hablo de forma general y que no tengo toda la información sobre qué formatos se usan para guardar las huellas digitales o el iris de los ojos, pero evidentemente el problema con el que tenemos que lidiar es que la naturaleza de los datos no hace muy práctica la indización para hacer búsquedas, de manera rápida.

Pero regresando a la base de datos biométricos que tiene el SAT, el usuario de Twitter @SiSoyVega, me dijo que él (o la empresa de ese usuario), es quien diseñó y lleva el manejo de esta base de datos. Le pedí a dicho usuario que me diera qué empresa es quien se estaba encargando de este trabajo y ha guardado silencio.

Sería interesante saber, por ejemplo, quién garantiza la confidencialidad de los datos, asunto crucial. Y no es el unico dato importante, hay otros: ¿Quién tiene derecho a acceder a estos datos? Quiero creer que el concurso para ganar la licitación de este trabajo monumental se puso públicamente y que los resultados también lo son. Así que no entiendo por qué ya @SiSoyVega ya no me contesta. Es verdaderamente curioso.

Aquí dejo esto, pero seguiré indagando porque me parece un asunto por decir lo menos: muy peculiar.

4 comments:

Marco A. Dorantes said...

La técnica es otro gran tema en torno al cual se requiere, también, pensar con claridad y rigor. Sobre todo para quien aspira a no sólo consumir, acarreado por el mercantilismo, los productos tecnológicos sino a crearlos.

El problema al decidir qué hacer con el poder de la tecnología tiene un nada trivial talante ético. ¿Pero quién toma esas decisiones? ¿El perfil político o el perfil técnico? Me parece que, arriesgando una sospecha hacia el extremo realista del espectro nacional, no pocas organizaciones de gobierno están como el caso —a manera de ilustración— aquel de regalar una pistola cargada a un infante para que, irresponsablemente, esté a la “narco-moda”.

Como con tantos otros desafíos en nuestra sociedad: hay mucho por hacer, incluyendo pensar, y pensar cada vez mejor al respecto. Unas reflexiones adicionales:

Hacia un pensar tecnológico
http://blogs.msdn.com/b/destreza/archive/2011/07/29/pensamientotecnico.aspx

¿Infoadicción?
http://blogs.msdn.com/b/destreza/archive/2011/08/01/infoadiccion.aspx

Esteban Gutierrez said...

Morsa hacer busquedas sobre datos biometricos es viejo y trivial. Lo padre es lo que se esta haciendo:
http://www.slideshare.net/ydn/3-biometric-hadoopsummit2010

Alex said...

La empresa se llama Vagent, es la misma que se encarga de la credencialización en el IMSS (en el cual también te registran las huellas dactilares de todos los dedos de ambas manos si mal no recuerdo).

http://mx.groups.yahoo.com/group/colegiouniondecontadores/message/207

Cesar Sebastian Gomez said...

Super interesante el aporte, esos serian las bases de datos de los servidores, pero cual seria la solución si no queremos guardar nuestra información en servidores?
quisiera aprovechar e invitarles a formar parte de una red de negocios,
http://miembrosvitcenter.com/oportunidad-vitcenter-introduccion
para mas informaciones contactar a: cesargomez@vitcenter.net
o en skype: cesargomez.vitcenter
desde ya muchas gracias y que Dios les bendiga.
by autoayuda