aviso-oportuno.com.mx

Suscríbase por internet o llame al 5237-0800



 
El sistema de archivos Babel
13-agosto-2013
Ir a la portada del BlogComentarios: 0 Lecturas: 27387 Ir a los comentarios

 
 
Credito: Infotec.

Por Ricardo Marcelín Jiménez (Infotec-UAM I)*

Se dice que las organizaciones enfrentan una crisis en sus capacidades de almacenamiento, no tanto porque no existan suficientes dispositivos finales donde guardar la información, sino por el hecho que aún están conceptualizándose los sistemas capaces de articular a un número masivo de componentes y coordinarlos para presentarlos como un solo dispositivo virtual que ofrezca una interfaz única a través de la cual pueda atenderse con calidad a un número concurrente de solicitudes.

Referente a la cantidad de información a nivel mundial, diariamente se generan alrededor de 15 Petabytes (PB). De acuerdo con un estudio realizado por la firma International Data Corporation (IDC), la información creció a una tasa del 62% entre los años 2008 y 2009, hasta llegar a cerca de 800 mil PB. En 2010, alcanzó 1.2 millones de PB, o 1.2 Zettabytes (ZB) y para 2020 alcanzará los 35 ZB. Si cada byte de información digital creado tuviera que almacenarse, habría un déficit de 35% en la capacidad disponible. Para el 2020 se estima que ésta brecha aumente a más de 60% (ver).

Un cálculo rápido nos permite estimar que a nivel mundial el mercado de almacenamiento tiene un valor de 10 mil millones de dólares.

La información es un bien intangible del cual dependen los procesos de las organizaciones modernas. El volumen de la información que éstas manejan ha crecido y seguirá haciéndolo en los próximos años. Para afrontar este escenario no se puede seguir pensando en los mismos mecanismos de almacenamiento utilizados hasta hoy porque su operación puede resultar muy costosa, tienen un límite en su capacidad de crecimiento, son más vulnerables ante ataques, desastres naturales o fallas y pueden quedar fácilmente rebasados cuando se les somete a cargas de trabajo masivas y concurrentes.

En los últimos años, los sistemas de almacenamiento han sido objeto de un gran interés por parte de las empresas y los grupos de investigación en el tema. Aun cuando su función básica consiste en repartir archivos sobre un conjunto de discos conectados en red, se reconoce también que un diseño cuidadoso puede producir funcionalidades mejoradas y atributos de calidad superiores, particularmente aquellos relacionados con la integridad, confidencialidad y disponibilidad de la información. Este tipo de sistemas se convierte en una opción muy atractiva para la gestión de un volumen de información que puede crecer hasta alcanzar escalas masivas.

Atendiendo a la necesidad que tienen las organizaciones para almacenar y compartir su información, hemos propuesto una arquitectura que puede entenderse como un conjunto de módulos de construcción que, una vez articulados, forman el sistema de archivos Babel. Su flexibilidad descansa en la posibilidad de quitar, poner o modificar algunos de esos módulos para construir soluciones a la medida. En este sentido podríamos decir que nuestra propuesta es una familia de soluciones o una metodología de diseño. Asimismo, Babel encapsula sus operaciones y ofrece una interfaz sencilla y manejable a través de la cual se pueden soportar todo tipo de aplicaciones.

Hemos puesto énfasis en resolver los requerimientos de confiabilidad, escalabilidad y latencias de servicio, sin perder de vista la administración eficiente de los recursos.

El sistema de archivos Babel es un sistema de almacenamiento masivo desarrollado en Infotec. Toma su nombre del famoso cuento de Borges, "La biblioteca de Babel". Se compone de un conjunto de máquinas con capacidades de almacenamiento y procesamiento conectadas mediante una red local. Los clientes de Babel perciben una sola máquina, denominada coordinador o proxy, que despacha las solicitudes de servicio (almacenamiento, búsqueda y recuperación de archivos) y administra los recursos. Por otro lado, los archivos se guardan de manera redundante, esto quiere decir que se crea un exceso en la información que codifica a los archivos y este exceso se guarda de forma distribuida entre los diferentes dispositivos que componen al sistema.

El beneficio inmediato del almacenamiento distribuido es que se logra la independencia entre la información y el medio en que se almacena. Visto de otra forma, los archivos que se guardan en un repositorio colectivo no dependen de un solo dispositivo para su recuperación. Si un documento estuviera guardado en una sola máquina, entonces la falla de ésta cancelaría su recuperación. En tanto, el exceso de información constituye una forma de "respaldo" que ofrece garantías de tolerancia a fallas y mejora la disponibilidad del sistema.

Algunas de las características sobresalientes de Babel:

1. El sistema puede entenderse como un disco virtual con capacidad ilimitada, al que puede accederse vía web y está en servicio de manera continua para todo tipo de aplicación.
2. Permite almacenar y recuperar con agilidad archivos de cualquier tipo garantizando su integridad y disponibilidad.
3. Incorpora mecanismos de seguridad para autenticar el acceso de los usuarios.
4. Puede crecer de acuerdo con las necesidades de su aplicación, para lo cual dispone de mecanismos de rebalanceo automático de carga.
5. Puede tolerar fallas en los medios de almacenamiento sin perjuicio de los servicios que soporta.
6. Puede implementarse con equipos de bajo costo, sobre diferentes sistemas operativos, tales como Linux, Apple Mac o Windows.
7. Cuenta con una interfaz gráfica de gestión y configuración para administrar los recursos.

En paralelo con la construcción de Babel, desarrollamos un par de aplicaciones para demostrar el potencial de nuestro sistema. Por un lado, construimos un sencillo cliente para almacenamiento de archivos personales. Por otro lado, implementamos un PACS (Picture Archiving and Communications System) o sistema para gestión y almacenamiento de imágenes médicas. El primero resuelve el almacenamiento de una memoria corporativa. El segundo pone de manifiesto el potencial de Babel para gestionar colecciones documentales, tales como las que se utilizan en los sistemas de información geográfica, por citar solo un ejemplo.

Babel nos abre las puertas para trabajar con volúmenes masivos de información, sobre los cuales podrían aplicarse técnicas de minería de datos. Se sabe que esta clase de aplicaciones se convertirán en una herramienta de gestión estratégica en áreas tales como el gobierno, el sector salud, las empresas financieras, entre otras.

Textos para consultar:
- D. McClinton, et. al. "10 emerging technologies that will change your world". Technology Review, 31-50, 2004.
- J. Gray. "What's next? A dozen information-technology research goals". Journal of the ACM, 40:41-57, 2003.
- James Manyika, et al. Big data: The next frontier for innovation, competition, and productivity, The McKinsey Global Institute, Technical Report, May 2011.

* El Dr. Ricardo Marcelín Jiménez es investigador externo del Fondo de Información y Documentación para la Industria (Infotec) y profesor titular C en el Departamento de Ingeniería Eléctrica, adscrito al Área de Redes y Telecomunicaciones de la Universidad Autónoma Metropolitana (UAM) Unidad Iztapalapa, ambas instituciones situadas en México, D. F.

***

Para más información de las actividades que desarrolla el Sistema de Centros Públicos de Investigación Conacyt, consulte las páginas México CyT y Emisión Revista México CyT; asimismo, le invitamos a escuchar la sección del blog "Con-Ciencia" en el programa "Radio 110 grados, El cuadrante científico", que se transmite cada lunes a las 14 horas (tiempo del centro).

El blog Con-Ciencia está en facebook y en twitter. ¡Síganos!

Nota del editor
El Fondo de Información y Documentación para la Industria (Infotec) ha publicado también en el blog "Con-Ciencia" los siguientes artículos:

  • Gómez Ceballos, Jonathan (Infotec). La propiedad intelectual como herramienta para generar innovación. 23 de abril de 2013.
  • Sosa Romero, Francisco (Infotec). Las bondades del software libre y los esfuerzos por impulsarlo en México. 25 de septiembre de 2012.
  • Infotec. Accesibilidad web: internet al alcance de todos. 4 de octubre de 2011.
  • Solis, Javier y Carlos Ramírez (Infotec). Web semántica: la complejidad para un internet más sencillo. 17 de mayo de 2011.
  • Infotec.Software mexicano más inteligente. 13 de mayo de 2010.
  • Participa envía tus comentariosIr a la portada del Blog
    INSTRUCCIONES: Selecciona el texto deseado y dá click en el botón correspondiente para formatearlo. Para visualizar tu comentario click Aqui
    Imagen: * Nombre: * e-mail:

    * Campos obligatorios para llenar

    Acepto las políticas de privacidad
     


     
     
    Acerca del autor
     
    Sistema de Centros Públicos de Investigación Conacyt

    Este es un blog del Sistema de Centros Públicos de Investigación Conacyt que tiene el objetivo de dar información relevante de ciencias sociales, ciencias naturales y tecnología; el conocimiento científico y tecnológico creado busca contribuir a la solución de problemas de prioridad nacional que incremente la competividad del país e impulsar el bienestar de la sociedad mexicana. Se publica cada martes.

    El Sistema de Centros Públicos de Investigación Conacyt es un conjunto de 27 instituciones distribuidas en todo el país, varias de las cuales tienen más de 30 años de historia, convirtiéndose en generadoras de conocimiento altamente especializado y competitivo a nivel nacional e internacional y es un referente para la toma de decisiones en materia de políticas públicas.

    Editor del blog: Miguel Acosta Valverde.

     
    Escribele  haz click!
     

    Entradas anteriores
     
    Experiencia política y la carrera hacia los Congresos
     
    Tecnología, vigilancia y democracia
     

    Calendario de búsqueda