Implementación del módulo de indexación y búsqueda para el prototipo de Archivo Web Venezuela para la búsqueda de los contenidos web bajo el formato WARC / Ericka A. Montero Hernández, Hilda C. Pérez Laya ; tutor Mercy Ospina

Por: Colaborador(es): Tipo de material: TextoTextoIdioma: Español Detalles de publicación: 2016Descripción: 82 h. : il. ; 28 cmTema(s): Recursos en línea: Nota de disertación: Tesis de grado (Lic. Computación) -- Universidad Central de Venezuela, Facultad de Ciencias, Escuela de Computación, Centro de Investigación en Sistemas de Información, 2016 Resumen: El patrimonio cultural define a los pueblos y representa su herencia histórica, por lo cual es importante su preservación. El patrimonio cultural se ha clasificado como tangible (obras materiales) o intangible (generación y transmisión de conocimiento, costumbres, etc.), dentro de este último se define el patrimonio digital como aquel que ha sido originado de manera digital y abarca recursos como páginas Web, bases de datos, libros digitales, material multimedia, grabaciones, programas informáticos, entre otros. Entre estos se tienen los recursos Web que se diferencian de cualquier otro tipo de recurso digital por su naturaleza cambiante y su estructura de hiperenlaces, por lo que su preservación tiene características propias y retos que deben ser abarcados por los Archivos Web, los cuales son sistemas de información cuya finalidad es la preservación histórica de estos recursos conocidos como patrimonio Web. Una de las actividades importantes en el proceso de preservación Web es la indexación de los contenidos almacenados, ya que permite búsquedas más rápidas y eficientes. En la actualidad se está desarrollando un prototipo de Archivo Web para la preservación de Páginas web en Venezuela, actualmente en su versión 2. El presente Trabajo Especial de Grado propone una mejora del módulo de gestión de almacenamiento e indexación del prototipo, donde el contenido se está almacenando en un clúster Hadoop en el formato de almacenamiento para Archivos Web denominado WARC, con búsquedas por URL y por palabras clave que requieren del procesamiento de los WARC. Para la gestión de los índices se usa la herramienta de búsqueda SolrCloud la cual se puede integrar al sistema Hadoop. Este módulo se desarrolló usando la metodología de desarrollo basado en componente. Palabras Claves: Archivo Web, preservación Web, Formato WARC, indexación, almacenamiento, rastreo, SolrCloud, Hadoop.
Existencias
Tipo de ítem Biblioteca actual Signatura topográfica Estado Fecha de vencimiento Código de barras
Tesis y Trabajos de Ascenso Tesis y Trabajos de Ascenso Biblioteca Central Sala de Publicaciones Oficiales TESIS C2016 M778 (Navegar estantería(Abre debajo)) Available BCUCV18030120

Mecanografiado

Tesis de grado (Lic. Computación) -- Universidad Central de Venezuela, Facultad de Ciencias, Escuela de Computación, Centro de Investigación en Sistemas de Información, 2016

Incluye bibliografía

El patrimonio cultural define a los pueblos y representa su herencia histórica, por lo cual es importante su preservación. El patrimonio cultural se ha clasificado como tangible (obras materiales) o intangible (generación y transmisión de conocimiento, costumbres, etc.), dentro de este último se define el patrimonio digital como aquel que ha sido originado de manera digital y abarca recursos como páginas Web, bases de datos, libros digitales, material multimedia, grabaciones, programas informáticos, entre otros. Entre estos se tienen los recursos Web que se diferencian de cualquier otro tipo de recurso digital por su naturaleza cambiante y su estructura de hiperenlaces, por lo que su preservación tiene características propias y retos que deben ser abarcados por los Archivos Web, los cuales son sistemas de información cuya finalidad es la preservación histórica de estos recursos conocidos como patrimonio Web. Una de las actividades importantes en el proceso de preservación Web es la indexación de los contenidos almacenados, ya que permite búsquedas más rápidas y eficientes. En la actualidad se está desarrollando un prototipo de Archivo Web para la preservación de Páginas web en Venezuela, actualmente en su versión 2. El presente Trabajo Especial de Grado propone una mejora del módulo de gestión de almacenamiento e indexación del prototipo, donde el contenido se está almacenando en un clúster Hadoop en el formato de almacenamiento para Archivos Web denominado WARC, con búsquedas por URL y por palabras clave que requieren del procesamiento de los WARC. Para la gestión de los índices se usa la herramienta de búsqueda SolrCloud la cual se puede integrar al sistema Hadoop. Este módulo se desarrolló usando la metodología de desarrollo basado en componente. Palabras Claves: Archivo Web, preservación Web, Formato WARC, indexación, almacenamiento, rastreo, SolrCloud, Hadoop.

1904

No hay comentarios en este titulo.

para colocar un comentario.