Cabecera de Ccinfo
 

La información digital

Lic. Marcelo de la Puente

La revolución tecnológica de las últimas décadas, las redes e Internet han cambiado nuestra percepción de la representación y el valor de la información. Internet ha sido un detonador que impulsó el manejo y circulación de la información. Sin embargo, la inmensa cantidad de información que nos proporciona no tiene ningún control ni estructura, esto provoca que el usuario se desespere y no encuentre un sentido claro de lo que implica tener acceso a tales volúmenes de información.

La información ha sido parte fundamental de todas las civilizaciones. La manera más común de transmitirla es a través de textos contenidos en algún objeto físico, tales como manuscritos, libros, periódicos, informes, etc.

Tradicionalmente, ha sido tarea de las bibliotecas el resguardo y preservación de estos objetos, así como facilitarlos a sus lectores. Hasta hace una década no se habían preocupado por analizar o interpretar la estructura, forma o significado de la información de cada objeto.

Con el surgimiento de los textos electrónicos, las editoriales y las librerías están cambiando todos sus procesos editoriales y de distribución. Los inmensos volúmenes de papel y los grandes talleres de impresión están quedando atrás; los más audaces de esta industria están encontrando en Internet una nueva visión del negocio pero aún no ubican si las bibliotecas digitales representan un aliado o un enemigo para ellos.

El concepto de información digital se aplica para todo aquello que esta representado mediante ceros y unos dentro de una computadora. La información digital no sólo son textos electrónicos, también se incluyen las imágenes, el audio y el video, que al igual que los textos tienen diferentes formatos, codificaciones y representaciones en el mundo electrónico.

Documentos de texto, imágenes, videos, animaciones, sonidos, etc., son convertidos a formato digital y almacenados en archivos que se distinguen unos de otros mediante el empleo de etiquetas pegadas al nombre que distinguen su naturaleza (doc, txt, jpg, gif, wav, etc.).

Es aquí donde el trabajo de una biblioteca digital se vuelve más complejo ya que para conformar el repositorio de información se deben encontrar estándares eficientes para texto, imágenes, audio y video. La información digital deberá convertirse de su formato original a un formato estándar eficiente.

Los textos digitales tienen diferentes naturalezas. La primera, es obtener un texto que nazca de manera digital, es decir, que no ha existido en ningún medio impreso y se genera directamente en algún dispositivo que permite su posterior almacenamiento en un medio digital, en cualquiera de sus formatos. La segunda, es procesar textos impresos en papel para obtener textos digitales, este trabajo es conocido como OCR.

El OCR (Optical Caracter Recognition) es un proceso que convierte textos en papel a imágenes (con el uso de un escáner), y éstas a su vez son interpretadas y convertidas a texto digital, lo cual nos permite almacenarlos en algunos de los formatos más comunes (.doc o .txt, RTF o texto plano.). Este proceso es útil en la mayoría de las tipografías de los siglos XIX y XX.

Sin embargo, para documentos manuscritos antiguos o para impresos de baja calidad el OCR no resulta una buena opción y cada carácter que no haya sido reconocido requiere tiempo para su corrección, convirtiéndose en una tarea más difícil y tardada que la captura manual del documento. De acuerdo a nuestras pruebas realizadas, el proceso de OCR tiene un porcentaje de errores de casi un 2%, el número no es impactante pero si pensamos que por cada cien caracteres posiblemente tendremos dos erróneos, es un factor de error mucho más alto que el que tiene un buen mecanógrafo.

En el mercado existen diferentes marcas de software enfocado al OCR.

Es recomendable hacer pruebas antes de iniciar un largo proceso del OCR, esto evitará exhaustivas y largas correcciones posteriores. Frecuentemente algunas letras son intercambiadas por otras, sobre todo al procesar tipografías cursivas, por ejemplo, una e puede ser tomada por una c, o una l por 1.

Aunque no hay muchas pruebas que hacer cuando se trata de manuscritos de siglos atrás, en dicho caso, la opción será la captura del texto o preservar el documento sólo como imagen, que es la tercera forma de obtener un texto digital.

Una vez realizado el proceso necesario para obtener el texto digital, éste se deberá convertir a el lenguaje estándar.

Los materiales que se desarrollen pensados para formar parte del acervo de la biblioteca digital se deben realizar directamente en este lenguaje y no será necesario realizar ningún proceso anterior.

Consultora de Ciencias de la Información © 2009 - 2010