domingo, octubre 23, 2011

OCR: convierte el texto de una imagen o pdf en archivo de texto editable

Seguro que os habréis encontrado alguna vez con la necesidad de utilizar el texto contenido en una imagen o de un pdf del que conserváis la copia en papel y no digital. Pues bien, con el reconocimiento óptico de caracteres podréis obtener unos muy buenos resultados.

Hay varios programas disponibles para Ubuntu que realizan esta opción más o menos con la misma efectividad. En mi caso, voy a utilizar dos:

sudo apt-get install gscan2pdf
sudo apt-get install tesseract-ocr-spa

Con el primero de ellos, escanearemos el documento o la imagen y podremos seleccionar que motor queremos usar para el OCR. En nuestro caso, queremos usar el tesseract-ocr-spa. Tesseract es por hoy, el que mejores resultados arroja. Además, con este paquete estamos indicando que queremos la versión en español (spanish). Al instalar el programa, la interfaz que obtenemos es la siguiente:


En la barra que aparece de herramientas tenéis distintas funciones, como la de abrir una imagen de archivo, enumerar sucesivas páginas, obtener las imagenes por escaner, etc.. Si se escoge esta última opción, os encontraréis con algo parecido a esto:



Justo en la parte inferior, donde pone "páginas escaneadas OCR", en el menú desplegable, tenemos que seleccionar Tesseract, y en Idioma, español. Si navegáis por las distintas pestañas, tenéis diversas opciones ya a gusto del consumidor. Una vez configurado a nuestro gusto, le daremos a "Escanear" para que comience el proceso. 


Cuando termine el escaneado, nos saldrá un mensajito que os avisará de que se está pasando la imagen escaneada bajo el "filtro" del OCR. Es decir, que se está intentando detectar lo que hay de texto en esa imagen.


Cuando termina el proceso, en un primer plano observaremos el documento escaneado tal cual. Justo al lado, está la pestaña que pone "Resultado OCR", donde nos debe aparecer el texto detectado. Decir que en la pruebas realizadas por mi parte, el resultado ha sido totalmente decepcionante. En cambio, a muchos usuarios les funciona sin problemas, así que no descarto que sean deficiencias por la resolución del escaner, que no ande muy ajustada.  

Os pongo una de las pruebas que realicé para que juzguéis vosotros mismos:

El texto escaneado tal cual

El resultado del OCR

Espero que a vosotros os sea más útil que a mí y os funcione a las mil maravillas. Un saludo!! ^^


6 Comentarios :

  1. No inventes que maravilla es este programa, me has salvado la vida amigo guau estoy infinitamente agradecida contigo muchas gracias!!!

    ResponderEliminar
    Respuestas
    1. Hola Anónima

      Me alegro que te haya funcionado. Un saludo!! ^^

      Eliminar
  2. Gracias, funciona de manera aceptable =)

    ResponderEliminar
  3. El mejor convertidor que me he encontrado es Able2Extract. El problema es que no es gratuito y sólo dan una semana para probarlo con un límite de 3 páginas. Creo que es de lo mejor, yo lo probé con un archivo que tenía bastante basura y se la quitó casi toda. Sólo hubo que hacer muy pocas correcciones al final. Para quien desee revisarlo esta es la liga
    http://www.infoclaps.com/2014/09/como-converter-imagens-digitalizadas-em.html

    ResponderEliminar

 
Google+