Hay varios programas disponibles para Ubuntu que realizan esta opción más o menos con la misma efectividad. En mi caso, voy a utilizar dos:
sudo apt-get install gscan2pdf
sudo apt-get install tesseract-ocr-spa
Con el primero de ellos, escanearemos el documento o la imagen y podremos seleccionar que motor queremos usar para el OCR. En nuestro caso, queremos usar el tesseract-ocr-spa. Tesseract es por hoy, el que mejores resultados arroja. Además, con este paquete estamos indicando que queremos la versión en español (spanish). Al instalar el programa, la interfaz que obtenemos es la siguiente:
En la barra que aparece de herramientas tenéis distintas funciones, como la de abrir una imagen de archivo, enumerar sucesivas páginas, obtener las imagenes por escaner, etc.. Si se escoge esta última opción, os encontraréis con algo parecido a esto:
Justo en la parte inferior, donde pone "páginas escaneadas OCR", en el menú desplegable, tenemos que seleccionar Tesseract, y en Idioma, español. Si navegáis por las distintas pestañas, tenéis diversas opciones ya a gusto del consumidor. Una vez configurado a nuestro gusto, le daremos a "Escanear" para que comience el proceso.
Cuando termine el escaneado, nos saldrá un mensajito que os avisará de que se está pasando la imagen escaneada bajo el "filtro" del OCR. Es decir, que se está intentando detectar lo que hay de texto en esa imagen.
Cuando termina el proceso, en un primer plano observaremos el documento escaneado tal cual. Justo al lado, está la pestaña que pone "Resultado OCR", donde nos debe aparecer el texto detectado. Decir que en la pruebas realizadas por mi parte, el resultado ha sido totalmente decepcionante. En cambio, a muchos usuarios les funciona sin problemas, así que no descarto que sean deficiencias por la resolución del escaner, que no ande muy ajustada.
Os pongo una de las pruebas que realicé para que juzguéis vosotros mismos:
El texto escaneado tal cual |
El resultado del OCR |
Espero que a vosotros os sea más útil que a mí y os funcione a las mil maravillas. Un saludo!! ^^
No inventes que maravilla es este programa, me has salvado la vida amigo guau estoy infinitamente agradecida contigo muchas gracias!!!
ResponderEliminarHola Anónima
EliminarMe alegro que te haya funcionado. Un saludo!! ^^
Gracias, funciona de manera aceptable =)
ResponderEliminarGracias a ti por el comentario.
EliminarUn saludo!
El mejor convertidor que me he encontrado es Able2Extract. El problema es que no es gratuito y sólo dan una semana para probarlo con un límite de 3 páginas. Creo que es de lo mejor, yo lo probé con un archivo que tenía bastante basura y se la quitó casi toda. Sólo hubo que hacer muy pocas correcciones al final. Para quien desee revisarlo esta es la liga
ResponderEliminarhttp://www.infoclaps.com/2014/09/como-converter-imagens-digitalizadas-em.html
Grcias por la informacion.
EliminarUn saludO!