es.phhsnews.com


es.phhsnews.com / Extraer texto de PDF y archivos de imagen

Extraer texto de PDF y archivos de imagen


¿Tiene un documento PDF que le gustaría extraer todo el texto? ¿Qué pasa con los archivos de imagen de un documento escaneado que desea convertir en texto editable? Estos son algunos de los problemas más comunes que he visto en el lugar de trabajo al trabajar con archivos.

En este artículo, hablaré sobre diferentes maneras en que puede tratar de extraer texto de un PDF o de una imagen. Sus resultados de extracción variarán según el tipo y la calidad del texto en el PDF o la imagen. Además, los resultados variarán según la herramienta que use, por lo que es mejor probar la mayor cantidad posible de las siguientes opciones para obtener los mejores resultados.

Extraer texto de una imagen o PDF

La forma más sencilla y rápida de comenzar es probar un servicio de extracción de texto PDF en línea. Estos son normalmente gratuitos y pueden darle exactamente lo que está buscando sin tener que instalar nada en su computadora. Aquí hay dos que he usado con resultados muy buenos a excelentes:

ExtraerPDF

ExtractPDF es una herramienta gratuita para tomar imágenes, texto y fuentes de un archivo PDF. La única limitación es que el tamaño máximo para el archivo PDF es de 10 MB. Eso es un poco pequeño; así que si tienes un archivo más grande, prueba algunos de los otros métodos a continuación. Elija su archivo y luego haga clic en el botón Enviar archivo . Los resultados son normalmente muy rápidos y debería ver una vista previa del texto al hacer clic en la pestaña Texto.

También es una ventaja añadida que también extrae imágenes del archivo PDF, ¡en caso de que las necesite! En general, la herramienta en línea funciona muy bien, pero me he topado con un par de documentos en PDF que me dan resultados divertidos. El texto se extrae muy bien, pero por alguna razón tendrá un salto de línea después de cada palabra. No es un gran problema para un archivo PDF corto, pero sin duda es un problema para archivos con mucho texto. Si eso te sucede, prueba la siguiente herramienta.

OCR en línea

El OCR en línea solía funcionar para los documentos que no se convertían correctamente con ExtractPDF, por lo que es una buena idea probar ambos servicios para ver cuáles le ofrecen un mejor rendimiento. El OCR en línea también tiene algunas características más agradables que pueden resultar útiles para cualquier persona que tenga un archivo PDF grande que solo necesite convertir texto en unas pocas páginas en lugar de todo el documento.

Lo primero que debe hacer es seguir adelante y crear una cuenta gratuita. Es un poco molesto, pero si no creas la cuenta gratuita, solo convertirá parcialmente tu PDF en lugar de todo el documento. Además, en lugar de solo cargar solo un documento de 5 MB, puede cargar hasta 100 MB por archivo con una cuenta.

Primero, elija un idioma y luego elija el tipo de formatos de salida que desea para el archivo convertido. Tiene un par de opciones y puede elegir más de una si lo desea. En documento de varias páginas, puede seleccionar Números de página y luego elegir solo las páginas que desea convertir. Luego, selecciona el archivo y haz clic en Convertir .

Después de la conversión, accederá a la sección Documentos (si está conectado) donde podrá ver cuántas páginas libres disponibles le quedan y enlaces para descargar sus archivos convertidos. Parece que solo tienes 25 páginas gratis al día, por lo que si necesitas más, tendrás que esperar un poco o comprar más páginas.

El OCR en línea hizo un excelente trabajo al convertir mis archivos PDF porque era capaz de mantener el diseño real del texto. En mi prueba, tomé un documento de Word que usa viñetas, diferentes tamaños de fuente, etc. y lo convertí a PDF. Luego utilicé el OCR en línea para convertirlo de nuevo al formato Word y fue aproximadamente el 95% el mismo que el original. Eso es bastante impresionante para mí.

Además, si está buscando convertir una imagen en texto, Online OCR lo puede hacer tan fácilmente como extraer texto de archivos PDF.

OCR gratuito en línea

Ya que estábamos hablando de OCR de imagen a texto, permítanme mencionar otro buen sitio web que funciona muy bien en imágenes. El OCR en línea gratuito fue muy bueno y muy preciso al extraer texto de mis imágenes de prueba. Tomé un par de fotos de mi iPhone de páginas de libros, panfletos, etc. y me sorprendió lo bien que fue capaz de convertir el texto.

Elija su archivo y luego haga clic en el botón Cargar. En la pantalla siguiente, hay un par de opciones y una vista previa de la imagen. Puede recortarlo si no desea OCR todo. Luego solo haga clic en el botón OCR y su texto convertido aparecerá debajo de la vista previa de la imagen. Tampoco tiene limitaciones, lo cual es realmente agradable.

Además de los servicios en línea, hay dos convertidores de PDF freeware que quiero mencionar en caso de que necesite software que se ejecute localmente en su computadora para realizar las conversiones. Con los servicios en línea, siempre necesitará una conexión a Internet y eso puede no ser posible para todos. Sin embargo, noté que la calidad de las conversiones de los programas gratuitos era significativamente peor que las de los sitios web.

Extractor de texto A-PDF

A-PDF Text Extractor es freeware que hace un trabajo bastante bueno al extraer texto de archivos PDF. Una vez que lo descargue e instale, haga clic en el botón Abrir para elegir su archivo PDF. A continuación, haga clic en Extraer texto para iniciar el proceso.

Le pedirá una ubicación para almacenar el archivo de salida de texto y luego comenzará la extracción. También puede hacer clic en el botón Opción, que le permite elegir solo ciertas páginas para extraer y el tipo de extracción. La segunda opción es interesante porque extrae el texto en diferentes diseños y vale la pena probar los tres para ver cuál le ofrece el mejor resultado.

PDF2Texto piloto

PDF2Text Pilot hace un buen trabajo al extraer texto. No tiene ninguna opción; solo agrega archivos o carpetas, conviértalo y espere lo mejor. Funcionó bien en algunos archivos PDF, pero para la mayoría de ellos, hubo numerosos problemas.

Simplemente haga clic en Agregar archivos y luego haga clic en Convertir . Una vez que se completa la conversión, haga clic en Examinar para abrir el archivo. Su kilometraje variará con este programa, así que no espere mucho.

Además, vale la pena mencionar que si se encuentra en un entorno corporativo o puede obtener una copia de Adobe Acrobat del trabajo, entonces realmente puede obtener resultados mucho mejores. Evidentemente, Acrobat no es gratuito, pero tiene opciones para convertir archivos PDF a Word, Excel y HTML. También hace el mejor trabajo de mantener la estructura del documento original y convertir texto complicado.


Cómo personalizar, agregar y eliminar Apple Watch Faces

Cómo personalizar, agregar y eliminar Apple Watch Faces

El Apple Watch es muy personalizable y su esfera de reloj no es una excepción. Hay varios estilos, como Modular, Mickey Mouse y Utility, cada uno con opciones de complicaciones o subpantallas que contienen varios tipos de información. También puede agregar sus propias caras de reloj personalizadas. Le mostraremos cómo personalizar las caras de reloj disponibles en el Apple Watch, cómo agregar caras de reloj nuevas en función de las existentes y cómo eliminar caras de reloj.

(how-to)

Principiante: Cómo usar Notes en Outlook 2013 para Easy Desktop Reminders

Principiante: Cómo usar Notes en Outlook 2013 para Easy Desktop Reminders

Las notas son simples y muy útiles. Básicamente son Post its de escritorio, que puede recopilar y guardar en su Outlook y mostrar en su escritorio como recordatorios para hacer cosas. Outlook tiene mucho que ofrecer. Obviamente, puede usarlo para su correo electrónico, pero también puede administrar contactos en una misma libreta de direcciones.

(how-to)