Este artículo explica cómo utilizar HeSoft Doc Batch Tool para eliminar palabras clave por lotes en varios archivos PDF mediante búsqueda difusa con comodines o fórmulas. En el ejemplo, se procesan 4 PDFs, eliminando la palabra del mes y el año de cuatro dígitos en las fechas, conservando solo el número del día. El artículo mostrará capturas del antes y después, e ilustrará cómo importar PDFs, seleccionar la función de buscar y reemplazar, configurar reglas de coincidencia difusa y dejar el contenido de reemplazo vacío para eliminar, además de recordar al usuario considerar aspectos como la capa de texto del PDF, mayúsculas/minúsculas y copias de seguridad.
Al organizar contratos, informes, documentación académica, documentos públicos o archivos, a menudo surge una tarea muy repetitiva: muchos archivos PDF contienen fechas, números, nombres, números de versión o textos fijos similares que deben eliminarse o anonimizarse de forma unificada. Por ejemplo, si en una carpeta hay decenas o incluso cientos de PDFs, y cada portada tiene una fecha como April 13, 2017, abrir cada PDF uno por uno, seleccionar el texto manualmente, eliminarlo y guardarlo no solo consume mucho tiempo, sino que es fácil pasar por alto alguna eliminación o borrar en el lugar equivocado.
Este artículo aborda precisamente este problema de procesamiento por lotes: utilizar la función de "Buscar y reemplazar palabras clave en PDF" del software de oficina " HeSoft Doc Batch Tool " para eliminar palabras clave en lote de múltiples archivos PDF mediante una búsqueda difusa con comodines/fórmulas. En el ejemplo, procesaremos 4 archivos PDF simultáneamente, eliminando las palabras de los meses April o May y los años de cuatro dígitos, para lograr el objetivo de limpiar texto variable por lotes.
Cabe señalar que esta "eliminación" no se refiere a eliminar toda la página del PDF, ni a recortar la página, sino a una búsqueda y reemplazo por lotes del texto especificado dentro del contenido del archivo PDF. Cuando la lista de palabras clave de reemplazo se deja vacía, se logra el efecto de "buscar y eliminar". Para contenidos como fechas y números, que tienen un patrón común pero no son idénticos, usar una búsqueda difusa con comodines o fórmulas es más eficiente que escribir una a una las palabras clave fijas.
Escenarios aplicables: ¿Qué PDFs son adecuados para eliminar palabras clave por lotes con comodines?
"Usar comodines para eliminar palabras clave de forma difusa y por lotes en muchos archivos PDF" es adecuado para procesar archivos PDF cuyo texto sigue reglas claras, pero cuyo contenido específico puede variar. Los escenarios comunes incluyen:
- Eliminar por lotes fechas en portadas de PDF, por ejemplo, April 13, 2017, May 5, 2020, etc.
- Eliminar por lotes años, números de serie, números de versión de informes, números de secuencia y otros contenidos de formato fijo dentro del cuerpo del PDF.
- Limpiar por lotes palabras específicas en inglés, nombres de departamentos, nombres de proyectos antiguos o marcas temporales en múltiples PDFs.
- Reemplazar o eliminar por lotes campos confidenciales en PDFs, para una anonimización preliminar antes de enviar los archivos externamente.
- Procesar grandes cantidades de PDFs generados a partir de la misma plantilla, como informes, certificados, notificaciones, listas, materiales de auditoría, etc.
Si el contenido a eliminar es completamente idéntico, se puede usar la búsqueda de texto exacto; si el contenido a eliminar tiene un patrón regular, como números de cuatro dígitos, meses diferentes, o números de serie diferentes, es más adecuado usar la "búsqueda difusa de texto mediante fórmula". El ejemplo de la captura de pantalla utiliza la fórmula para coincidir con April o May, y \d{4} para coincidir con un año de cuatro dígitos, procesando así de una vez textos similares en múltiples PDFs.
Este tipo de necesidad refleja el valor central del software de oficina para el procesamiento por lotes de archivos: transformar las operaciones manuales repetitivas de abrir, buscar, eliminar y guardar en una configuración de reglas única y una ejecución por lotes, reduciendo significativamente el trabajo repetitivo.
Vista previa del efecto: Antes del procesamiento, hay múltiples PDFs que contienen palabras clave de fecha a eliminar
Antes del procesamiento, hay 4 archivos PDF en la carpeta, con los nombres 1.pdf, 2.pdf, 3.pdf y 4.pdf. Estos son los objetos de este procesamiento por lotes. En el trabajo de oficina real, esta cantidad podría ser mayor, pudiendo ser decenas de datos de clientes, cientos de informes, o un lote de PDFs archivados por fecha en una carpeta.

Al abrir uno de los PDFs, se puede ver que hay contenido de fecha "April 13, 2017" en la portada. La captura de pantalla marca con un recuadro rojo las dos partes a procesar: la palabra del mes "April" y el año de cuatro dígitos "2017". El ", 13," en medio no está incluido en esta eliminación, por lo que debería conservarse después del procesamiento.

Si solo se procesara un PDF, la eliminación manual podría ser aceptable; pero si estas fechas están distribuidas en múltiples PDFs y los meses y años no son exactamente iguales, sería muy problemático. Especialmente porque el año podría ser cualquier número de cuatro dígitos, y no es práctico enumerar todos los años uno por uno. En este caso, usar una búsqueda difusa con comodines o fórmulas permite identificar de forma unificada el "texto que cumple la regla".
Efecto posterior al procesamiento: Se eliminan el mes y el año de cuatro dígitos, conservando solo el contenido no coincidente
Después de completar el procesamiento por lotes, al abrir de nuevo el PDF, se observa que la posición donde originalmente se mostraba "April" ha sido eliminada, y la posición donde se mostraba "2017" también ha sido eliminada, mientras que el ", 13," en medio aún se conserva. El área marcada con el recuadro rojo en la captura de pantalla aparece en blanco, lo que indica que las palabras clave correspondientes se han limpiado con éxito.

Este efecto demuestra dos puntos: primero, el software no elimina simplemente toda la línea de contenido, sino que localiza el texto especificado según las reglas de búsqueda configuradas; segundo, cuando el contenido de reemplazo se deja vacío, se puede lograr el efecto de eliminar palabras clave por lotes. Para contenidos de tipo fecha, se puede eliminar solo el mes y el año, o ampliarlo según las reglas reales para eliminar la fecha completa, números de serie, palabras específicas, etc.
Paso 1: Ingresar a la herramienta de PDF y seleccionar la función de buscar y reemplazar
Abra " HeSoft Doc Batch Tool ". En la esquina superior izquierda de la captura de pantalla se puede ver el nombre del software y la información de la versión. Este software está diseñado para el procesamiento de documentos por lotes. El lado izquierdo ofrece categorías como Nombre de archivo, Nombre de carpeta, Organizar archivos, Herramientas de Word, Herramientas de Excel, Herramientas de PowerPoint, Herramientas de PDF, Herramientas de texto, Herramientas de imagen, Herramientas de video, Herramientas de audio, etc. La tarea de este artículo es procesar contenido de texto de PDF, por lo que debe ingresar a "Herramientas de PDF" a la izquierda.
En la lista de herramientas de PDF, seleccione la primera opción, "Buscar y reemplazar palabras clave en PDF". La descripción de esta función es buscar y reemplazar por lotes palabras clave en el contenido de archivos PDF, lo que se ajusta exactamente a la necesidad de eliminar palabras clave de PDF por lotes de este artículo.

El propósito de seleccionar esta función es ingresar al flujo de búsqueda y reemplazo por lotes. A diferencia de un lector de PDF común, aquí no se abre un archivo para editarlo manualmente, sino que primero se selecciona un lote de PDFs, luego se configuran de forma unificada las reglas de búsqueda y reemplazo, y finalmente se ejecuta el procesamiento de una sola vez.
Paso 2: Agregar los archivos PDF a procesar por lotes
Tras ingresar a la interfaz de "Buscar y reemplazar palabras clave en PDF", el primer paso es "Seleccionar los registros a procesar". La parte superior derecha de la interfaz ofrece botones como "Agregar archivo", "Importar archivos desde carpeta", "Vaciar", "Más", etc. Para pocos PDFs, puede hacer clic en "Agregar archivo" para seleccionarlos uno por uno; si los PDFs ya están centralizados en una carpeta, usar "Importar archivos desde carpeta" será más conveniente.
En la captura de pantalla se han importado 4 archivos PDF. La lista muestra el número de secuencia, nombre, ruta, extensión, fecha de creación, fecha de modificación y columna de operaciones. Se puede observar que los 4 registros corresponden a D:\test\1.pdf, D:\test\2.pdf, D:\test\3.pdf y D:\test\4.pdf, todos con extensión pdf, y el resumen inferior muestra un total de 4 registros.

El resultado esperado de este paso es que todos los PDFs a procesar aparezcan en la lista. Si se da cuenta de que ha seleccionado archivos de más, puede eliminarlos a través del botón de eliminar en la columna de operaciones; si la lista no es correcta, también puede usar "Vaciar" y luego reimportar. Después de confirmar que los archivos son correctos, haga clic en "Siguiente" en la parte inferior para ingresar a la configuración de las opciones de procesamiento.
Paso 3: Habilitar la búsqueda difusa de texto por fórmula y completar las reglas de comodín
Al ingresar al segundo paso, "Configurar opciones de procesamiento", puede ver el área de "Configurar opciones de palabras clave". Lo más crucial aquí es el "Modo de búsqueda". La interfaz ofrece dos modos: "Buscar texto exacto" y "Usar fórmula para búsqueda difusa de texto". Dado que este ejemplo busca procesar contenido con un patrón regular, y no una sola palabra fija, debe seleccionar "Usar fórmula para búsqueda difusa de texto".

En la "Lista de palabras clave a buscar", el ejemplo de la captura de pantalla ha completado dos líneas de reglas:
- April|May: Se utiliza para coincidir con "April" o "May". La barra vertical indica una elección entre múltiples palabras candidatas, adecuado para la eliminación por lotes de diferentes palabras de meses.
- \d{4}: Se utiliza para coincidir con cuatro dígitos, comúnmente usado para buscar años, por ejemplo, 2017, 2020, 2026, etc.
A la derecha está la "Lista de palabras clave de reemplazo", que indica claramente "Dejar en blanco significa eliminar". Por lo tanto, si el objetivo es eliminar palabras clave en el PDF por lotes, no complete el contenido de reemplazo en el lado derecho. De esta manera, después de que el software encuentre el texto que coincida con las reglas de la izquierda, lo reemplazará con vacío, lo que equivale a eliminar.
El propósito de este paso es describir claramente "qué eliminar" mediante reglas. A diferencia de ingresar "April", "May", "2017", "2018", "2019" uno por uno, la búsqueda difusa por fórmula puede cubrir un tipo de texto de una sola vez. Por ejemplo, \d{4} puede cubrir todos los años de cuatro dígitos, adecuado para procesar situaciones donde los años no son consistentes en una gran cantidad de PDFs.
Paso 4: Continuar configurando la ubicación de guardado e iniciar el procesamiento por lotes
Después de configurar las reglas de búsqueda y reemplazo, haga clic en "Siguiente" en la parte inferior de la página. Desde la barra de flujo se puede ver que los pasos siguientes incluyen "Configurar ubicación de guardado" e "Iniciar procesamiento". Al modificar contenido de PDF por lotes, se recomienda guardar los archivos procesados en una nueva carpeta, para distinguirlos fácilmente de los originales y verificar los resultados del procesamiento.
Aunque la captura de pantalla no muestra las opciones específicas de la página de ubicación de guardado, el flujo indica claramente que el software guiará al usuario para confirmar primero la ubicación de guardado y luego ejecutar el inicio del procesamiento. Una vez finalizado, puede abrir los PDFs de salida para una verificación aleatoria, centrándose en comprobar si se han eliminado las palabras clave requeridas y si el contenido no configurado para eliminación permanece sin cambios.
Para este ejemplo, el resultado esperado es que en los 4 PDFs, el texto del mes que coincida con "April" o "May" se elimine, el año que coincida con la regla de cuatro dígitos se elimine, y el ", 13," que no cumple la regla se conserve. De esta manera, se completa la eliminación difusa por lotes de múltiples archivos PDF.
Preguntas frecuentes y precauciones
1. ¿Por qué usar la búsqueda difusa por fórmula en lugar de la búsqueda exacta?
Si solo se elimina una palabra exactamente igual, por ejemplo, eliminar "April" en todos los archivos, la búsqueda exacta es suficiente. Pero si el contenido a eliminar varía, por ejemplo, el año podría ser 2017, 2018, 2020, o los meses podrían ser April, May, la búsqueda difusa por fórmula es más adecuada. Puede coincidir con un tipo de contenido según una regla, reduciendo la carga de trabajo de ingresar palabras clave una a una.
2. ¿Por qué dejar vacía la lista de palabras clave de reemplazo?
La pista en el lado derecho de la interfaz dice: "Dejar en blanco significa eliminar". Es decir, si el contenido coincidente de la izquierda no tiene un texto de reemplazo correspondiente, será reemplazado por vacío. El objetivo de este artículo es eliminar las palabras clave del PDF, por lo que la parte derecha puede permanecer en blanco. Si desea cambiar una palabra antigua por una nueva, debe completar el contenido de reemplazo en el lado derecho.
3. ¿Eliminará \d{4} por error otros números de cuatro dígitos?
Existe esa posibilidad. \d{4} significa coincidir con cuatro dígitos. Si hay otros números de cuatro dígitos, códigos o páginas en el PDF, también podrían verse afectados. Por lo tanto, antes del procesamiento por lotes formal, se recomienda probar primero con una pequeña cantidad de archivos para confirmar que la regla solo cubre el contenido objetivo. Si es necesario, la regla puede hacerse más específica para evitar eliminaciones accidentales.
4. ¿Se puede eliminar texto de este modo en PDFs escaneados?
Si el texto en el PDF es esencialmente una imagen y no se puede seleccionar ni copiar, la búsqueda y reemplazo de texto normal generalmente no puede localizarlo directamente. El texto del PDF en el ejemplo de este artículo es texto reconocible, por lo que puede ser buscado y reemplazado. Antes del procesamiento, puede abrir el PDF e intentar seleccionar el texto para determinar si posee una capa de texto.
5. ¿Es necesario hacer una copia de seguridad antes del procesamiento por lotes?
Se recomienda hacer una copia de seguridad. La ventaja del procesamiento por lotes es la velocidad, pero si la configuración de las reglas es incorrecta, también podría afectar por lotes a múltiples archivos. La mejor práctica es conservar los PDFs originales, guardar los archivos de salida en un nuevo directorio y, después de confirmar que los resultados son correctos, reemplazar los archivos formales.
Resumen: Eliminar palabras clave de PDF por lotes con comodines para reducir el trabajo de edición repetitivo
A través de la función "Buscar y reemplazar palabras clave en PDF" de " HeSoft Doc Batch Tool ", se pueden eliminar de forma unificada textos fijos y patrones de texto regulares en múltiples PDFs. En el ejemplo de este artículo, primero se importaron 4 PDFs, luego se seleccionó "Usar fórmula para búsqueda difusa de texto", se completaron "April|May" y "\d{4}" en la lista de palabras clave a buscar, y se dejó vacía la lista de palabras clave de reemplazo, logrando finalmente el efecto de eliminar por lotes el mes y el año.
Para los usuarios que procesan con frecuencia informes PDF, contratos, notificaciones y materiales de archivo, este método de búsqueda y reemplazo por lotes puede mejorar significativamente la eficiencia, evitando la tarea repetitiva de abrir archivos uno por uno, buscar página por página y eliminar manualmente. Se recomienda que, antes de procesar formalmente una gran cantidad de archivos, seleccione primero algunos PDFs de muestra para probar las reglas, confirme el efecto y luego ejecute el proceso por lotes. De esta manera, se puede aumentar la velocidad y garantizar la precisión del procesamiento de archivos.