Si subes facturas, nóminas, análisis o datos personales a la IA tal cual, leed esto

Lisarde
Mainstream
#1
Resumen:

He montado https://maskify.es, es una web que toma PDF, DOCX, TXT o Markdown y enmascara automáticamente los datos personales (nombres, DNI/NIE, IBANs, tarjetas, direcciones, emails, teléfonos, fechas, claves API…) antes de que copies el texto o fichero al chat de la IA. El original nunca sale de tu navegador: se procesa en local, y solo el texto extraído viaja al servidor propio con un modelo en local para detección


Historia/tocho:
Llevo unos meses dándole vueltas a la cantidad de datos personales que la gente le pasa a las IAs sin pensar dónde acaban. La mayoría de los modelos guardan tus prompts para reentrenarse, en algunos casos pueden ser revisados manualmente por humanos, y de filtraciones tenemos ya unas cuantas. Y aun así seguimos pasando documentos enteros, sin tachar nada, a un chat que no controlamos. Algunos ejemplos típicos donde el DNI, el IBAN, la dirección, el teléfono o el número de cuenta acaban en una caja negra:

- Subir un análisis médico o de sangre a ChatGPT/Claude/Gemini para que te lo "explique".
- Pasarle la nómina para verificar si te aplican bien el IRPF, las pagas extra o el prorrateo.
- Mandarle un recibo bancario o un movimiento para que te calcule intereses, te lo categorice o te haga un presupuesto.
- Pedirle que te resuma un contrato de alquiler con tu nombre, NIF y dirección dentro.
- Pasarle facturas del taller para preparar la venta de un coche viejo, con todos tus datos personales en cada una.
- Subir el CV para que te lo "mejore" — con teléfono, email, dirección y a veces hasta el DNI.
- Compartir cartas de Hacienda, resoluciones de la Seguridad Social o el certificado de empresa.
- Pasarle un análisis veterinario de tu perro con tu nombre y dirección en la cabecera.
- Subir notas escolares o un certificado del colegio con los datos de tu hijo.
- Pedir traducción de un contrato laboral con todos los datos personales.
- Extractos bancarios para montar un Excel de gastos.
- Documentos de divorcio, herencia, testamentos, capitulaciones.
- Certificado de antecedentes penales para una oposición.
- Resoluciones judiciales, demandas, requerimientos.
- Recibos de la luz/gas/comunidad con tu dirección completa.
- Pasaportes/DNIs escaneados para "rellenarme este formulario".

Y luego nos sorprende que aparezcan datos en filtraciones. La privacidad importa.

Hace un par de semanas (22 de Abril https://openai.com/es-ES/index/intro...rivacy-filter/) openAI subió a su repo publico un modelo AI que se puede ejecutar en local que es algo parecido a lo que usan ellos para identificar estos datos personales, además de esto yo ya mm ofuscaba los datos que podía con un Regex sencillo antes de subir cosas.
Y pensé, porque no hacer una web que se enfoque en la privacidad del usuario y que haga exactamente esto pero aumentando su detección a lo máximo posible?

Y asi creé Maskify.es

Algunas de las cosas que hace:

- PDF: se exporta rasterizado. Los bytes del texto original se eliminan físicamente — no queda una capa seleccionable debajo del rectángulo como en otras herramientas que pintan negros encima y se quedan tan anchas.
- DOCX: se edita en sitio conservando estilos, tablas, imágenes y maquetación. Opcionalmente limpia metadatos del autor.
- Mapa de reversión local: solo tú lo tienes. Puedes des-enmascarar tu propio documento más tarde — nadie más.
- Patrones personales que guardas en tu cuenta (números de cliente, identificadores internos de tu empresa, lo que quieras) y se aplican automáticamente en cada documento que subas.
- Es gratis. Para probarlo no hace falta ni registrarse. Te registras solo si quieres guardar historial, patrones personales y que recuerde tu configuración.

Para los curiosos del stack:

- Detección híbrida: el modelo openai/privacy-filter (NER por tokens, va sorprendentemente bien con español) corriendo con onnxruntime-node y cuantización q4, en un proceso forkeado aparte para no bloquear el server HTTP. Encima, una capa de regex propia con validadores reales: mod-97 para IBANs, Luhn para tarjetas de crédito, formato + dígito de control para DNI/NIE, prefijos conocidos para API keys (AWS, GitHub, Stripe, Anthropic, OpenAI…).
- PDF: pdfjs-dist para leer + pdf-lib para escribir, rasterización vía <canvas> a JPEG escala 2.
- DOCX: parseo del XML interno y reemplazo de los runs en sitio para conservar formato.
- Stack web: Next.js 16 + TypeScript + Prisma + PostgreSQL. Auth.js v5 con login por Google/GitHub. Todo en Docker en un VPS pequeño de Oracle Cloud (Ampere A1, ARM, 4 cores y 12 GB de RAM libres para el modelo).
- Por el tamaño del servidor, las detecciones se procesan una a una. Si hay alguien delante, la UI te dice exactamente cuántos en cola y cuánto puede tardar.

Si tienes prisa puedes usar el modo solo-regex y saltarte el modelo: pierdes la detección semántica pero ganas instantaneidad (sirve para el 90% de los casos de contratos simples sin contraseñas ni cosas raras)

Hay más info en https://maskify.es/es/info

Si os animáis a probarla y veis que algo no se detecta bien, o se detecta de más, decídmelo. Es una primera versión que aunque para mi me funcione bien, seguro que se escapan cosas, el modelo no es perfecto y hay muchas palabras que son extrañas/dificiles de detectar, https://maskify.es

También se puede añadir palabras/patrones que veáis y sepáis que se tienen que ocultar siempre, añadiéndose a vuestro perfil.


Os dejo algunas capturas:




https://imgur.com/a/puLHzVv
nachoohcan
ForoCoches: Miembro
#2
Entonces no recomiendas pasarle documentación a una IA pero si subirla a tu web?
Lisarde
Mainstream
#3
Cita de nachoohcan
Entonces no recomiendas pasarle documentación a una IA pero si subirla a tu web?
Solo envías (si así lo decides) al elegir detección por IA, si te lees como funciona la web, verás que no es necesario subir nada para la detección, todo vive en tu navegador/sesión y solo en caso que decidas que el modelo pase, se envía al el servidor sin apis o IAs de terceros, no sale de ahí y en memoria, es un modelo open source que trabaja en el propio servidor, sin guardar nada, una vez ya se haya ofuscado todo + lo que decidas ocultar extra, se guarda en tu historial ofuscado, se genera a su vez un mapa de regresión que solo se puede guardar por ti en el momento y en tu navegador, que en caso de que decidas recuperar el original se puede hacer con esto.

No almacenamos nada que no esté ofuscado
No guardamos cookies de análisis, ni nada por el estilo (solo la del lenguaje que elijas)
Solo almacenamos la siguiente información: email, nombre de usuario y si decides guardar algún regex personalizado (nunca la información real), además de tu historial de documentos ya ofuscados por si quieres recuperar el original para volver a editarlo/ofuscar más datos (necesario la clave tuya de regresión generada)

Tienes más información si quieres aquí: https://maskify.es/es/info

Siempre tienes la posibilidad de ofuscar solo con las reglas, (nada sale de tu servidor) o hacerlo tu a mano en tu word o similar, lo que no te recomiendo es subirlo a la IA de terceros, tu haz lo que creas conveniente shur !
Lisarde
Mainstream
#4
Up!
Lisarde
Mainstream
#5
Up!
Lisarde
Mainstream
#6
up
Lisarde
Mainstream
#7
up
← A Empleo / Emprendimiento