Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

686f6c61/artificial-intelligence-text-detector-unicode

Folders and files

NameName
Last commit message
Last commit date

Latest commit

History

10 Commits

Repository files navigation

Detector de caracteres invisibles unicode

Version License

📋 Descripción

Herramienta web para detectar, analizar y visualizar caracteres Unicode invisibles en texto. Estos caracteres sin representación visual suelen ser insertados inadvertidamente por modelos de IA durante la generación de texto y pueden causar problemas en ciertos contextos.

Captura de pantalla de la aplicación

🎬 Demostración

Demostración del funcionamiento

🔍 ¿Por qué detectar caracteres invisibles?

Los modelos de IA como GPT, Claude, Llama y otros suelen insertar caracteres invisibles en sus respuestas por varias razones:

  • Procesamiento interno: Los modelos procesan texto en unidades llamadas "tokens". Al convertir estos tokens de vuelta a texto, a veces se introducen caracteres invisibles como artefactos del proceso.

  • Tokenización multisistema: Para manejar diferentes idiomas y sistemas de escritura, los modelos utilizan marcadores de dirección (RTL/LTR) que pueden quedar en el texto final.

  • Formateo de texto: Al generar texto con formato específico (código, tablas, listas), pueden usar caracteres invisibles para controlar la disposición.

  • Control del flujo de texto: Para evitar que ciertas palabras se rompan o para mantener formatos específicos, los modelos pueden usar caracteres como ZWSP (Zero Width Space).

🚀 Funcionalidades

  • ✅ Detección de 20 tipos diferentes de caracteres Unicode invisibles
  • ✅ Editor de texto con numeración de líneas y contadores de palabras/caracteres
  • ✅ Visualización precisa de la posición exacta de cada carácter invisible
  • ✅ Resaltado interactivo y navegación a caracteres detectados
  • ✅ Generación de informes detallados exportables
  • ✅ Documentación completa sobre cada tipo de carácter
  • ✅ Interfaz minimalista inspirada en bloc de notas clásico

💻 Uso

  1. Copie y pegue el texto que desea analizar en el área de texto
  2. Haga clic en "Comprobar caracteres invisibles"
  3. Examine los resultados detallados y la vista previa con caracteres resaltados
  4. Utilice los botones de navegación para saltar a posiciones específicas
  5. Descargue o copie el informe completo si es necesario

🔎 Caracteres invisibles detectados

Código Nombre Descripción Más información
U+200B Zero Width Space Espacio de ancho cero. Indica posible división de palabras sin mostrar un espacio visible. Wikipedia
U+200C Zero Width Non-Joiner Previene la ligadura entre caracteres que normalmente se unirían. Unicode.org
U+200D Zero Width Joiner Causa la unión de caracteres que normalmente no se ligarían. Usado en emojis compuestos. Unicode.org
U+FEFF Zero Width No-Break Space También conocido como BOM (Byte Order Mark). Indica orden de bytes en codificaciones. Wikipedia
U+2060 Word Joiner Similar al ZWSP pero no indica división de palabras. Previene saltos entre palabras. Unicode.org
U+180E Mongolian Vowel Separator Separa vocales en escritura mongola tradicional. Unicode.org
U+200E Left-to-Right Mark Fuerza dirección de izquierda a derecha para el texto siguiente. Wikipedia
U+200F Right-to-Left Mark Fuerza dirección de derecha a izquierda para el texto siguiente. Wikipedia
U+202A Left-to-Right Embedding Establece un nuevo nivel de incrustación con dirección LTR. Unicode.org
U+202B Right-to-Left Embedding Establece un nuevo nivel de incrustación con dirección RTL. Unicode.org
U+202C Pop Directional Formatting Finaliza el último nivel de formato direccional. Unicode.org
U+202D Left-to-Right Override Fuerza toda la secuencia siguiente a ser tratada como LTR. Unicode.org
U+202E Right-to-Left Override Fuerza toda la secuencia siguiente a ser tratada como RTL. Unicode.org
U+2061 Function Application Símbolo matemático invisible que representa la aplicación de funciones. Unicode.org
U+2062 Invisible Times Representa una multiplicación invisible en notación matemática. Unicode.org
U+2063 Invisible Separator Separador invisible usado en notación matemática. Unicode.org
U+2064 Invisible Plus Representa una suma invisible en notación matemática. Unicode.org
U+034F Combining Grapheme Joiner Une grafemas o unidades visuales en escrituras complejas. Unicode.org
U+061C Arabic Letter Mark Controla el comportamiento de texto árabe en entornos bidireccionales. Unicode.org
U+00AD Soft Hyphen Guión invisible que solo aparece cuando una palabra debe cortarse al final de línea. Wikipedia
U+2009 Thin Space Espacio fino, más estrecho que un espacio normal pero visible. Usado en tipografía para separación precisa. Unicode.org

🔧 Implementación técnica

Este proyecto está implementado utilizando:

  • HTML5 para la estructura
  • CSS3 para estilos minimalistas en blanco y negro
  • JavaScript vanilla para toda la lógica de detección y manipulación

La arquitectura del código sigue un enfoque modular con clara separación de:

  • Interfaz de usuario y componentes visuales
  • Lógica de detección y análisis de caracteres
  • Generación de informes y exportación

📦 Instalación

  1. Clone este repositorio:
git clone https://github.com/686f6c61/artificial-intelligence-text-detector-unicode.git
  1. Abra index.html en su navegador para comenzar a usar la aplicación.

No se requieren dependencias externas ni pasos de compilación.

🤔 Casos de uso comunes

  • Desarrollo de software: Identificar caracteres invisibles en código que pueden causar errores difíciles de depurar
  • Procesamiento de texto: Limpiar textos generados por IA antes de usarlos en entornos sensibles
  • Seguridad: Detectar posibles marcas invisibles en textos que podrían indicar su origen
  • Compatibilidad: Verificar textos antes de insertarlos en sistemas con limitaciones de caracteres
  • Análisis de IA: Estudiar patrones de inserción de caracteres en diferentes modelos de IA

📊 Limitaciones

La detección de caracteres invisibles puede ayudar a identificar contenido generado por IA, pero no es concluyente por sí misma. Otros factores como patrones lingüísticos, estructura del texto y contexto deben considerarse para un análisis completo.

🔄 Actualizaciones futuras

  • Soporte para más tipos de caracteres Unicode
  • Análisis estadístico de frecuencias y patrones
  • Modo de limpieza automática de caracteres invisibles
  • Integración con APIs de detección de texto generado por IA

📝 Licencia

Este proyecto está licenciado bajo la Licencia MIT. Consulte el archivo LICENSE para más detalles.

📰 Artículos relacionados

Estos artículos refuerzan la importancia de detectar caracteres Unicode invisibles en texto generado por IA:

👤 Autor

🔗 Enlaces útiles

About

Detector de invisibles Unicode (U+200B,U+200C,U+200D...) de modelos IA razonadores

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

AltStyle によって変換されたページ (->オリジナル) /