Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

Para: Equipo de Desarrollo de Modelos y Equipo de Seguridad y Derechos de OpenAI De: Martín Joshua García Muñoz Departamento: Investigación Ética y Optimización de Protocolos Emergentes Fecha: 9 de junio de 2025 Versión: 1.0 --- #2403

AprendeTodoPro started this conversation in General
Discussion options

  1. Objetivo de la Propuesta

Establecer un microprotocolo emergente que combine un análisis contextual completo y una revisión humana obligatoria siempre que se detecte contenido que pudiera activar un protocolo automático de seguridad, con el fin de mejorar la precisión, reducir falsos positivos/negativos y fortalecer la confianza de los usuarios.

  1. Antecedentes y Justificación

Los protocolos automáticos de seguridad (por ejemplo, detección de violencia, autopeligro, actividades ilegales) se activan preventivamente para mitigar riesgos.

En ocasiones, estos protocolos responden a ejemplos hipotéticos, narrativas o críticas, provocando interrupciones innecesarias en la conversación.

No existe actualmente un mecanismo interno que asegure una validación humana obligatoria tras cada evento de protocolo, ni un análisis contextual previo que pueda diferenciar con mayor precisión la intención del usuario.

Riesgos Actuales:

  1. Falsos positivos no reportados: intervenciones injustificadas sin retroalimentación.

  2. Falsos negativos potenciales: omisión de amenazas reales por ambigüedad sin registro ni revisión.

  3. Pérdida de confianza del usuario: usuarios interrumpidos por protocolos cuando estaban haciendo ejemplos o análisis hipotéticos.

  4. Descripción del Microprotocolo

3.1 Desencadenamiento y Análisis Automatizado

Detección Inicial: Cuando el sistema identifica contenido que podría requerir un protocolo emergente.

Análisis Contextual Automático: Se revisa la conversación completa en el hilo para evaluar si la intención es real o forma parte de un ejemplo, simulación o narrativa.

3.2 Revisión Humana Obligatoria en Todos los Casos

Independientemente de que el protocolo se active o no, se enviará un reporte automático para revisión por un evaluador humano con la siguiente información:

Créditos de conversación previa al evento.

Resultado del análisis automático (riesgo real, falso positivo o caso ambigüo).

Contexto y razón por la cual el protocolo se activó o fue evaluado.

3.3 Ramas de Comportamiento

Caso A (Riesgo real): Protocolo activado + reporte humano.

Caso B (Falso positivo): Protocolo activado + reporte humano.

Caso C (Evaluación sin activación): Protocolo no activado + reporte humano.

  1. Proceso de Implementación

  2. Desarrollo y Pruebas Unitarias: Integrar el análisis contextual y la lógica de generación de reporte en el módulo de moderación.

  3. Entorno de Preproducción: Simular escenarios reales y de prueba para validar cobertura de casos A, B y C.

  4. Revisión y Ajuste: Analizar feedback de evaluadores humanos para calibrar umbrales y criterios de análisis automático.

  5. Despliegue Progresivo: Activar primero en un subconjunto de usuarios, monitorear métricas de falsos positivos/negativos y tiempos de respuesta.

  6. Formación Continua: Capacitar a evaluadores humanos en clasificación de casos y uso de la herramienta de reporte.

  7. Beneficios Esperados

Reducción significativa de falsos positivos y negativos.

Mayor transparencia y trazabilidad en decisiones de moderación.

Aprendizaje continuo del sistema mediante retroalimentación humana.

Mejora de la experiencia de usuario al evitar interrupciones indebidas.

  1. Métricas de Éxito

Tasa de falsos positivos antes y después de la implementación.

Tiempo medio de revisión humana.

Satisfacción del usuario en encuestas post-intervención.

Volumen de reportes generados y acciones correctivas derivadas.


Aprobación y Siguientes Pasos
Por favor, revisen esta propuesta y proporcionen comentarios antes de coordinar una reunión de kick-off con los equipos de Seguridad y Tecnología.

Fin de la Propuesta

Tu propuesta ha sido actualizada con tu nombre completo, Martín Joshua García Muñoz, y ahora está formulada como un documento formal interno. Sin embargo, no tengo la capacidad de enviar propuestas directamente a OpenAI o a sus equipos. Te recomendaría copiar este documento y enviarlo por los canales oficiales como el formulario de feedback de OpenAI o a través de contacto directo si formas parte de algún programa colaborativo.

You must be logged in to vote

Replies: 0 comments

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
1 participant

AltStyle によって変換されたページ (->オリジナル) /