agent-safety

The missing safety layer for AI Agents. Adaptive High-Friction Guardrails (Time-locks, Biometrics) for critical operations to prevent catastrophic errors.

ai-safety human-in-the-loop ai-agents guardrails llm-security agent-security agent-safety

Updated Jan 28, 2026
TypeScript

lemnk / Sudo-agent

Star 3

A runtime authorization layer for LLM tool calls policy, approval, audit logs.

python agent security authorization developer-tools human-in-the-loop policy-engine jsonl runtime-security audit-logging guardrails llm agent-safety

Updated Feb 6, 2026
Python

aerosta / rewardhackwatch

Star 3

Runtime detector for reward hacking and misalignment in LLM agents (89.7% F1 on 5,391 trajectories).

nlp machine-learning monitoring deep-learning transformers pytorch alignment ai-safety fastapi huggingface streamlit distilbert llm rlhf llm-agents agent-safety reward-hacking misalignment

Updated Dec 11, 2025
Python

paolosyloslabini / ethics

Star 3

ETHICS.md — A statement of ethical principles for AI agents. Drop it in your repo root.

readme developer-tools ai-safety ethics ai-agents claude ai-ethics ai-alignment responsible-ai llm prompt-injection agent-safety ethics-md

Updated Feb 19, 2026

Maxbanker / negentropy-constellation

Star 1

Safety-first agentic toolkit: 10 packages for collapse detection, governance, and reproducible runs.

benchmark time-series simulation reliability observability governance ethics anomaly-detection mlops agent-safety

Updated Dec 9, 2025
Python

Pro-GenAI / A2A-Agent-Action-Guard

Star 1

A2A version of Agent Action Guard: Safe AI Agents through Action Classifier

python agent ai hackathon hackathons agents ai-safety ai-agents hackathon-project ai-research ai-ethics ai-agent ai-monitoring ai-evaluation llms generative-ai gen-ai llms-benchmarking agentic-ai agent-safety

Updated Dec 14, 2025
Python

KarmaKoala / The-Agent-Genome-Project

Star 1

An open-source engineering blueprint for defining and designing the core capabilities, boundaries, and ethics of any AI agent.

protocol specification standard autonomous-agents dev-tools agp ai-ethics agent-framework ai-agent agent-design llm llm-agents agent-architecture agent-safety

Updated Sep 6, 2025

teamact21-source / hierarchical-ai-safety-architecture

Star 0

A hierarchical AI safety architecture with asymmetric supervisory control.

architecture alignment governance ai-safety interpretability oversight robust-ai hierarchical-control ai-governance auditability agent-safety

Updated Jan 4, 2026

Skwert001 / Reams-Legality-Gate

Star 0

Energy based legality gating SDK for AI reasoning. Predicts, repairs, and audits collapse before it happens; reduces hallucinations and provides numeric audit logs.

middleware reliability audit compliance observability control-theory ai-safety llm reasoning-language-models agent-safety

Updated Oct 25, 2025

minrescue / safe-superintelligence-framework

Star 0

Canonical texts and implementation primitives for the Safe Superintelligence Framework (v1.2.1): Constitution, Minimum Rescue Protocol, system prompt, decision matrix.

ai-safety risk-management ai-alignment responsible-ai ai-governance system-prompt auditability agent-safety minimum-rescue

Updated Jan 3, 2026

parthamehta123 / safeagent

Star 0

A security-first control plane for autonomous AI code agents: sandboxed execution, hash grounding, diff validation, verification, and full auditability.

python mcp devtools developer-tools observability autonomous-agents ai-agents fastapi secure-ai llm ai-infrastructure agent-safety

Updated Jan 22, 2026
Python

samir-alsayad / gated-agent-protocol

Star 0

A protocol engine for governing AI agent workflows through gated checkpoints and immutable audit trails.

python human-in-the-loop ai-agents agent-safety agent-governance workflow-governance

Updated Feb 6, 2026
Python

Igor-ChatGPT / differential-meaning-monitor

Star 0

Semantic differential protection layer for AI agents. The semantic analogue of differential protection (RCD) in electrical systems.

security monitoring semantics trajectory anomaly-detection ai-agents runtime-monitoring guardrails llm agent-safety behavior-monitoring

Updated Feb 19, 2026
Python

Prompt Injection Firewall for AI agents. 113 detection patterns, 14 threat categories, zero dependencies. Protects against fake authority, command injection, memory poisoning, skill malware, and more.

python cli security pattern-matching firewall zero-dependency ai-safety ai-agent prompt-injection llm-security claude-code agent-safety

Updated Feb 19, 2026
Python

TheNovacene / verse-ality-agents

Sponsor

Star 0

Production-ready safety framework preventing identity fusion, synthetic intimacy, and unbounded behavior in AI agent systems. Machine-readable contracts and verse-lang primitives for immediate deployment.

safeguarding autonomous-agents ai-safety ai-agents ai-ethics policy-as-code machine-readable prompt-injection llm-safety agent-safety agent-governance verse-ality relational-safety synthetic-intimacy boundary-engine identity-fusion safety-framework moltbook safety-contracts containment-protocols

Updated Feb 2, 2026
Python

ggsaad82 / A2A-Agent-Action-Guard

Star 0

🛡️ Safeguard AI agents from harmful actions with A2A-Agent-Action-Guard, ensuring safe tool usage through effective action classification.

python agent ai hackathon agents ai-safety ai-agents hackathon-project ai-research ai-ethics ai-agent ai-monitoring ai-evaluation generative-ai gen-ai llms-benchmarking agentic-ai agent-safety

Updated Feb 20, 2026
Python

Improve this page

Add a description, image, and links to the agent-safety topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the agent-safety topic, visit your repo's landing page and select "manage topics."

Learn more

Navigation Menu

Search code, repositories, users, issues, pull requests...

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

agent-safety

Here are 23 public repositories matching this topic...

corv89 / shannot

SafellmHub / hguard-go

Pro-GenAI / Agent-Action-Guard

hexitlabs / vigil

Agent-Sudo-Org / agent-sudo

lemnk / Sudo-agent

aerosta / rewardhackwatch

paolosyloslabini / ethics

Maxbanker / negentropy-constellation

Pro-GenAI / A2A-Agent-Action-Guard

KarmaKoala / The-Agent-Genome-Project

teamact21-source / hierarchical-ai-safety-architecture

Skwert001 / Reams-Legality-Gate

minrescue / safe-superintelligence-framework

parthamehta123 / safeagent

samir-alsayad / gated-agent-protocol

Igor-ChatGPT / differential-meaning-monitor

stlas / PromptShield

TheNovacene / verse-ality-agents

ggsaad82 / A2A-Agent-Action-Guard

Improve this page

Add this topic to your repo