Guardrails & Moderation

Total 22 articles sites

Detect safety risks and toxicity

Writing & Documents Images & Design Video & Avatars Audio & Voice Productivity & Office Coding & Dev Search & Research Agents & Automation Marketing & Growth Customer Support Open Source & Models Prompts & Templates Entertainment

Sorting

release update Views Like

Protect AI ModelScan

Open-source scanner to detect unsafe code in model artifacts before deploy.

0350

Guardrails & Moderation # model security # ModelScan # Protect AI

Lasso Moderation

AI moderation platform with dashboards, custom rules, and live workflows.

0230

Guardrails & Moderation # dashboard # Lasso # moderation

Ollama + Llama Guard 3 (local)

Run Llama Guard 3 locally via Ollama to classify prompts/responses for safety.

0360

Guardrails & Moderation # classification # Llama Guard # local

Google Vertex AI Safety Filters

Adjustable harm thresholds and safety attributes for Gemini/Imagen outputs.

0810

Guardrails & Moderation # Gemini # Google Cloud # Imagen

Robust Intelligence AI Firewall

Pre- and post-model guardrails to block unsafe prompts/outputs in production.

0460

Guardrails & Moderation # AI Firewall # guardrails # production

Guardrails AI (framework)

Open-source + managed framework for input/output checks and structured outputs.

0430

Guardrails & Moderation # framework # guardrails # input guard

Lakera Guard

Low-latency API to block prompt injection, data leakage, and jailbreaks.

02070

Guardrails & Moderation # guard # jailbreak # Lakera

ActiveFence

Real-time guardrails, automated red teaming, and moderation workflows.

0430

Guardrails & Moderation # ActiveFence # guardrails # moderation

Modulate ToxMod

Proactive, voice-native moderation for live chat in games and communities.

0340

Guardrails & Moderation # audio # gaming # Modulate

Spectrum Labs

Contextual AI moderation across text/voice; multilingual & compliance-ready.

0490

Guardrails & Moderation # compliance # contextual # Spectrum Labs

Microsoft Community Sift (Two Hat)

Enterprise moderation for communities/games with configurable policies.

0490

Guardrails & Moderation # chat # Community Sift # gaming

Clarifai Content Moderation

Production-ready models and workflow tools for automated UGC moderation.

0390

Guardrails & Moderation # API # Clarifai # content moderation

Sightengine

Realtime image/video/text moderation APIs with rich unsafe-content taxonomies.

0400

Guardrails & Moderation # API # moderation # NSFW

Hive Moderation

Full-stack text/image/video moderation plus deepfake & AI-content detection.

01250

Guardrails & Moderation # API # deepfake # Hive

Jigsaw Perspective API

Toxicity and harassment scoring for UGC; easy-to-integrate REST API.

0410

Guardrails & Moderation # google # harassment # Jigsaw