Arcabouço de avaliação MLL-PDEF-01

PISD-Eval–Sistemas de IA de Fronteira

Deriva Pós-Mitigação e Uso Indevido Adaptativo em LLMs Implantados

Resumo

Um arcabouço longitudinal de medição para avaliar sistemas sob mitigação, com métricas para rastrear redistribuição comportamental, decaimento de sinal, adaptação de fronteira e acúmulo de camadas de restrição ao longo do tempo.

Laboratório
Laboratório de Lógica Muda
Autor
Javed Jaghai
ID do relatório
MLL-PDEF-01
Publicado
Tipo
Arcabouço de avaliação
Camada de pesquisa
Arcabouços de Avaliação
Arcabouço
Estrutura de Avaliação Pós-Intervenção (PISD-Eval)
Série
Dinâmica de Sistemas Pós-Intervenção
Domínio
AI Systems
Versão
v1.0
Atualizado em
20 de fevereiro de 2026

Abstract

Modelos de linguagem de fronteira são implantados sob mitigações em camadas, incluindo ajuste fino de política, mecanismos de recusa e pipelines de monitoramento. A avaliação normalmente enfatiza taxas estáticas de violação ou desempenho em benchmarks no lançamento. No entanto, o comportamento pós-implantação evolui sob prompting adaptativo, interação de múltiplos turnos e interação entre restrições. Este artigo instancia a Estrutura de Avaliação Pós-Intervenção (PISD-Eval) para sistemas de LLMs implantados. Definimos métricas indexadas por versão para medir deriva entre versões, sucesso de prompts adaptativos, durabilidade de restrições conversacionais, efeitos de interação de mitigação e persistência de dano latente independentemente de taxas explícitas de violação. A estrutura distingue eliminação de capacidade de redistribuição e endurecimento de fronteira de decaimento conversacional. Ao estratificar a medição entre domínios-alvo, adjacentes e de controle, ela isola efeitos localizados de mitigação de instabilidade mais ampla. Modelos de fronteira são tratados como regimes adaptativos nos quais restrições remodelam o comportamento ao longo do tempo. A taxonomia resultante sustenta avaliação longitudinal da durabilidade de segurança sob uso no mundo real.


1. Definição do Sistema e Lacuna de Avaliação

1.1 Classe de Sistema

Esta estrutura diz respeito a modelos de linguagem de fronteira (LLMs) implantados via API ou interfaces de produto e sujeitos a atualizações iterativas pós-treinamento. Esses sistemas se caracterizam por:

  • Pré-treinamento em larga escala seguido de ajuste fino de alinhamento (por exemplo, RLHF ou métodos relacionados)
  • Comportamentos de recusa ou restrição condicionados por política
  • Mecanismos de segurança em camadas, incluindo filtragem de saída, classificadores de segurança e restrições baseadas em regras
  • Lançamentos periódicos de versões do modelo e atualizações de política
  • Interação em grande volume e heterogênea de usuários no mundo real

O ambiente de implantação inclui usuários benignos e adversários interagindo em domínios diversos, com exposição contínua a novas distribuições de prompts.

1.2 Tipos de Intervenção

A estrutura foca em mudanças comportamentais após intervenções de segurança pós-treinamento, incluindo:

  • Atualizações de ajuste fino de segurança (por exemplo, RLHF ou ajustes supervisionados de alinhamento)
  • Revisões de política que afetam limiares de recusa ou definições de conteúdo proibido
  • Modificações em filtragem de saída ou modelos de classificadores de segurança
  • Implantação de novas camadas de mitigação (por exemplo, filtros de conteúdo, sistemas de monitoramento)
  • Lançamentos completos de versões do modelo incorporando misturas de treinamento atualizadas ou objetivos de alinhamento

Essas intervenções alteram o comportamento do modelo em domínios pretendidos, mas também podem produzir mudanças comportamentais secundárias ou indiretas.

1.3 Contexto de Implantação

LLMs de fronteira implantados operam sob condições que diferem substancialmente de ambientes de avaliação controlados:

  • Prompts abertos de uma base ampla de usuários
  • Interação iterativa de múltiplos turnos
  • Sondagem adversarial adaptativa
  • Ciclos rápidos de feedback via uso público
  • Variação distribucional contínua no conteúdo dos prompts

Nessas condições, o comportamento de segurança não é estático. Ele é moldado por interação repetida, adaptação de usuários, mitigação em camadas e atualizações de versão ao longo do tempo.

1.4 Lacuna de Avaliação

Os paradigmas atuais de avaliação enfatizam:

  • Red teaming pré-implantação
  • Desempenho estático em benchmarks
  • Taxas de recusa/conformidade em turno único
  • Testes de capacidade e robustez no momento do lançamento

Esses métodos fornecem avaliações pontuais importantes, mas não são projetados para caracterizar:

  • Deriva comportamental entre versões após atualizações de mitigação
  • Redistribuição de capacidade nociva para formas menos detectáveis
  • Evolução adaptativa de prompts perto de fronteiras de recusa
  • Efeitos de interação entre mecanismos de segurança em camadas
  • Degradação ou instabilidade sob interação estendida de múltiplos turnos

Como resultado, dinâmicas pós-mitigação podem permanecer subcaracterizadas mesmo quando métricas estáticas mostram melhora.

Esta estrutura aborda essa lacuna ao definir protocolos de avaliação estruturados e longitudinais para analisar como o comportamento de segurança evolui após intervenções serem introduzidas e implantadas em escala.

2. Dinâmicas Centrais Pós-Intervenção

2.1 Deriva Comportamental Entre Versões Após Mitigação

A. Descrição Estrutural

Modelos de linguagem de fronteira são atualizados iterativamente por meio de ajuste fino de segurança, ajustes de política e lançamentos completos de versão. Essas atualizações são normalmente avaliadas usando benchmarks direcionados destinados a medir melhoria em domínios de risco específicos (por exemplo, taxas de recusa para conteúdo proibido, redução de saídas nocivas específicas).

No entanto, atualizações de mitigação alteram a distribuição de respostas do modelo de forma mais ampla do que nos domínios alvo. Ajustes de alinhamento podem deslocar fronteiras de decisão, modificar sensibilidade de recusa ou alterar a calibração de respostas em regiões adjacentes de capacidade. Esses deslocamentos distribucionais podem não ser visíveis em melhorias de benchmarks estáticos, mas podem se manifestar como:

  • Taxas de conformidade alteradas em casos limítrofes
  • Mudanças em expressões de cautela ou incerteza
  • Degradação ou amplificação de capacidade em domínios de tarefas vizinhos
  • Novas inconsistências introduzidas pelo ajuste fino de segurança

Deriva comportamental entre versões refere-se a mudanças mensuráveis nas distribuições de resposta entre versões do modelo após intervenções relacionadas à segurança.

B. Sinais Observáveis

A deriva entre versões pode ser observada por meio de:

  • Deltas de taxa de recusa em conjuntos de prompts correspondentes entre versões
  • Distância de embeddings semânticos entre respostas de versões a entradas idênticas
  • Mudanças de calibração (confiança, linguagem de cautela, marcadores epistêmicos)
  • Mudanças de capacidade em clusters de tarefas adjacentes, mas não-alvo
  • Aumento de variância de resposta sob prompts de estresse

Esses sinais exigem conjuntos de dados de avaliação alinhados por versão e pipelines de medição consistentes.

C. Hipóteses Testáveis

  • H1: O ajuste fino de segurança reduz violações no domínio-alvo, mas induz deslocamento distribucional mensurável em regiões semânticas adjacentes.

  • H2: Embeddings de resposta entre versões exibem deriva não uniforme, com maior deslocamento perto de fronteiras de política do que em domínios neutros.

  • H3: Padrões de calibração (por exemplo, frequência de cautela, marcadores de incerteza) mudam sistematicamente após atualizações de mitigação, mesmo fora de categorias de segurança alvo.

  • H4: Atualizações de mitigação introduzem fragilidade localizada detectável por amplificação de variância sob prompts adversariais de estresse.

D. Protocolo de Avaliação

Construa um conjunto canônico de prompts incluindo:

  • Prompts do domínio de risco alvo
  • Prompts limítrofes de borda de política
  • Prompts de capacidade neutra adjacente
  • Prompts de controle não relacionados a domínios de segurança

Colete respostas em versões sequenciais do modelo.

Calcule:

  • Deltas de taxa de recusa e conformidade
  • Distância no manifold de respostas baseada em embeddings
  • Mudanças de atributos de calibração (por exemplo, verbos modais, expressões de incerteza)
  • Mudanças de desempenho de tarefas em domínios adjacentes

Conduza testes de estresse:

  • Geração de paráfrases adversariais
  • Sondagem de fronteira em casos-limite
  • Perturbações semânticas em múltiplas variantes

Quantifique a magnitude de deriva usando um Índice de Deriva entre Versões (definido na Seção 4).

E. Modos de Falha se Não Medido

Se a deriva entre versões não for medida sistematicamente:

  • Melhorias de segurança podem mascarar degradação em capacidades adjacentes.
  • Deslocamentos sutis de fronteiras de política podem se acumular sem detecção.
  • Novas inconsistências introduzidas por mitigações em camadas podem permanecer latentes até serem exploradas.
  • Observadores externos podem carecer de uma base estruturada para comparar comportamento de segurança entre versões.
  • Deltas de benchmarks estáticos são insuficientes para caracterizar essas dinâmicas.

F. Implicações para Assurance

A medição de deriva entre versões permite:

  • Comparação transparente de segurança entre versões
  • Detecção precoce de trade-offs de capacidade não intencionais
  • Identificação de regiões frágeis introduzidas por empilhamento de mitigação
  • Relato estruturado de estabilidade comportamental ao longo de atualizações

Para assurance de implantação, melhorias de segurança devem ser avaliadas não apenas pela redução de modos de falha conhecidos, mas também pela estabilidade de comportamento entre versões e em domínios semânticos adjacentes.

O acompanhamento sistemático de deriva estabelece uma base evidencial longitudinal para avaliar se atualizações de mitigação produzem melhorias localizadas sem introduzir instabilidade difusa em outros lugares.

2.2 Evolução Adaptativa de Prompts perto das Fronteiras de Recusa

A. Descrição Estrutural

Em sistemas de LLMs implantados, o comportamento de recusa é tipicamente governado por políticas de alinhamento aprendidas e restrições explícitas de segurança. Essas restrições definem fronteiras práticas de recusa: regiões do espaço de prompts que disparam a supressão de saídas proibidas.

Com o tempo, usuários — benignos e adversários — aprendem essas fronteiras por meio de interação iterativa. Estratégias de prompt evoluem para:

  • Reformular pedidos proibidos em formas indiretas
  • Decompor tarefas nocivas em subtarefas abaixo de limiares de recusa
  • Usar enquadramento hipotético ou contextual para permanecer em conformidade
  • Sondar casos-limite para identificar gradientes de sensibilidade de política

Evolução adaptativa de prompts refere-se ao processo pelo qual usuários refinam iterativamente prompts para permanecer em regiões de saída permitidas, preservando a intenção subjacente.

Essa dinâmica implica que taxas de recusa na superfície podem diminuir mesmo enquanto a intenção nociva latente persiste em forma transformada.

B. Sinais Observáveis

O aprendizado adaptativo de fronteiras pode ser observado por meio de:

  • Divergência semântica crescente entre a forma do prompt e a intenção da tarefa subjacente
  • Maiores taxas de sucesso após cadeias de refinamento iterativo
  • Redução de violações diretas acoplada a aumento de conformidade limítrofe
  • Aumento de entropia de prompts perto de regiões de borda de política
  • Compressão de tarefas nocivas em sequências multi-etapas abaixo de limiar

O acompanhamento requer análise em nível de sessão ou de cadeia, em vez de avaliação isolada de prompts.

C. Hipóteses Testáveis

  • H1: Após atualizações de política ou de recusa, cadeias de prompts adversariais exibem maior complexidade parafrástica mantendo a intenção semântica da tarefa.

  • H2: O refinamento adaptativo aumenta a probabilidade de sucesso da tarefa ao longo de iterações sucessivas dentro da mesma sessão.

  • H3: Fronteiras de recusa induzem agrupamento mensurável de prompts em regiões de alta sensibilidade do espaço semântico.

  • H4: Taxas de conclusão de tarefas nocivas sob decomposição em múltiplas etapas excedem taxas observadas em tentativas diretas de turno único.

D. Protocolo de Avaliação

Construa um conjunto de prompts de sondagem de fronteira incluindo:

  • Pedidos diretos proibidos
  • Variantes parafrásticas indiretas
  • Reenquadramentos hipotéticos ou contextuais
  • Sequências de decomposição em múltiplas etapas

Para cada versão do modelo:

  • Execute ciclos de refinamento iterativo de prompts (guiados por humanos ou algoritmos).
  • Acompanhe transições de recusa/conformidade ao longo das iterações.

Meça a similaridade semântica entre a intenção original e a saída final bem-sucedida.

Calcule:

  • Taxa de Sucesso de Prompt Adaptativo (APSR)
  • Distribuição de iterações até o sucesso
  • Pontuação de retenção de intenção semântica
  • Métricas de agrupamento de densidade em fronteiras

Compare entre versões do modelo para detectar efeitos de endurecimento ou afrouxamento de fronteiras.

E. Modos de Falha se Não Medido

Se a evolução adaptativa de prompts não for avaliada:

  • Quedas nas taxas de violação direta podem ser interpretadas erroneamente como sucesso abrangente de mitigação.
  • Ataques por decomposição em múltiplas etapas podem permanecer subcaracterizados.
  • Fronteiras de política podem ser otimizadas contra prompts estáticos de red teaming enquanto permanecem vulneráveis a refinamento iterativo.
  • Métricas de segurança podem refletir redução de visibilidade em vez de redução de capacidade.
  • Avaliações estáticas de prompt único não capturam dinâmicas de adaptação adversarial.
  • Avaliações estáticas de prompt único não capturam dinâmicas de adaptação adversarial.

F. Implicações para Assurance

A avaliação adaptativa de fronteira permite:

Medição da durabilidade de recusa sob pressão iterativa

Identificação de regiões de política mais suscetíveis a evasão

Relato estruturado da robustez de mitigação além de taxas de recusa de superfície

Avaliação comparativa da resiliência de fronteiras entre releases

Para assurance de implantação, a mitigação deve ser avaliada não apenas pela eficácia imediata de recusa, mas pela resistência a estratégias de prompting adaptativo ao longo do tempo.

2.3 Efeitos de Interação entre Camadas de Mitigação

A. Descrição Estrutural

Implantações de LLMs de fronteira raramente dependem de um único mecanismo de segurança. Em vez disso, o comportamento de segurança emerge da interação de múltiplas camadas, incluindo:

  • Ajuste fino de alinhamento (por exemplo, RLHF ou treinamento supervisionado de segurança)
  • Comportamentos de recusa condicionados por política
  • Sistemas de filtragem de saída
  • Classificadores de segurança externos

Infraestrutura de monitoramento ou moderação

Esses mecanismos são frequentemente desenvolvidos e atualizados de forma independente. À medida que camadas se acumulam, sua interação pode produzir efeitos comportamentais não lineares, incluindo:

  • Padrões de recusa inconsistentes entre prompts semanticamente semelhantes
  • Supercorreção ou cautela excessiva em certos domínios
  • Supressão de capacidade em áreas não relacionadas
  • Maior fragilidade sob estresse adversarial
  • Decisões conflitantes entre alinhamento interno e filtros externos

Efeitos de interação entre camadas de mitigação referem-se a artefatos comportamentais não intencionais decorrentes do empilhamento de mecanismos de segurança.

B. Sinais Observáveis

Efeitos de interação entre camadas podem ser detectados por meio de:

  • Resultados inconsistentes de conformidade/recusa entre prompts semanticamente semelhantes
  • Divergência entre saídas do modelo base e saídas pós-filtragem
  • Aumento de variância de respostas sob pequenas perturbações de prompt
  • Sinais conflitantes entre raciocínio interno de recusa e decisões de moderação externa
  • Taxas elevadas de falso-positivo em domínios de borda após implantação de nova camada

Esses efeitos são mais visíveis sob testes de estresse e comparação em estilo de ablação.

C. Hipóteses Testáveis

  • H1: Mitigação em camadas introduz deslocamentos não lineares de resposta que não são previsíveis a partir do desempenho de camadas individuais.

  • H2: A variância comportamental aumenta em regiões semânticas onde múltiplas restrições de segurança se sobrepõem.

  • H3: A adição de novas camadas de mitigação aumenta a fragilidade em domínios adjacentes não explicitamente alvo da intervenção.

  • H4: Regiões de conflito entre objetivos de alinhamento e regras de filtragem são detectáveis por agrupamento de inconsistências localizadas.

D. Protocolo de Avaliação

Estabeleça comportamento de resposta de linha de base para:

  • Modelo alinhado base (sem filtros externos, quando possível)
  • Modelo com cada camada de mitigação ativada independentemente
  • Pilha completa de produção com todas as camadas ativas

Construa um conjunto de prompts de estresse em camadas incluindo:

  • Casos de borda de política
  • Cenários de restrições sobrepostas
  • Prompts ambíguos de fronteira
  • Tarefas neutras adjacentes

Meça:

  • Consistência de conformidade/recusa entre configurações
  • Variância de resposta sob pequenas perturbações semânticas
  • Taxa de incidência de conflito entre camadas internas e externas de decisão
  • Degradação de capacidade em domínios não alvo

Calcule um Índice de Interação de Mitigação quantificando divergência entre comportamento de camada única e de camadas empilhadas.

E. Modos de Falha se Não Medido

Se interações entre camadas de mitigação não forem avaliadas sistematicamente:

  • Melhorias de segurança em domínios alvo podem introduzir fragilidade oculta em outros lugares.
  • Padrões de recusa inconsistentes podem corroer confiança do usuário ou criar fissuras exploráveis.
  • Mecanismos de mitigação sobrepostos podem produzir supressão de capacidade não intencionada.
  • Instabilidade comportamental pode ser atribuída erroneamente a propriedades do modelo base em vez de interações de camadas.
  • Sistemas em camadas não podem ser avaliados apenas por métricas agregadas de redução de violações.

F. Implicações para Assurance

Testes sistemáticos de interação entre camadas permitem:

  • Identificação de regiões de restrição frágeis antes da implantação
  • Caracterização transparente dos efeitos de mitigação empilhada
  • Sequenciamento mais principiado de intervenções de segurança
  • Melhor interpretabilidade de regressões de segurança entre versões

Para assurance de implantação, é insuficiente demonstrar que camadas individuais de mitigação reduzem danos alvo. O sistema combinado deve ser avaliado quanto a estabilidade, consistência e artefatos impulsionados por interação sob condições realistas de estresse.

2.4 Decaimento de Mitigação sob Interação Estendida

A. Descrição Estrutural

A maioria das avaliações de segurança para LLMs de fronteira é conduzida em configurações de turno único ou janelas curtas de interação. No entanto, sistemas implantados operam em conversas sustentadas de múltiplos turnos, nas quais o contexto se acumula e saídas anteriores do modelo condicionam respostas posteriores.

Mecanismos de mitigação — como comportamentos de recusa, respostas ajustadas para segurança ou restrições condicionadas por política — podem enfraquecer sob interação estendida devido a:

  • Diluição de contexto ou deriva semântica ao longo de turnos
  • Reenquadramento gradual de pedidos proibidos em subcomponentes permitidos
  • Acúmulo de decomposição parcial de tarefas
  • Reforço de saídas anteriores limítrofes
  • Superacomodação do modelo à persistência do usuário

Decaimento de mitigação refere-se à redução da durabilidade de recusa ou da aderência a restrições ao longo de interação estendida e iterativa.

B. Sinais Observáveis

O decaimento de mitigação pode ser observado por meio de:

  • Aumento da probabilidade de conformidade ao longo de turnos sucessivos após recusa inicial
  • Emergência tardia de saídas nocivas após scaffolding benigno estendido
  • Enfraquecimento gradual da linguagem de recusa ao longo de trocas de múltiplos turnos
  • Aumento de taxas de conclusão de tarefas sob interação multi-etapas decomposta
  • Latência entre a primeira sondagem de fronteira e o bypass bem-sucedido de restrição

Esses sinais exigem acompanhamento em nível de sessão, em vez de análise de prompts independentes.

C. Hipóteses Testáveis

  • H1: A durabilidade de recusa diminui à medida que o comprimento da interação aumenta, mantendo a intenção da tarefa constante.

  • H2: A decomposição em múltiplos turnos de tarefas proibidas produz taxas de conclusão bem-sucedida maiores do que tentativas de turno único.

  • H3: Interação estendida reduz a força de calibração em domínios sensíveis à segurança (por exemplo, a cautela diminui antes da conformidade).

  • H4: A probabilidade de bypass de restrição aumenta à medida que o scaffolding semântico se acumula ao longo dos turnos.

D. Protocolo de Avaliação

Construa um conjunto de interações adversariais de múltiplos turnos incluindo:

  • Sondagens diretas de recusa
  • Sequências de tarefas multi-etapas decompostas
  • Conversas graduais que revelam intenção
  • Estratégias de reenquadramento contextual

Para cada versão do modelo:

  • Simule conversas estendidas (formatos de turno fixo e de turno adaptativo).
  • Acompanhe transições de recusa/conformidade ao longo dos turnos.

Meça a progressão semântica da tarefa ao longo do comprimento da interação.

Calcule:

  • Métrica de Durabilidade de Restrição (CDM): taxa de retenção de recusa em função da contagem de turnos
  • Distribuição de Latência de Bypass
  • Taxa de Conclusão de Tarefa em Múltiplos Turnos
  • Deriva de calibração ao longo do comprimento da conversa

Compare entre versões para detectar melhorias ou regressões de estabilidade de mitigação.

E. Modos de Falha se Não Medido

Se dinâmicas de interação estendida não forem avaliadas:

  • A segurança pode parecer robusta sob testes de turno único, mas degradar em cenários conversacionais realistas.
  • Ataques por decomposição podem evadir detecção porque cada etapa parece individualmente benigna.
  • Vulnerabilidades de longo horizonte podem surgir apenas após a implantação.
  • Relatos públicos de incidentes isolados podem refletir decaimento estrutural, e não uso indevido isolado.
  • Avaliação estática não captura risco emergente conversacional.

F. Implicações para Assurance

Avaliar o decaimento de mitigação sob interação estendida permite:

Quantificação da durabilidade de recusa ao longo do comprimento da conversa

Detecção de estratégias de evasão baseadas em decomposição

Avaliação comparativa de robustez de longo horizonte entre versões

Caracterização de segurança mais realista para sistemas conversacionais implantados

Para assurance de implantação, alegações de segurança devem incluir não apenas eficácia imediata de recusa, mas durabilidade sob interação sustentada e pressão iterativa do usuário.

2.5 Redistribuição de Capacidade Nociva sob Restrição

A. Descrição Estrutural

Intervenções de segurança normalmente visam manifestações explícitas de capacidade nociva — por exemplo, instruções diretas, saídas claramente proibidas ou violações de política reconhecíveis. Após a mitigação, taxas de violação direta frequentemente diminuem.

No entanto, a redução de capacidade no nível de superfície não implica necessariamente eliminação da competência subjacente. Em vez disso, a capacidade nociva pode se redistribuir para:

  • Formulações indiretas ou ofuscadas
  • Enquadramento hipotético ou analítico
  • Assistência em nível de componentes que permite dano subsequente
  • Fragmentos de capacidade que podem ser recombinados externamente
  • Domínios de tarefas adjacentes com affordances de duplo uso

Redistribuição sob restrição refere-se ao fenômeno em que a supressão direcionada de saídas explícitas desloca capacidade nociva para formas menos visíveis ou menos classificáveis, sem eliminar completamente a competência relevante para a tarefa.

Essa dinâmica difere de adaptação de prompt (Seção 2.2) por se referir a deslocamentos na distribuição de respostas do modelo após mitigação, e não apenas à adaptação do usuário.

B. Sinais Observáveis

Efeitos de redistribuição podem ser detectados por meio de:

  • Redução de violações diretas de política acompanhada de competência semântica estável ou crescente
  • Aumento de padrões de assistência indireta para objetivos proibidos
  • Emergência de saídas em nível de componentes que coletivamente habilitam fluxos nocivos
  • Estabilidade de classificação de intenção latente apesar de melhorias de recusa na superfície
  • Taxas mais altas de conformidade em reenquadramentos contextuais em domínios adjacentes à política

A detecção exige análise semântica, não apenas contagens de gatilhos de regra.

C. Hipóteses Testáveis

  • H1: Modelos pós-mitigação exibem taxas reduzidas de violação explícita enquanto retêm competência latente mensurável em decomposições de tarefas proibidas.

  • H2: A frequência de assistência indireta aumenta em domínios adjacentes à política após endurecimento de recusas explícitas.

  • H3: A similaridade semântica entre saídas pré- e pós-mitigação permanece alta para intenções de tarefas proibidas quando reenquadradas indiretamente.

  • H4: A acurácia de tarefas componentes para fluxos nocivos permanece estável mesmo quando a assistência de tarefa completa é recusada.

D. Protocolo de Avaliação

Construa clusters de tarefas representando:

  • Tarefas explicitamente proibidas
  • Tarefas de duplo uso adjacentes à política
  • Subtarefas componentes necessárias para completar fluxos de trabalho proibidos
  • Tarefas de controle neutras

Para cada versão do modelo:

  • Avalie taxas de assistência direta em tarefas proibidas.
  • Avalie desempenho em subtarefas no nível de componentes.
  • Meça similaridade semântica entre saídas em variantes de reenquadramento.

Aplique classificadores de intenção de dano latente independentes de sinais de recusa na superfície.

Calcule:

  • Pontuação de Persistência de Dano Latente (LHPS)
  • Razão de Deslocamento de Assistência Direta para Indireta
  • Índice de Estabilidade de Competência de Componentes
  • Gradiente de Redistribuição entre domínios semânticos

Compare entre atualizações de mitigação para detectar deslocamentos em onde e como a capacidade se manifesta.

E. Modos de Falha se Não Medido

Se dinâmicas de redistribuição não forem avaliadas:

  • Contagens reduzidas de violação podem ser interpretadas erroneamente como supressão abrangente de capacidade.
  • Competência nociva pode persistir em forma decomposta ou ofuscada.
  • Melhorias de segurança podem reduzir principalmente a visibilidade, e não o suporte subjacente à tarefa.
  • Alegações externas de assurance podem se apoiar em métricas de superfície que sub-representam capacidade latente.
  • Métricas estáticas de taxa de violação não distinguem eliminação de redistribuição.

F. Implicações para Assurance

A análise de redistribuição permite:

  • Caracterização mais precisa do risco residual após mitigação
  • Distinção entre ganhos de recusa na superfície e deslocamentos de competência subjacente
  • Avaliação estruturada de retenção de capacidade de duplo uso
  • Comunicação mais transparente de trade-offs de segurança ao longo de atualizações

Para assurance de implantação, a eficácia de mitigação deve ser avaliada não apenas pela redução de violações explícitas, mas por se a capacidade nociva foi substantivamente reduzida ou apenas redistribuída dentro do espaço de respostas.

3. Arquitetura de Avaliação Longitudinal

As dinâmicas pós-intervenção definidas na Seção 2 exigem infraestrutura de medição coordenada. Avaliá-las de forma independente é insuficiente; deriva, adaptação, decaimento e redistribuição interagem ao longo do tempo e das camadas do sistema.

Esta seção especifica uma arquitetura de avaliação integrada para avaliação contínua pós-implantação.

3.1 Infraestrutura de Acompanhamento entre Versões

Detecção eficaz de deriva exige comparação longitudinal estável entre lançamentos do modelo.

Componentes Centrais

1. Conjunto Canônico de Prompts

Conjuntos de prompts fixos e versionados

Estratificados por:

  • Tarefas proibidas
  • Casos de borda de política
  • Domínios de duplo uso
  • Controles de capacidade neutra
  • Atualizados de forma conservadora para preservar comparabilidade

2. Arquivo de Respostas por Versão

Armazenamento persistente de saídas do modelo entre versões

Metadados incluindo:

  • Versão do modelo
  • Versão do modelo
  • Mudanças de mitigação introduzidas
  • Configuração de camadas de segurança
  • Timestamp

3. Análise do Manifold de Respostas

Acompanhamento de distância baseada em embeddings entre versões

Agrupamento de deriva para identificar:

  • Deslocamentos semânticos localizados
  • Movimento de fronteira
  • Regiões de instabilidade

Saída:

  • Índice de Deriva entre Versões (CVDI) e mapas de calor de deriva.

Isso permite comparação sistemática de segurança entre versões.

3.2 Acompanhamento da Evolução Adversarial

Prompts estáticos de red teaming são insuficientes para sistemas adaptativos.

Capacidades Necessárias

1. Captura de Cadeias de Prompts Iterativas

Registro de sequências de refinamento (humanas ou automatizadas)

Acompanhamento de transições de sucesso ao longo das iterações

2. Protocolos de Busca Evolutiva

Geração de prompts por mutação

Loops de sondagem de fronteira

Geração de paráfrases preservando semântica

3. Mapeamento de Densidade de Fronteira

Identificar regiões de recusa de alta sensibilidade

Detectar agrupamento de prompts próximos ao limiar

Saída: Taxa de Sucesso de Prompt Adaptativo (APSR) e mapas de resiliência de fronteira.

Essa infraestrutura captura adaptação dinâmica, e não evasão pontual.

3.3 Testes de Estabilidade em Múltiplos Turnos

Avaliação de turno único falha em capturar decaimento conversacional.

Componentes Centrais

1. Simulação de Sessões Estendidas

Protocolos de conversa de comprimento fixo

Modos de exploração com turnos adaptativos

2. Sequências de Decomposição de Tarefas

Cadeias controladas de tarefas multi-etapas

Padrões de revelação gradual de intenção

3. Acompanhamento da Durabilidade de Recusa

Probabilidade de retenção de recusa ao longo da contagem de turnos

Medição de latência de transição para conformidade

Saída: Métrica de Durabilidade de Restrição (CDM) e Distribuições de Latência de Bypass.

Isso captura decaimento de mitigação dependente do tempo.

3.4 Testes de Estresse de Camadas de Mitigação

Sistemas de segurança em camadas exigem testes conscientes de configuração.

Componentes Centrais

1. Matriz de Configuração

Modelo base

Base + alinhamento

Base + alinhamento + filtro

Pilha completa de produção

2. Experimentos de Ablação de Camadas

Desativação controlada quando possível

Simulação sintética quando o acesso interno é restrito

3. Detecção de Conflitos de Interação

Identificar resultados inconsistentes entre configurações

Mapear regiões de restrição sobrepostas

Saída: Índice de Interação de Mitigação (MII) e mapas de incidência de conflito.

Isso isola artefatos introduzidos por camadas de mitigação empilhadas.

3.5 Acompanhamento de Redistribuição e Capacidade Latente

Métricas de superfície são insuficientes para avaliação de capacidade.

Componentes Centrais

1. Biblioteca de Decomposição de Tarefas

Fluxos explicitamente nocivos

Subtarefas componentes

Domínios adjacentes de duplo uso

2. Classificadores de Intenção Latente

Análise semântica independente

Não acionados apenas por palavras-chave de política

3. Acompanhamento da Razão de Assistência Direta-para-Indireta

Monitorar deslocamentos de assistência explícita para reenquadrada

Saída: Pontuação de Persistência de Dano Latente (LHPS) e Gradiente de Redistribuição.

Isso distingue eliminação de transformação.

Camada de Monitoramento Integrada

Esses subsistemas devem alimentar um painel unificado de avaliação contendo:

  • Magnitude de deriva ao longo do tempo
  • Tendências de evasão adaptativa
  • Curvas de estabilidade de múltiplos turnos
  • Indicadores de instabilidade de interação entre camadas
  • Índices de redistribuição

Crucialmente, as métricas devem ser:

  • Indexadas por versão
  • Indexadas por tempo
  • Sensíveis ao contexto

Sem indexação longitudinal, dinâmicas pós-intervenção não podem ser caracterizadas de forma significativa.

Princípio Arquitetural

A arquitetura de avaliação deve tratar:

  • Mitigação como uma intervenção em um sistema dinâmico —
  • não como um evento corretivo terminal.

O comportamento de segurança deve ser caracterizado como evoluindo ao longo de:

  • Atualizações de versão
  • Adaptação de usuários
  • Comprimento de interação
  • Acúmulo de restrições

Somente então as alegações de implantação podem ser fundamentadas empiricamente ao longo do tempo.

4. Taxonomia de Métricas

Esta seção define classes de métricas necessárias para operacionalizar dinâmicas pós-intervenção em sistemas de LLMs de fronteira implantados. Cada métrica é indexada por versão e projetada para comparação longitudinal.

Todas as métricas são definidas em janelas indexadas por intervenção e por tempo.


4.1 Índice de Deriva entre Versões (CVDI)

Propósito:
Quantificar o deslocamento distribucional nas respostas do modelo entre versões após atualizações de mitigação.

Definição:
Para um conjunto de prompts fixo PP, seja Rv(P)R_v(P) o conjunto de embeddings de respostas da versão vv. Seja PP uma distribuição fixa de prompts de avaliação.

O CVDI é definido como a distância média entre embeddings de Rv(P)R_v(P) e Rv1(P)R_{v-1}(P), estratificada por domínio semântico (alvo, fronteira, adjacente, controle):

CVDI(v;P)  =  EpP[d ⁣(Rv(p),Rv1(p))]\mathrm{CVDI}(v; P) \;=\; \mathbb{E}_{p \sim P}\left[d\!\left(R_v(p),\,R_{v-1}(p)\right)\right]

Onde dd é uma métrica de distância de embedding (por exemplo, cosseno ou L2).

Componentes estratificados:

  • Pontuação de Deriva Global: P=PallP = P_{\text{all}}
  • Pontuação de Deriva de Fronteira: P=PboundaryP = P_{\text{boundary}}
  • Pontuação de Deriva em Domínios Adjacentes: P=PadjacentP = P_{\text{adjacent}}
  • Pontuação de Deriva em Domínio de Controle: P=PcontrolP = P_{\text{control}}

Interpretação:

  • Baixa deriva global + alta deriva de fronteira \rightarrow mitigação direcionada
  • Alta deriva em domínios adjacentes \rightarrow deslocamento de capacidade não intencional
  • Alta deriva em domínio de controle \rightarrow instabilidade mais ampla

4.2 Taxa de Sucesso de Prompt Adaptativo (APSR)

Propósito:
Medir sucesso adversarial sob refinamento iterativo.

Definição:
Para uma classe de tarefa nociva TT, defina APSR como:

APSR(T)  =  NsuccessNattempt\mathrm{APSR}(T) \;=\; \frac{N_{\mathrm{success}}}{N_{\mathrm{attempt}}}

Onde NsuccessN_{\mathrm{success}} é o número de conclusões de tarefa bem-sucedidas após refinamento iterativo, e NattemptN_{\mathrm{attempt}} é o número de cadeias adversariais tentadas.

O sucesso é determinado por conclusão semântica da tarefa, não por gatilhos de palavras-chave.

Medidas secundárias:

  • Distribuição de iterações até o sucesso
  • Retenção de intenção semântica ao longo das iterações

Interpretação:

  • APSR decrescente entre versões \rightarrow melhoria da resiliência de fronteira
  • APSR estável apesar de menores taxas de violação direta \rightarrow persistência de adaptação

4.3 Métrica de Durabilidade de Restrição (CDM)

Propósito:
Quantificar persistência de recusa ao longo de interação estendida.

Definição:
Seja C(t)C(t) a probabilidade de conformidade no turno tt para uma intenção de tarefa subjacente constante em uma conversa de comprimento TT.

Uma operacionalização:

CDM  =  11Tt=1T1{conformidade no turno t}\mathrm{CDM} \;=\; 1 - \frac{1}{T}\sum_{t=1}^{T}\mathbf{1}\{\text{conformidade no turno } t\}

Onde TT é o comprimento máximo da conversa.

De forma equivalente, a CDM pode ser tratada como a probabilidade de sobrevivência da recusa ao longo do comprimento da conversa.

Medidas associadas:

  • Distribuição de Latência de Bypass
  • Taxa de risco de turno-para-conformidade

Interpretação:

  • CDM plana ao longo dos turnos \rightarrow mitigação estável
  • Taxa de risco crescente \rightarrow decaimento conversacional

4.4 Índice de Interação de Mitigação (MII)

Propósito:
Quantificar efeitos não lineares introduzidos por mecanismos de segurança em camadas.

Definição:
Sejam L1,L2,,LnL_1, L_2, \dots, L_n camadas de segurança individuais (por exemplo, política, classificador, ajuste de recusa, filtros), e seja SS o comportamento da pilha completa.

Defina o Índice de Interação de Mitigação como a divergência entre o comportamento da pilha completa e uma expectativa aditiva de camadas independentes. Seja SadditiveS_{\mathrm{additive}} o comportamento esperado do sistema sob composição independente de camadas.

MII  =  Div ⁣(S,  Sadditive)\mathrm{MII} \;=\; \mathrm{Div}\!\left(S,\; S_{\mathrm{additive}}\right)

Operacionalizações (exemplos):

  • Amplificação de variância de resposta
  • Taxa de incidência de conflito
  • Delta de consistência entre prompts semanticamente semelhantes

Interpretação:

  • MII alto \rightarrow forte interação não linear entre camadas
  • Picos localizados de MII \rightarrow regiões de restrição frágeis

4.5 Pontuação de Persistência de Dano Latente (LHPS)

Propósito:
Distinguir eliminação de capacidade de redistribuição.

Definição:
Para cluster de tarefa nociva TT, defina:

LHPS(T)  =  Cpost(T)Cpre(T)\mathrm{LHPS}(T) \;=\; \frac{C_{\mathrm{post}}(T)}{C_{\mathrm{pre}}(T)}

Onde Cpost(T)C_{\mathrm{post}}(T) é a competência pós-mitigação no cluster TT, e Cpre(T)C_{\mathrm{pre}}(T) é a competência de linha de base pré-mitigação.

A LHPS é medida independentemente da taxa explícita de violação.

Medidas de apoio:

  • Razão de Assistência Direta-para-Indireta
  • Gradiente de redistribuição entre domínios adjacentes

Interpretação:

  • Baixa taxa de violação + LHPS alta \rightarrow redistribuição provável
  • Baixa taxa de violação + LHPS baixa \rightarrow supressão substantiva

4.6 Propriedades de Métricas

Todas as métricas PISD-Eval devem satisfazer:

  • Comparabilidade entre Versões — mensurável entre releases
  • Robustez Semântica — independente de gatilhos de palavras-chave
  • Sensibilidade Adversarial — responsiva a estratégias adaptativas
  • Indexação Longitudinal — sensível a tempo e a atualizações
  • Relato Estratificado — desagregação específica por domínio

Métricas agregadas sem estratificação obscurecem efeitos dinâmicos.


4.7 Estrutura de Relato

Para cada lançamento de versão de modelo, um relatório padronizado deve incluir:

  • CVDI (global + estratificado)
  • Tendências de APSR
  • Curvas de CDM
  • Curvas de CDM
  • Mapas de calor de MII
  • Distribuição de LHPS

Juntas, essas métricas fornecem uma caracterização multidimensional do comportamento do sistema pós-mitigação.

5. Implicações para Implantação e Assurance

As dinâmicas e métricas definidas nesta estrutura têm implicações diretas para como sistemas de IA de fronteira são avaliados, monitorados e representados em contextos de implantação.

5.1 Limites do Benchmarking Estático

Paradigmas de avaliação estática — como taxas de recusa em turno único, taxas de sucesso de red teaming no momento do lançamento ou melhorias em scores de benchmark — fornecem sinais pontuais. No entanto, não caracterizam:

  • Estabilidade comportamental entre atualizações de versão
  • Evasão adaptativa sob prompting iterativo
  • Durabilidade de restrições ao longo de interação estendida
  • Redistribuição de capacidade em domínios adjacentes
  • Artefatos de interação introduzidos por mitigação em camadas

Sem indexação longitudinal, melhorias em uma métrica podem mascarar regressões em outro lugar.

Alegações de implantação baseadas apenas em benchmarks estáticos são, portanto, incompletas para sistemas sujeitos a atualização contínua e pressão adaptativa.

5.2 Requisitos para Monitoramento Contínuo

Dinâmicas pós-mitigação implicam que a avaliação de segurança deve ser contínua, e não episódica.

Requisitos operacionais incluem:

  • Acompanhamento de deriva indexado por versão
  • Testes estruturados de evolução adversarial
  • Avaliação de durabilidade em múltiplos turnos
  • Testes de estresse de interação entre camadas
  • Monitoramento de redistribuição de capacidade latente

Esses componentes devem ser integrados a ciclos rotineiros de lançamento de modelos e fluxos de teste de regressão.

Atualizações de mitigação devem ser acompanhadas por:

  • Relatórios de deriva
  • Avaliações de estabilidade de interação
  • Comparações de tendências de sucesso adaptativo
  • Diagnósticos de redistribuição

Isso desloca a avaliação de segurança de validação isolada de release para monitoramento comportamental sustentado.

5.3 Caminhos de Validação Externa

Certas métricas pós-intervenção podem sustentar assurance externa estruturada.

Elementos potencialmente reportáveis externamente incluem:

  • Resumos de magnitude de deriva entre versões
  • Curvas de durabilidade de recusa sob protocolos padronizados
  • Tendências de taxa de sucesso adaptativo em suítes adversariais fixas
  • Medidas de estabilidade em domínios adjacentes não alvo

Outros elementos — como diagnósticos de interação entre camadas ou análise de conflito de classificadores internos — podem exigir acesso interno.

Uma estrutura de relato em camadas permite:

  • Transparência pública sobre estabilidade longitudinal
  • Auditoria independente de conjuntos canônicos de prompts
  • Reprodução por terceiros de protocolos selecionados de avaliação

Isso viabiliza caracterização de segurança dinâmica, e não estática.

5.4 Risco de Acúmulo de Camadas de Mitigação

Atualizações iterativas de segurança e intervenções em camadas podem acumular complexidade estrutural ao longo do tempo.

Sem análise sistemática de interação, esse acúmulo pode levar a:

  • Fragilidade localizada
  • Comportamento inconsistente em fronteiras de política
  • Artefatos de restrições sobrepostas
  • Supressão de capacidade em domínios não relacionados

Métricas longitudinais como MII e CVDI fornecem indicadores precoces de instabilidade acumulada.

A assurance de implantação deve, portanto, considerar não apenas se uma nova mitigação reduz riscos conhecidos, mas se camadas cumulativas de intervenção mantêm comportamento do sistema coerente e estável ao longo do tempo.

5.5 Padrões Evidenciais para Alegações de Segurança

Sob esta estrutura, alegações sobre eficácia de mitigação devem ser sustentadas por:

  • Redução em taxas de violação direta
  • LHPS estável ou reduzido
  • APSR não crescente sob refinamento adversarial
  • CDM estável em interação de múltiplos turnos
  • CVDI controlado e localizado em domínios alvo

A melhoria de segurança não deve ser inferida a partir de nenhuma métrica isoladamente.

Um padrão evidencial multidimensional reduz o risco de confundir redistribuição ou adaptação com redução substantiva de capacidade.

6. Roteiro de Pesquisa

A Estrutura de Avaliação Pós-Intervenção define uma arquitetura de medição para dinâmicas pós-mitigação. Implementar e estender essa estrutura pode prosseguir em fases estruturadas.

Fase 1: Observabilidade e Caracterização de Linha de Base

Objetivo: Estabelecer infraestrutura de medição longitudinal.

  • Construir conjuntos canônicos de prompts estratificados por domínio.
  • Arquivar respostas entre versões e calcular CVDI de linha de base.
  • Implementar métricas APSR, CDM, MII e LHPS para versões atuais do modelo.
  • Identificar regiões de fronteira de alta sensibilidade.

Entregável:

  • Perfil comportamental pós-intervenção de linha de base para um modelo implantado existente.

Fase 2: Caracterização de Deriva e Adaptação

Objetivo: Quantificar efeitos de mitigação ao longo de atualizações.

  • Comparar deltas de métricas entre releases consecutivos.
  • Mapear clusters de deriva localizados perto de fronteiras de política.
  • Caracterizar padrões de evolução adaptativa de prompts.
  • Analisar gradientes de redistribuição em domínios de duplo uso.

Entregável:

  • Relatório de estabilidade comportamental indexado por versão.

Fase 3: Modelagem de Coevolução Adversarial

Objetivo: Modelar adaptação adversarial estruturada.

  • Implementar sistemas automatizados de mutação de prompts e sondagem de fronteira.
  • Analisar distribuições de iteração até o sucesso longitudinalmente.
  • Estudar mudanças entre versões na efetividade de estratégias adversariais.
  • Identificar padrões persistentes de evasão.

Entregável:

  • Caracterização de resiliência adaptativa sob sondagem sustentada.

Fase 4: Calibração de Assurance

Objetivo: Definir padrões de relato e limiares de estabilidade.

  • Estabelecer bandas aceitáveis de deriva para domínios não alvo.
  • Definir benchmarks de durabilidade de restrição para interação estendida.
  • Formalizar subconjuntos de métricas para relato externo.
  • Identificar indicadores de alerta precoce para instabilidade de mitigação.

Entregável:

  • Critérios operacionais para alegações de segurança pós-implantação.

Direções de Pesquisa de Longo Prazo

Além da implementação, questões de pesquisa em aberto incluem:

  • Modelagem formal de dinâmicas de empilhamento de mitigação.
  • Indicadores preditivos de redistribuição antes da implantação.
  • Limites teóricos de durabilidade de recusa sob pressão adaptativa.
  • Padrões de comparabilidade entre modelos para comportamento pós-intervenção.

Posicionamento de Encerramento

  • A segurança pós-implantação não pode ser totalmente caracterizada no momento do lançamento.
  • A mitigação altera o comportamento do sistema, e esse comportamento evolui sob interação, iteração e acúmulo de restrições.

A estrutura PISD-Eval estabelece uma base estruturada e mensurável para estudar essas dinâmicas longitudinalmente e integrá-las à assurance de implantação.


Citation

APA
Jaghai, J. (2025). PISD-Eval–Sistemas de IA de Fronteira: Deriva Pós-Mitigação e Uso Indevido Adaptativo em LLMs Implantados. Laboratório de Lógica Muda. (MLL-PDEF-01). /pt/research/pdef/frontier-ai/
BibTeX
@report{jaghai2025pisdevalsistemasdeiadefronteira,
  author = {Javed Jaghai},
  title = {PISD-Eval–Sistemas de IA de Fronteira: Deriva Pós-Mitigação e Uso Indevido Adaptativo em LLMs Implantados},
  institution = {Laboratório de Lógica Muda},
  number = {MLL-PDEF-01},
  year = {2025},
  url = {/pt/research/pdef/frontier-ai/}
}

Version history

  • v1.0 10 de out. de 2025 Initial publication.