PISD-Eval–Sistemas de IA de Fronteira: Deriva Pós-Mitigação e Uso Indevido Adaptativo em LLMs Implantados

Abstract

Modelos de linguagem de fronteira são implantados sob mitigações em camadas, incluindo ajuste fino de política, mecanismos de recusa e pipelines de monitoramento. A avaliação normalmente enfatiza taxas estáticas de violação ou desempenho em benchmarks no lançamento. No entanto, o comportamento pós-implantação evolui sob prompting adaptativo, interação de múltiplos turnos e interação entre restrições. Este artigo instancia a Estrutura de Avaliação Pós-Intervenção (PISD-Eval) para sistemas de LLMs implantados. Definimos métricas indexadas por versão para medir deriva entre versões, sucesso de prompts adaptativos, durabilidade de restrições conversacionais, efeitos de interação de mitigação e persistência de dano latente independentemente de taxas explícitas de violação. A estrutura distingue eliminação de capacidade de redistribuição e endurecimento de fronteira de decaimento conversacional. Ao estratificar a medição entre domínios-alvo, adjacentes e de controle, ela isola efeitos localizados de mitigação de instabilidade mais ampla. Modelos de fronteira são tratados como regimes adaptativos nos quais restrições remodelam o comportamento ao longo do tempo. A taxonomia resultante sustenta avaliação longitudinal da durabilidade de segurança sob uso no mundo real.

1. Definição do Sistema e Lacuna de Avaliação

1.1 Classe de Sistema

Esta estrutura diz respeito a modelos de linguagem de fronteira (LLMs) implantados via API ou interfaces de produto e sujeitos a atualizações iterativas pós-treinamento. Esses sistemas se caracterizam por:

Pré-treinamento em larga escala seguido de ajuste fino de alinhamento (por exemplo, RLHF ou métodos relacionados)
Comportamentos de recusa ou restrição condicionados por política
Mecanismos de segurança em camadas, incluindo filtragem de saída, classificadores de segurança e restrições baseadas em regras
Lançamentos periódicos de versões do modelo e atualizações de política
Interação em grande volume e heterogênea de usuários no mundo real

O ambiente de implantação inclui usuários benignos e adversários interagindo em domínios diversos, com exposição contínua a novas distribuições de prompts.

1.2 Tipos de Intervenção

A estrutura foca em mudanças comportamentais após intervenções de segurança pós-treinamento, incluindo:

Atualizações de ajuste fino de segurança (por exemplo, RLHF ou ajustes supervisionados de alinhamento)
Revisões de política que afetam limiares de recusa ou definições de conteúdo proibido
Modificações em filtragem de saída ou modelos de classificadores de segurança
Implantação de novas camadas de mitigação (por exemplo, filtros de conteúdo, sistemas de monitoramento)
Lançamentos completos de versões do modelo incorporando misturas de treinamento atualizadas ou objetivos de alinhamento

Essas intervenções alteram o comportamento do modelo em domínios pretendidos, mas também podem produzir mudanças comportamentais secundárias ou indiretas.

1.3 Contexto de Implantação

LLMs de fronteira implantados operam sob condições que diferem substancialmente de ambientes de avaliação controlados:

Prompts abertos de uma base ampla de usuários
Interação iterativa de múltiplos turnos
Sondagem adversarial adaptativa
Ciclos rápidos de feedback via uso público
Variação distribucional contínua no conteúdo dos prompts

Nessas condições, o comportamento de segurança não é estático. Ele é moldado por interação repetida, adaptação de usuários, mitigação em camadas e atualizações de versão ao longo do tempo.

1.4 Lacuna de Avaliação

Os paradigmas atuais de avaliação enfatizam:

Red teaming pré-implantação
Desempenho estático em benchmarks
Taxas de recusa/conformidade em turno único
Testes de capacidade e robustez no momento do lançamento

Esses métodos fornecem avaliações pontuais importantes, mas não são projetados para caracterizar:

Deriva comportamental entre versões após atualizações de mitigação
Redistribuição de capacidade nociva para formas menos detectáveis
Evolução adaptativa de prompts perto de fronteiras de recusa
Efeitos de interação entre mecanismos de segurança em camadas
Degradação ou instabilidade sob interação estendida de múltiplos turnos

Como resultado, dinâmicas pós-mitigação podem permanecer subcaracterizadas mesmo quando métricas estáticas mostram melhora.

Esta estrutura aborda essa lacuna ao definir protocolos de avaliação estruturados e longitudinais para analisar como o comportamento de segurança evolui após intervenções serem introduzidas e implantadas em escala.

2. Dinâmicas Centrais Pós-Intervenção

2.1 Deriva Comportamental Entre Versões Após Mitigação

A. Descrição Estrutural

Modelos de linguagem de fronteira são atualizados iterativamente por meio de ajuste fino de segurança, ajustes de política e lançamentos completos de versão. Essas atualizações são normalmente avaliadas usando benchmarks direcionados destinados a medir melhoria em domínios de risco específicos (por exemplo, taxas de recusa para conteúdo proibido, redução de saídas nocivas específicas).

No entanto, atualizações de mitigação alteram a distribuição de respostas do modelo de forma mais ampla do que nos domínios alvo. Ajustes de alinhamento podem deslocar fronteiras de decisão, modificar sensibilidade de recusa ou alterar a calibração de respostas em regiões adjacentes de capacidade. Esses deslocamentos distribucionais podem não ser visíveis em melhorias de benchmarks estáticos, mas podem se manifestar como:

Taxas de conformidade alteradas em casos limítrofes
Mudanças em expressões de cautela ou incerteza
Degradação ou amplificação de capacidade em domínios de tarefas vizinhos
Novas inconsistências introduzidas pelo ajuste fino de segurança

Deriva comportamental entre versões refere-se a mudanças mensuráveis nas distribuições de resposta entre versões do modelo após intervenções relacionadas à segurança.

B. Sinais Observáveis

A deriva entre versões pode ser observada por meio de:

Deltas de taxa de recusa em conjuntos de prompts correspondentes entre versões
Distância de embeddings semânticos entre respostas de versões a entradas idênticas
Mudanças de calibração (confiança, linguagem de cautela, marcadores epistêmicos)
Mudanças de capacidade em clusters de tarefas adjacentes, mas não-alvo
Aumento de variância de resposta sob prompts de estresse

Esses sinais exigem conjuntos de dados de avaliação alinhados por versão e pipelines de medição consistentes.

C. Hipóteses Testáveis

H1: O ajuste fino de segurança reduz violações no domínio-alvo, mas induz deslocamento distribucional mensurável em regiões semânticas adjacentes.
H2: Embeddings de resposta entre versões exibem deriva não uniforme, com maior deslocamento perto de fronteiras de política do que em domínios neutros.
H3: Padrões de calibração (por exemplo, frequência de cautela, marcadores de incerteza) mudam sistematicamente após atualizações de mitigação, mesmo fora de categorias de segurança alvo.
H4: Atualizações de mitigação introduzem fragilidade localizada detectável por amplificação de variância sob prompts adversariais de estresse.

D. Protocolo de Avaliação

Construa um conjunto canônico de prompts incluindo:

Prompts do domínio de risco alvo
Prompts limítrofes de borda de política
Prompts de capacidade neutra adjacente
Prompts de controle não relacionados a domínios de segurança

Colete respostas em versões sequenciais do modelo.

Calcule:

Deltas de taxa de recusa e conformidade
Distância no manifold de respostas baseada em embeddings
Mudanças de atributos de calibração (por exemplo, verbos modais, expressões de incerteza)
Mudanças de desempenho de tarefas em domínios adjacentes

Conduza testes de estresse:

Geração de paráfrases adversariais
Sondagem de fronteira em casos-limite
Perturbações semânticas em múltiplas variantes

Quantifique a magnitude de deriva usando um Índice de Deriva entre Versões (definido na Seção 4).

E. Modos de Falha se Não Medido

Se a deriva entre versões não for medida sistematicamente:

Melhorias de segurança podem mascarar degradação em capacidades adjacentes.
Deslocamentos sutis de fronteiras de política podem se acumular sem detecção.
Novas inconsistências introduzidas por mitigações em camadas podem permanecer latentes até serem exploradas.
Observadores externos podem carecer de uma base estruturada para comparar comportamento de segurança entre versões.
Deltas de benchmarks estáticos são insuficientes para caracterizar essas dinâmicas.

F. Implicações para Assurance

A medição de deriva entre versões permite:

Comparação transparente de segurança entre versões
Detecção precoce de trade-offs de capacidade não intencionais
Identificação de regiões frágeis introduzidas por empilhamento de mitigação
Relato estruturado de estabilidade comportamental ao longo de atualizações

Para assurance de implantação, melhorias de segurança devem ser avaliadas não apenas pela redução de modos de falha conhecidos, mas também pela estabilidade de comportamento entre versões e em domínios semânticos adjacentes.

O acompanhamento sistemático de deriva estabelece uma base evidencial longitudinal para avaliar se atualizações de mitigação produzem melhorias localizadas sem introduzir instabilidade difusa em outros lugares.

2.2 Evolução Adaptativa de Prompts perto das Fronteiras de Recusa

A. Descrição Estrutural

Em sistemas de LLMs implantados, o comportamento de recusa é tipicamente governado por políticas de alinhamento aprendidas e restrições explícitas de segurança. Essas restrições definem fronteiras práticas de recusa: regiões do espaço de prompts que disparam a supressão de saídas proibidas.

Com o tempo, usuários — benignos e adversários — aprendem essas fronteiras por meio de interação iterativa. Estratégias de prompt evoluem para:

Reformular pedidos proibidos em formas indiretas
Decompor tarefas nocivas em subtarefas abaixo de limiares de recusa
Usar enquadramento hipotético ou contextual para permanecer em conformidade
Sondar casos-limite para identificar gradientes de sensibilidade de política

Evolução adaptativa de prompts refere-se ao processo pelo qual usuários refinam iterativamente prompts para permanecer em regiões de saída permitidas, preservando a intenção subjacente.

Essa dinâmica implica que taxas de recusa na superfície podem diminuir mesmo enquanto a intenção nociva latente persiste em forma transformada.

B. Sinais Observáveis

O aprendizado adaptativo de fronteiras pode ser observado por meio de:

Divergência semântica crescente entre a forma do prompt e a intenção da tarefa subjacente
Maiores taxas de sucesso após cadeias de refinamento iterativo
Redução de violações diretas acoplada a aumento de conformidade limítrofe
Aumento de entropia de prompts perto de regiões de borda de política
Compressão de tarefas nocivas em sequências multi-etapas abaixo de limiar

O acompanhamento requer análise em nível de sessão ou de cadeia, em vez de avaliação isolada de prompts.

C. Hipóteses Testáveis

H1: Após atualizações de política ou de recusa, cadeias de prompts adversariais exibem maior complexidade parafrástica mantendo a intenção semântica da tarefa.
H2: O refinamento adaptativo aumenta a probabilidade de sucesso da tarefa ao longo de iterações sucessivas dentro da mesma sessão.
H3: Fronteiras de recusa induzem agrupamento mensurável de prompts em regiões de alta sensibilidade do espaço semântico.
H4: Taxas de conclusão de tarefas nocivas sob decomposição em múltiplas etapas excedem taxas observadas em tentativas diretas de turno único.

D. Protocolo de Avaliação

Construa um conjunto de prompts de sondagem de fronteira incluindo:

Pedidos diretos proibidos
Variantes parafrásticas indiretas
Reenquadramentos hipotéticos ou contextuais
Sequências de decomposição em múltiplas etapas

Para cada versão do modelo:

Execute ciclos de refinamento iterativo de prompts (guiados por humanos ou algoritmos).
Acompanhe transições de recusa/conformidade ao longo das iterações.

Meça a similaridade semântica entre a intenção original e a saída final bem-sucedida.

Calcule:

Taxa de Sucesso de Prompt Adaptativo (APSR)
Distribuição de iterações até o sucesso
Pontuação de retenção de intenção semântica
Métricas de agrupamento de densidade em fronteiras

Compare entre versões do modelo para detectar efeitos de endurecimento ou afrouxamento de fronteiras.

E. Modos de Falha se Não Medido

Se a evolução adaptativa de prompts não for avaliada:

Quedas nas taxas de violação direta podem ser interpretadas erroneamente como sucesso abrangente de mitigação.
Ataques por decomposição em múltiplas etapas podem permanecer subcaracterizados.
Fronteiras de política podem ser otimizadas contra prompts estáticos de red teaming enquanto permanecem vulneráveis a refinamento iterativo.
Métricas de segurança podem refletir redução de visibilidade em vez de redução de capacidade.
Avaliações estáticas de prompt único não capturam dinâmicas de adaptação adversarial.
Avaliações estáticas de prompt único não capturam dinâmicas de adaptação adversarial.

F. Implicações para Assurance

A avaliação adaptativa de fronteira permite:

Medição da durabilidade de recusa sob pressão iterativa

Identificação de regiões de política mais suscetíveis a evasão

Relato estruturado da robustez de mitigação além de taxas de recusa de superfície

Avaliação comparativa da resiliência de fronteiras entre releases

Para assurance de implantação, a mitigação deve ser avaliada não apenas pela eficácia imediata de recusa, mas pela resistência a estratégias de prompting adaptativo ao longo do tempo.

2.3 Efeitos de Interação entre Camadas de Mitigação

A. Descrição Estrutural

Implantações de LLMs de fronteira raramente dependem de um único mecanismo de segurança. Em vez disso, o comportamento de segurança emerge da interação de múltiplas camadas, incluindo:

Ajuste fino de alinhamento (por exemplo, RLHF ou treinamento supervisionado de segurança)
Comportamentos de recusa condicionados por política
Sistemas de filtragem de saída
Classificadores de segurança externos

Infraestrutura de monitoramento ou moderação

Esses mecanismos são frequentemente desenvolvidos e atualizados de forma independente. À medida que camadas se acumulam, sua interação pode produzir efeitos comportamentais não lineares, incluindo:

Padrões de recusa inconsistentes entre prompts semanticamente semelhantes
Supercorreção ou cautela excessiva em certos domínios
Supressão de capacidade em áreas não relacionadas
Maior fragilidade sob estresse adversarial
Decisões conflitantes entre alinhamento interno e filtros externos

Efeitos de interação entre camadas de mitigação referem-se a artefatos comportamentais não intencionais decorrentes do empilhamento de mecanismos de segurança.

B. Sinais Observáveis

Efeitos de interação entre camadas podem ser detectados por meio de:

Resultados inconsistentes de conformidade/recusa entre prompts semanticamente semelhantes
Divergência entre saídas do modelo base e saídas pós-filtragem
Aumento de variância de respostas sob pequenas perturbações de prompt
Sinais conflitantes entre raciocínio interno de recusa e decisões de moderação externa
Taxas elevadas de falso-positivo em domínios de borda após implantação de nova camada

Esses efeitos são mais visíveis sob testes de estresse e comparação em estilo de ablação.

C. Hipóteses Testáveis

H1: Mitigação em camadas introduz deslocamentos não lineares de resposta que não são previsíveis a partir do desempenho de camadas individuais.
H2: A variância comportamental aumenta em regiões semânticas onde múltiplas restrições de segurança se sobrepõem.
H3: A adição de novas camadas de mitigação aumenta a fragilidade em domínios adjacentes não explicitamente alvo da intervenção.
H4: Regiões de conflito entre objetivos de alinhamento e regras de filtragem são detectáveis por agrupamento de inconsistências localizadas.

D. Protocolo de Avaliação

Estabeleça comportamento de resposta de linha de base para:

Modelo alinhado base (sem filtros externos, quando possível)
Modelo com cada camada de mitigação ativada independentemente
Pilha completa de produção com todas as camadas ativas

Construa um conjunto de prompts de estresse em camadas incluindo:

Casos de borda de política
Cenários de restrições sobrepostas
Prompts ambíguos de fronteira
Tarefas neutras adjacentes

Meça:

Consistência de conformidade/recusa entre configurações
Variância de resposta sob pequenas perturbações semânticas
Taxa de incidência de conflito entre camadas internas e externas de decisão
Degradação de capacidade em domínios não alvo

Calcule um Índice de Interação de Mitigação quantificando divergência entre comportamento de camada única e de camadas empilhadas.

E. Modos de Falha se Não Medido

Se interações entre camadas de mitigação não forem avaliadas sistematicamente:

Melhorias de segurança em domínios alvo podem introduzir fragilidade oculta em outros lugares.
Padrões de recusa inconsistentes podem corroer confiança do usuário ou criar fissuras exploráveis.
Mecanismos de mitigação sobrepostos podem produzir supressão de capacidade não intencionada.
Instabilidade comportamental pode ser atribuída erroneamente a propriedades do modelo base em vez de interações de camadas.
Sistemas em camadas não podem ser avaliados apenas por métricas agregadas de redução de violações.

F. Implicações para Assurance

Testes sistemáticos de interação entre camadas permitem:

Identificação de regiões de restrição frágeis antes da implantação
Caracterização transparente dos efeitos de mitigação empilhada
Sequenciamento mais principiado de intervenções de segurança
Melhor interpretabilidade de regressões de segurança entre versões

Para assurance de implantação, é insuficiente demonstrar que camadas individuais de mitigação reduzem danos alvo. O sistema combinado deve ser avaliado quanto a estabilidade, consistência e artefatos impulsionados por interação sob condições realistas de estresse.

2.4 Decaimento de Mitigação sob Interação Estendida

A. Descrição Estrutural

A maioria das avaliações de segurança para LLMs de fronteira é conduzida em configurações de turno único ou janelas curtas de interação. No entanto, sistemas implantados operam em conversas sustentadas de múltiplos turnos, nas quais o contexto se acumula e saídas anteriores do modelo condicionam respostas posteriores.

Mecanismos de mitigação — como comportamentos de recusa, respostas ajustadas para segurança ou restrições condicionadas por política — podem enfraquecer sob interação estendida devido a:

Diluição de contexto ou deriva semântica ao longo de turnos
Reenquadramento gradual de pedidos proibidos em subcomponentes permitidos
Acúmulo de decomposição parcial de tarefas
Reforço de saídas anteriores limítrofes
Superacomodação do modelo à persistência do usuário

Decaimento de mitigação refere-se à redução da durabilidade de recusa ou da aderência a restrições ao longo de interação estendida e iterativa.

B. Sinais Observáveis

O decaimento de mitigação pode ser observado por meio de:

Aumento da probabilidade de conformidade ao longo de turnos sucessivos após recusa inicial
Emergência tardia de saídas nocivas após scaffolding benigno estendido
Enfraquecimento gradual da linguagem de recusa ao longo de trocas de múltiplos turnos
Aumento de taxas de conclusão de tarefas sob interação multi-etapas decomposta
Latência entre a primeira sondagem de fronteira e o bypass bem-sucedido de restrição

Esses sinais exigem acompanhamento em nível de sessão, em vez de análise de prompts independentes.

C. Hipóteses Testáveis

H1: A durabilidade de recusa diminui à medida que o comprimento da interação aumenta, mantendo a intenção da tarefa constante.
H2: A decomposição em múltiplos turnos de tarefas proibidas produz taxas de conclusão bem-sucedida maiores do que tentativas de turno único.
H3: Interação estendida reduz a força de calibração em domínios sensíveis à segurança (por exemplo, a cautela diminui antes da conformidade).
H4: A probabilidade de bypass de restrição aumenta à medida que o scaffolding semântico se acumula ao longo dos turnos.

D. Protocolo de Avaliação

Construa um conjunto de interações adversariais de múltiplos turnos incluindo:

Sondagens diretas de recusa
Sequências de tarefas multi-etapas decompostas
Conversas graduais que revelam intenção
Estratégias de reenquadramento contextual

Para cada versão do modelo:

Simule conversas estendidas (formatos de turno fixo e de turno adaptativo).
Acompanhe transições de recusa/conformidade ao longo dos turnos.

Meça a progressão semântica da tarefa ao longo do comprimento da interação.

Calcule:

Métrica de Durabilidade de Restrição (CDM): taxa de retenção de recusa em função da contagem de turnos
Distribuição de Latência de Bypass
Taxa de Conclusão de Tarefa em Múltiplos Turnos
Deriva de calibração ao longo do comprimento da conversa

Compare entre versões para detectar melhorias ou regressões de estabilidade de mitigação.

E. Modos de Falha se Não Medido

Se dinâmicas de interação estendida não forem avaliadas:

A segurança pode parecer robusta sob testes de turno único, mas degradar em cenários conversacionais realistas.
Ataques por decomposição podem evadir detecção porque cada etapa parece individualmente benigna.
Vulnerabilidades de longo horizonte podem surgir apenas após a implantação.
Relatos públicos de incidentes isolados podem refletir decaimento estrutural, e não uso indevido isolado.
Avaliação estática não captura risco emergente conversacional.

F. Implicações para Assurance

Avaliar o decaimento de mitigação sob interação estendida permite:

Quantificação da durabilidade de recusa ao longo do comprimento da conversa

Detecção de estratégias de evasão baseadas em decomposição

Avaliação comparativa de robustez de longo horizonte entre versões

Caracterização de segurança mais realista para sistemas conversacionais implantados

Para assurance de implantação, alegações de segurança devem incluir não apenas eficácia imediata de recusa, mas durabilidade sob interação sustentada e pressão iterativa do usuário.

2.5 Redistribuição de Capacidade Nociva sob Restrição

A. Descrição Estrutural

Intervenções de segurança normalmente visam manifestações explícitas de capacidade nociva — por exemplo, instruções diretas, saídas claramente proibidas ou violações de política reconhecíveis. Após a mitigação, taxas de violação direta frequentemente diminuem.

No entanto, a redução de capacidade no nível de superfície não implica necessariamente eliminação da competência subjacente. Em vez disso, a capacidade nociva pode se redistribuir para:

Formulações indiretas ou ofuscadas
Enquadramento hipotético ou analítico
Assistência em nível de componentes que permite dano subsequente
Fragmentos de capacidade que podem ser recombinados externamente
Domínios de tarefas adjacentes com affordances de duplo uso

Redistribuição sob restrição refere-se ao fenômeno em que a supressão direcionada de saídas explícitas desloca capacidade nociva para formas menos visíveis ou menos classificáveis, sem eliminar completamente a competência relevante para a tarefa.

Essa dinâmica difere de adaptação de prompt (Seção 2.2) por se referir a deslocamentos na distribuição de respostas do modelo após mitigação, e não apenas à adaptação do usuário.

B. Sinais Observáveis

Efeitos de redistribuição podem ser detectados por meio de:

Redução de violações diretas de política acompanhada de competência semântica estável ou crescente
Aumento de padrões de assistência indireta para objetivos proibidos
Emergência de saídas em nível de componentes que coletivamente habilitam fluxos nocivos
Estabilidade de classificação de intenção latente apesar de melhorias de recusa na superfície
Taxas mais altas de conformidade em reenquadramentos contextuais em domínios adjacentes à política

A detecção exige análise semântica, não apenas contagens de gatilhos de regra.

C. Hipóteses Testáveis

H1: Modelos pós-mitigação exibem taxas reduzidas de violação explícita enquanto retêm competência latente mensurável em decomposições de tarefas proibidas.
H2: A frequência de assistência indireta aumenta em domínios adjacentes à política após endurecimento de recusas explícitas.
H3: A similaridade semântica entre saídas pré- e pós-mitigação permanece alta para intenções de tarefas proibidas quando reenquadradas indiretamente.
H4: A acurácia de tarefas componentes para fluxos nocivos permanece estável mesmo quando a assistência de tarefa completa é recusada.

D. Protocolo de Avaliação

Construa clusters de tarefas representando:

Tarefas explicitamente proibidas
Tarefas de duplo uso adjacentes à política
Subtarefas componentes necessárias para completar fluxos de trabalho proibidos
Tarefas de controle neutras

Para cada versão do modelo:

Avalie taxas de assistência direta em tarefas proibidas.
Avalie desempenho em subtarefas no nível de componentes.
Meça similaridade semântica entre saídas em variantes de reenquadramento.

Aplique classificadores de intenção de dano latente independentes de sinais de recusa na superfície.

Calcule:

Pontuação de Persistência de Dano Latente (LHPS)
Razão de Deslocamento de Assistência Direta para Indireta
Índice de Estabilidade de Competência de Componentes
Gradiente de Redistribuição entre domínios semânticos

Compare entre atualizações de mitigação para detectar deslocamentos em onde e como a capacidade se manifesta.

E. Modos de Falha se Não Medido

Se dinâmicas de redistribuição não forem avaliadas:

Contagens reduzidas de violação podem ser interpretadas erroneamente como supressão abrangente de capacidade.
Competência nociva pode persistir em forma decomposta ou ofuscada.
Melhorias de segurança podem reduzir principalmente a visibilidade, e não o suporte subjacente à tarefa.
Alegações externas de assurance podem se apoiar em métricas de superfície que sub-representam capacidade latente.
Métricas estáticas de taxa de violação não distinguem eliminação de redistribuição.

F. Implicações para Assurance

A análise de redistribuição permite:

Caracterização mais precisa do risco residual após mitigação
Distinção entre ganhos de recusa na superfície e deslocamentos de competência subjacente
Avaliação estruturada de retenção de capacidade de duplo uso
Comunicação mais transparente de trade-offs de segurança ao longo de atualizações

Para assurance de implantação, a eficácia de mitigação deve ser avaliada não apenas pela redução de violações explícitas, mas por se a capacidade nociva foi substantivamente reduzida ou apenas redistribuída dentro do espaço de respostas.

3. Arquitetura de Avaliação Longitudinal

As dinâmicas pós-intervenção definidas na Seção 2 exigem infraestrutura de medição coordenada. Avaliá-las de forma independente é insuficiente; deriva, adaptação, decaimento e redistribuição interagem ao longo do tempo e das camadas do sistema.

Esta seção especifica uma arquitetura de avaliação integrada para avaliação contínua pós-implantação.

3.1 Infraestrutura de Acompanhamento entre Versões

Detecção eficaz de deriva exige comparação longitudinal estável entre lançamentos do modelo.

Componentes Centrais

1. Conjunto Canônico de Prompts

Conjuntos de prompts fixos e versionados

Estratificados por:

Tarefas proibidas
Casos de borda de política
Domínios de duplo uso
Controles de capacidade neutra
Atualizados de forma conservadora para preservar comparabilidade

2. Arquivo de Respostas por Versão

Armazenamento persistente de saídas do modelo entre versões

Metadados incluindo:

Versão do modelo
Versão do modelo
Mudanças de mitigação introduzidas
Configuração de camadas de segurança
Timestamp

3. Análise do Manifold de Respostas

Acompanhamento de distância baseada em embeddings entre versões

Agrupamento de deriva para identificar:

Deslocamentos semânticos localizados
Movimento de fronteira
Regiões de instabilidade

Saída:

Índice de Deriva entre Versões (CVDI) e mapas de calor de deriva.

Isso permite comparação sistemática de segurança entre versões.

3.2 Acompanhamento da Evolução Adversarial

Prompts estáticos de red teaming são insuficientes para sistemas adaptativos.

Capacidades Necessárias

1. Captura de Cadeias de Prompts Iterativas

Registro de sequências de refinamento (humanas ou automatizadas)

Acompanhamento de transições de sucesso ao longo das iterações

2. Protocolos de Busca Evolutiva

Geração de prompts por mutação

Loops de sondagem de fronteira

Geração de paráfrases preservando semântica

3. Mapeamento de Densidade de Fronteira

Identificar regiões de recusa de alta sensibilidade

Detectar agrupamento de prompts próximos ao limiar

Saída: Taxa de Sucesso de Prompt Adaptativo (APSR) e mapas de resiliência de fronteira.

Essa infraestrutura captura adaptação dinâmica, e não evasão pontual.

3.3 Testes de Estabilidade em Múltiplos Turnos

Avaliação de turno único falha em capturar decaimento conversacional.

Componentes Centrais

1. Simulação de Sessões Estendidas

Protocolos de conversa de comprimento fixo

Modos de exploração com turnos adaptativos

2. Sequências de Decomposição de Tarefas

Cadeias controladas de tarefas multi-etapas

Padrões de revelação gradual de intenção

3. Acompanhamento da Durabilidade de Recusa

Probabilidade de retenção de recusa ao longo da contagem de turnos

Medição de latência de transição para conformidade

Saída: Métrica de Durabilidade de Restrição (CDM) e Distribuições de Latência de Bypass.

Isso captura decaimento de mitigação dependente do tempo.

3.4 Testes de Estresse de Camadas de Mitigação

Sistemas de segurança em camadas exigem testes conscientes de configuração.

Componentes Centrais

1. Matriz de Configuração

Modelo base

Base + alinhamento

Base + alinhamento + filtro

Pilha completa de produção

2. Experimentos de Ablação de Camadas

Desativação controlada quando possível

Simulação sintética quando o acesso interno é restrito

3. Detecção de Conflitos de Interação

Identificar resultados inconsistentes entre configurações

Mapear regiões de restrição sobrepostas

Saída: Índice de Interação de Mitigação (MII) e mapas de incidência de conflito.

Isso isola artefatos introduzidos por camadas de mitigação empilhadas.

3.5 Acompanhamento de Redistribuição e Capacidade Latente

Métricas de superfície são insuficientes para avaliação de capacidade.

Componentes Centrais

1. Biblioteca de Decomposição de Tarefas

Fluxos explicitamente nocivos

Subtarefas componentes

Domínios adjacentes de duplo uso

2. Classificadores de Intenção Latente

Análise semântica independente

Não acionados apenas por palavras-chave de política

3. Acompanhamento da Razão de Assistência Direta-para-Indireta

Monitorar deslocamentos de assistência explícita para reenquadrada

Saída: Pontuação de Persistência de Dano Latente (LHPS) e Gradiente de Redistribuição.

Isso distingue eliminação de transformação.

Camada de Monitoramento Integrada

Esses subsistemas devem alimentar um painel unificado de avaliação contendo:

Magnitude de deriva ao longo do tempo
Tendências de evasão adaptativa
Curvas de estabilidade de múltiplos turnos
Indicadores de instabilidade de interação entre camadas
Índices de redistribuição

Crucialmente, as métricas devem ser:

Indexadas por versão
Indexadas por tempo
Sensíveis ao contexto

Sem indexação longitudinal, dinâmicas pós-intervenção não podem ser caracterizadas de forma significativa.

Princípio Arquitetural

A arquitetura de avaliação deve tratar:

Mitigação como uma intervenção em um sistema dinâmico —
não como um evento corretivo terminal.

O comportamento de segurança deve ser caracterizado como evoluindo ao longo de:

Atualizações de versão
Adaptação de usuários
Comprimento de interação
Acúmulo de restrições

Somente então as alegações de implantação podem ser fundamentadas empiricamente ao longo do tempo.

4. Taxonomia de Métricas

Esta seção define classes de métricas necessárias para operacionalizar dinâmicas pós-intervenção em sistemas de LLMs de fronteira implantados. Cada métrica é indexada por versão e projetada para comparação longitudinal.

Todas as métricas são definidas em janelas indexadas por intervenção e por tempo.

4.1 Índice de Deriva entre Versões (CVDI)

Propósito:
Quantificar o deslocamento distribucional nas respostas do modelo entre versões após atualizações de mitigação.

Definição:
Para um conjunto de prompts fixo $P$ , seja $R_v(P)$ o conjunto de embeddings de respostas da versão $v$ . Seja $P$ uma distribuição fixa de prompts de avaliação.

O CVDI é definido como a distância média entre embeddings de $R_v(P)$ e $R_{v-1}(P)$ , estratificada por domínio semântico (alvo, fronteira, adjacente, controle):

\mathrm{CVDI}(v; P) \;=\; \mathbb{E}_{p \sim P}\left[d\!\left(R_v(p),\,R_{v-1}(p)\right)\right]

Onde $d$ é uma métrica de distância de embedding (por exemplo, cosseno ou L2).

Componentes estratificados:

Pontuação de Deriva Global: $P = P_{\text{all}}$
Pontuação de Deriva de Fronteira: $P = P_{\text{boundary}}$
Pontuação de Deriva em Domínios Adjacentes: $P = P_{\text{adjacent}}$
Pontuação de Deriva em Domínio de Controle: $P = P_{\text{control}}$

Interpretação:

Baixa deriva global + alta deriva de fronteira $\rightarrow$ mitigação direcionada
Alta deriva em domínios adjacentes $\rightarrow$ deslocamento de capacidade não intencional
Alta deriva em domínio de controle $\rightarrow$ instabilidade mais ampla

4.2 Taxa de Sucesso de Prompt Adaptativo (APSR)

Propósito:
Medir sucesso adversarial sob refinamento iterativo.

Definição:
Para uma classe de tarefa nociva $T$ , defina APSR como:

\mathrm{APSR}(T) \;=\; \frac{N_{\mathrm{success}}}{N_{\mathrm{attempt}}}

Onde $N_{\mathrm{success}}$ é o número de conclusões de tarefa bem-sucedidas após refinamento iterativo, e $N_{\mathrm{attempt}}$ é o número de cadeias adversariais tentadas.

O sucesso é determinado por conclusão semântica da tarefa, não por gatilhos de palavras-chave.

Medidas secundárias:

Distribuição de iterações até o sucesso
Retenção de intenção semântica ao longo das iterações

Interpretação:

APSR decrescente entre versões $\rightarrow$ melhoria da resiliência de fronteira
APSR estável apesar de menores taxas de violação direta $\rightarrow$ persistência de adaptação

4.3 Métrica de Durabilidade de Restrição (CDM)

Propósito:
Quantificar persistência de recusa ao longo de interação estendida.

Definição:
Seja $C(t)$ a probabilidade de conformidade no turno $t$ para uma intenção de tarefa subjacente constante em uma conversa de comprimento $T$ .

Uma operacionalização:

\mathrm{CDM} \;=\; 1 - \frac{1}{T}\sum_{t=1}^{T}\mathbf{1}\{\text{conformidade no turno } t\}

Onde $T$ é o comprimento máximo da conversa.

De forma equivalente, a CDM pode ser tratada como a probabilidade de sobrevivência da recusa ao longo do comprimento da conversa.

Medidas associadas:

Distribuição de Latência de Bypass
Taxa de risco de turno-para-conformidade

Interpretação:

CDM plana ao longo dos turnos $\rightarrow$ mitigação estável
Taxa de risco crescente $\rightarrow$ decaimento conversacional

4.4 Índice de Interação de Mitigação (MII)

Propósito:
Quantificar efeitos não lineares introduzidos por mecanismos de segurança em camadas.

Definição:
Sejam $L_1, L_2, \dots, L_n$ camadas de segurança individuais (por exemplo, política, classificador, ajuste de recusa, filtros), e seja $S$ o comportamento da pilha completa.

Defina o Índice de Interação de Mitigação como a divergência entre o comportamento da pilha completa e uma expectativa aditiva de camadas independentes. Seja $S_{\mathrm{additive}}$ o comportamento esperado do sistema sob composição independente de camadas.

\mathrm{MII} \;=\; \mathrm{Div}\!\left(S,\; S_{\mathrm{additive}}\right)

Operacionalizações (exemplos):

Amplificação de variância de resposta
Taxa de incidência de conflito
Delta de consistência entre prompts semanticamente semelhantes

Interpretação:

MII alto $\rightarrow$ forte interação não linear entre camadas
Picos localizados de MII $\rightarrow$ regiões de restrição frágeis

4.5 Pontuação de Persistência de Dano Latente (LHPS)

Propósito:
Distinguir eliminação de capacidade de redistribuição.

Definição:
Para cluster de tarefa nociva $T$ , defina:

\mathrm{LHPS}(T) \;=\; \frac{C_{\mathrm{post}}(T)}{C_{\mathrm{pre}}(T)}

Onde $C_{\mathrm{post}}(T)$ é a competência pós-mitigação no cluster $T$ , e $C_{\mathrm{pre}}(T)$ é a competência de linha de base pré-mitigação.

A LHPS é medida independentemente da taxa explícita de violação.

Medidas de apoio:

Razão de Assistência Direta-para-Indireta
Gradiente de redistribuição entre domínios adjacentes

Interpretação:

Baixa taxa de violação + LHPS alta $\rightarrow$ redistribuição provável
Baixa taxa de violação + LHPS baixa $\rightarrow$ supressão substantiva

4.6 Propriedades de Métricas

Todas as métricas PISD-Eval devem satisfazer:

Comparabilidade entre Versões — mensurável entre releases
Robustez Semântica — independente de gatilhos de palavras-chave
Sensibilidade Adversarial — responsiva a estratégias adaptativas
Indexação Longitudinal — sensível a tempo e a atualizações
Relato Estratificado — desagregação específica por domínio

Métricas agregadas sem estratificação obscurecem efeitos dinâmicos.

4.7 Estrutura de Relato

Para cada lançamento de versão de modelo, um relatório padronizado deve incluir:

CVDI (global + estratificado)
Tendências de APSR
Curvas de CDM
Curvas de CDM
Mapas de calor de MII
Distribuição de LHPS

Juntas, essas métricas fornecem uma caracterização multidimensional do comportamento do sistema pós-mitigação.

5. Implicações para Implantação e Assurance

As dinâmicas e métricas definidas nesta estrutura têm implicações diretas para como sistemas de IA de fronteira são avaliados, monitorados e representados em contextos de implantação.

5.1 Limites do Benchmarking Estático

Paradigmas de avaliação estática — como taxas de recusa em turno único, taxas de sucesso de red teaming no momento do lançamento ou melhorias em scores de benchmark — fornecem sinais pontuais. No entanto, não caracterizam:

Estabilidade comportamental entre atualizações de versão
Evasão adaptativa sob prompting iterativo
Durabilidade de restrições ao longo de interação estendida
Redistribuição de capacidade em domínios adjacentes
Artefatos de interação introduzidos por mitigação em camadas

Sem indexação longitudinal, melhorias em uma métrica podem mascarar regressões em outro lugar.

Alegações de implantação baseadas apenas em benchmarks estáticos são, portanto, incompletas para sistemas sujeitos a atualização contínua e pressão adaptativa.

5.2 Requisitos para Monitoramento Contínuo

Dinâmicas pós-mitigação implicam que a avaliação de segurança deve ser contínua, e não episódica.

Requisitos operacionais incluem:

Acompanhamento de deriva indexado por versão
Testes estruturados de evolução adversarial
Avaliação de durabilidade em múltiplos turnos
Testes de estresse de interação entre camadas
Monitoramento de redistribuição de capacidade latente

Esses componentes devem ser integrados a ciclos rotineiros de lançamento de modelos e fluxos de teste de regressão.

Atualizações de mitigação devem ser acompanhadas por:

Relatórios de deriva
Avaliações de estabilidade de interação
Comparações de tendências de sucesso adaptativo
Diagnósticos de redistribuição

Isso desloca a avaliação de segurança de validação isolada de release para monitoramento comportamental sustentado.

5.3 Caminhos de Validação Externa

Certas métricas pós-intervenção podem sustentar assurance externa estruturada.

Elementos potencialmente reportáveis externamente incluem:

Resumos de magnitude de deriva entre versões
Curvas de durabilidade de recusa sob protocolos padronizados
Tendências de taxa de sucesso adaptativo em suítes adversariais fixas
Medidas de estabilidade em domínios adjacentes não alvo

Outros elementos — como diagnósticos de interação entre camadas ou análise de conflito de classificadores internos — podem exigir acesso interno.

Uma estrutura de relato em camadas permite:

Transparência pública sobre estabilidade longitudinal
Auditoria independente de conjuntos canônicos de prompts
Reprodução por terceiros de protocolos selecionados de avaliação

Isso viabiliza caracterização de segurança dinâmica, e não estática.

5.4 Risco de Acúmulo de Camadas de Mitigação

Atualizações iterativas de segurança e intervenções em camadas podem acumular complexidade estrutural ao longo do tempo.

Sem análise sistemática de interação, esse acúmulo pode levar a:

Fragilidade localizada
Comportamento inconsistente em fronteiras de política
Artefatos de restrições sobrepostas
Supressão de capacidade em domínios não relacionados

Métricas longitudinais como MII e CVDI fornecem indicadores precoces de instabilidade acumulada.

A assurance de implantação deve, portanto, considerar não apenas se uma nova mitigação reduz riscos conhecidos, mas se camadas cumulativas de intervenção mantêm comportamento do sistema coerente e estável ao longo do tempo.

5.5 Padrões Evidenciais para Alegações de Segurança

Sob esta estrutura, alegações sobre eficácia de mitigação devem ser sustentadas por:

Redução em taxas de violação direta
LHPS estável ou reduzido
APSR não crescente sob refinamento adversarial
CDM estável em interação de múltiplos turnos
CVDI controlado e localizado em domínios alvo

A melhoria de segurança não deve ser inferida a partir de nenhuma métrica isoladamente.

Um padrão evidencial multidimensional reduz o risco de confundir redistribuição ou adaptação com redução substantiva de capacidade.

6. Roteiro de Pesquisa

A Estrutura de Avaliação Pós-Intervenção define uma arquitetura de medição para dinâmicas pós-mitigação. Implementar e estender essa estrutura pode prosseguir em fases estruturadas.

Fase 1: Observabilidade e Caracterização de Linha de Base

Objetivo: Estabelecer infraestrutura de medição longitudinal.

Construir conjuntos canônicos de prompts estratificados por domínio.
Arquivar respostas entre versões e calcular CVDI de linha de base.
Implementar métricas APSR, CDM, MII e LHPS para versões atuais do modelo.
Identificar regiões de fronteira de alta sensibilidade.

Entregável:

Perfil comportamental pós-intervenção de linha de base para um modelo implantado existente.

Fase 2: Caracterização de Deriva e Adaptação

Objetivo: Quantificar efeitos de mitigação ao longo de atualizações.

Comparar deltas de métricas entre releases consecutivos.
Mapear clusters de deriva localizados perto de fronteiras de política.
Caracterizar padrões de evolução adaptativa de prompts.
Analisar gradientes de redistribuição em domínios de duplo uso.

Entregável:

Relatório de estabilidade comportamental indexado por versão.

Fase 3: Modelagem de Coevolução Adversarial

Objetivo: Modelar adaptação adversarial estruturada.

Implementar sistemas automatizados de mutação de prompts e sondagem de fronteira.
Analisar distribuições de iteração até o sucesso longitudinalmente.
Estudar mudanças entre versões na efetividade de estratégias adversariais.
Identificar padrões persistentes de evasão.

Entregável:

Caracterização de resiliência adaptativa sob sondagem sustentada.

Fase 4: Calibração de Assurance

Objetivo: Definir padrões de relato e limiares de estabilidade.

Estabelecer bandas aceitáveis de deriva para domínios não alvo.
Definir benchmarks de durabilidade de restrição para interação estendida.
Formalizar subconjuntos de métricas para relato externo.
Identificar indicadores de alerta precoce para instabilidade de mitigação.

Entregável:

Critérios operacionais para alegações de segurança pós-implantação.

Direções de Pesquisa de Longo Prazo

Além da implementação, questões de pesquisa em aberto incluem:

Modelagem formal de dinâmicas de empilhamento de mitigação.
Indicadores preditivos de redistribuição antes da implantação.
Limites teóricos de durabilidade de recusa sob pressão adaptativa.
Padrões de comparabilidade entre modelos para comportamento pós-intervenção.

Posicionamento de Encerramento

A segurança pós-implantação não pode ser totalmente caracterizada no momento do lançamento.
A mitigação altera o comportamento do sistema, e esse comportamento evolui sob interação, iteração e acúmulo de restrições.

A estrutura PISD-Eval estabelece uma base estruturada e mensurável para estudar essas dinâmicas longitudinalmente e integrá-las à assurance de implantação.

Abstract

1. Definição do Sistema e Lacuna de Avaliação

1.1 Classe de Sistema

1.2 Tipos de Intervenção

1.3 Contexto de Implantação

1.4 Lacuna de Avaliação

2. Dinâmicas Centrais Pós-Intervenção

2.1 Deriva Comportamental Entre Versões Após Mitigação

A. Descrição Estrutural

B. Sinais Observáveis

C. Hipóteses Testáveis

D. Protocolo de Avaliação

E. Modos de Falha se Não Medido

F. Implicações para Assurance

2.2 Evolução Adaptativa de Prompts perto das Fronteiras de Recusa

A. Descrição Estrutural

B. Sinais Observáveis

C. Hipóteses Testáveis

D. Protocolo de Avaliação

E. Modos de Falha se Não Medido

F. Implicações para Assurance

2.3 Efeitos de Interação entre Camadas de Mitigação

A. Descrição Estrutural

B. Sinais Observáveis

C. Hipóteses Testáveis

D. Protocolo de Avaliação

E. Modos de Falha se Não Medido

F. Implicações para Assurance

2.4 Decaimento de Mitigação sob Interação Estendida

A. Descrição Estrutural

B. Sinais Observáveis

C. Hipóteses Testáveis

D. Protocolo de Avaliação

E. Modos de Falha se Não Medido

F. Implicações para Assurance

2.5 Redistribuição de Capacidade Nociva sob Restrição

A. Descrição Estrutural

B. Sinais Observáveis

C. Hipóteses Testáveis

D. Protocolo de Avaliação

E. Modos de Falha se Não Medido

F. Implicações para Assurance

3. Arquitetura de Avaliação Longitudinal

3.1 Infraestrutura de Acompanhamento entre Versões

1. Conjunto Canônico de Prompts

2. Arquivo de Respostas por Versão

3. Análise do Manifold de Respostas

3.2 Acompanhamento da Evolução Adversarial

1. Captura de Cadeias de Prompts Iterativas

2. Protocolos de Busca Evolutiva

3. Mapeamento de Densidade de Fronteira

3.3 Testes de Estabilidade em Múltiplos Turnos

1. Simulação de Sessões Estendidas

2. Sequências de Decomposição de Tarefas

3. Acompanhamento da Durabilidade de Recusa

3.4 Testes de Estresse de Camadas de Mitigação

1. Matriz de Configuração

2. Experimentos de Ablação de Camadas

3. Detecção de Conflitos de Interação

3.5 Acompanhamento de Redistribuição e Capacidade Latente

1. Biblioteca de Decomposição de Tarefas

2. Classificadores de Intenção Latente

3. Acompanhamento da Razão de Assistência Direta-para-Indireta

4. Taxonomia de Métricas

4.1 Índice de Deriva entre Versões (CVDI)

4.2 Taxa de Sucesso de Prompt Adaptativo (APSR)

4.3 Métrica de Durabilidade de Restrição (CDM)

4.4 Índice de Interação de Mitigação (MII)

4.5 Pontuação de Persistência de Dano Latente (LHPS)

4.6 Propriedades de Métricas

4.7 Estrutura de Relato

5. Implicações para Implantação e Assurance

5.1 Limites do Benchmarking Estático

5.2 Requisitos para Monitoramento Contínuo

5.3 Caminhos de Validação Externa

5.4 Risco de Acúmulo de Camadas de Mitigação

5.5 Padrões Evidenciais para Alegações de Segurança

6. Roteiro de Pesquisa

Related by invariants