Investigação de um caso de racismo
Caso investigado: No contexto de uma partida de futebol entre Mirassol e Palmeiras, em São José do Rio Preto (SP), noticiou-se a prática de crime racial, tendo sido gravado um vídeo do momento em que o “ato de fala” (John Austin) foi proferido, discutindo-se qual o conteúdo: se “macaco velho” ou “paca véa” (confira o vídeo aqui).
A questão abordada neste artigo parte das notícias veiculadas em face das investigações (aqui, aqui e aqui), mais propriamente sobre as possibilidades e limites do uso de modelos de inteligência artificial generativa (IAGen) para produção e análise técnica de prova penal, com o fim de determinar o conteúdo do emissor do discurso no contexto da investigação criminal de crimes, na hipótese, associados ao racismo.
Práticas racistas e discursos de suposta superioridade racial são incompatíveis com a dignidade humana, a democracia, a ciência e configuram crimes graves (Lei 7.716/1989). Todo ato racista merece punição após apuração adequada. A responsabilidade penal depende da observância do devido processo legal, especificamente da conformidade na aquisição e produção da prova penal, assegurada a cadeia de custódia (CPP, artigos 158-A a 158-F).
No caso concreto, a autoridade policial, no exercício de seu dever funcional, tão logo teve ciência da ocorrência determinou a apuração escorreita dos fatos (CPP, artigo 4º e 6º), atuação que define o sucesso ou insucesso da apuração e da futura ação penal [1], encaminhando a prova audiovisual à perícia oficial para determinar se o conteúdo emitido era: “macaco velho” ou “paca véa”.
Segundo noticiado, o Instituto de Perícias Oficial apresentou dois laudos apontando que o conteúdo dito pelo agente foi o de “paca véa”. No entanto, mesmo diante da perícia oficial, realizada com metodologia científica, atendendo ao pedido da autoridade policial, o Centro de Inteligência Policial (CIP), vinculado à Polícia Civil de São José do Rio Preto (SP), elaborou um “relatório técnico” com base em um vídeo hospedado no Google Drive. A análise do material pelo CIP se utilizou das plataformas Gemini (Google) e Perplexity.ai, modelos largos de inteligência artificial generativa (LLMs).
A resposta produzida pelos modelos de linguagem apontou que a expressão utilizada foi a de “macaco velho”, tendo a autoridade policial, com base no relatório do CIP, promovido o indiciamento do agente por injúria racial. Sem a pretensão de analisar o mérito do caso (se o agente falou “macaco velho” ou “paca véia), demonstraremos porque é inválido o uso de Inteligência Artificial Generativa para fins de produção de prova penal.
Uso de IA generativa na investigação criminal
Um modelo de LLM (Large Language Model) pode apoiar muitas tarefas no ambiente do Direito, mas não pode substituir o profissional na responsabilidade pela decisão, nem peritos oficiais na análise técnica de provas audiovisuais (como gravações de áudio ou vídeo), porque a arquitetura transformers é inadequada à finalidade de estabelecer com precisão e confiabilidade o que alguém falou em um contexto fático.
Por mais que os modelos de IAGen aparentem simplicidade, operam por meio de um “mecanismo de atenção”, exigindo o conhecimento das definições mínimas de tokens, posições e espaço vetorial. O tema é mais complexo, mas “atenção é tudo que você precisa”, parafraseando o paper original da arquitetura Transformers, que permitiu a revolução de IA generativa atual (aqui e aqui).
Em linhas gerais, o “mecanismo de atenção” permite que o modelo “preste atenção seletiva” em diferentes partes da entrada ao processar cada novo token, valendo-se do ranking de posições dos tokens vinculados à representação em um espaço vetorial de alta dimensão (espaço vetorial de embedding).
Listamos brevemente sobre os motivos pelos quais modelos de IAGen são inadequados à produção de prova penal e as razões pelas quais podem identificar “macaco velho” em vez de “paca véa” quando da análise do vídeo.

Caso de 23 de fevereiro deste ano
(a) Limitações de entrada de texto: LLMs processam apenas texto, sem que consigam ver o vídeo ou ouvir o áudio, por meio da prévia conversão em texto por um sistema de Reconhecimento Automático de Fala (ASR — Automatic Speech Recognition), propenso a erros na captura e distinção entre sinais e ruídos no canal de comunicação (sons de fundo, sobreposição de imagens, qualidade da gravação, termos técnicos, gírias, contexto etc.), entregando transcrições imprecisas ou erradas porque o LLM assume a transcrição como verdadeira e tende a ampliar as distorções.
(b) Alucinações e conjectura: LLMs podem preencher lacunas ou identificar palavras com base em padrões estatísticos de ranking de palavras (na verdade tokens, partes menores de uma palavra, posicionada em um espaço vetorial de embeding), gerando conteúdo que parece mais plausível, sem que garanta a correspondência com o que foi realmente dito na gravação.
(c) Viés do modelo: tanto os sistemas ASR quanto os LLMs podem conter vieses presentes nos dados de treinamento, levando a erros sistemáticos que podem comprometer a acurácia da entrega, especialmente porque em contextos ambíguos, tende a reconhecer a palavra (token) com melhor ranking (mais utilizada em sua base de treinamento). Dito de outra forma, modelos usam representações vetoriais (embeddings de contexto) que capturam aspectos semânticos e fonéticos por meio da classificação de saliência lexical (palavras mais comuns são ativadas com prioridade).
(d) Responsabilidade e atribuição: quem é responsável por um erro na transcrição ou interpretação? O operador do ASR? O desenvolvedor do LLM? O usuário que solicitou a análise? A cadeia de responsabilidade fica difusa e incompatível com o devido processo legal, até porque o investigado tem o direito de confrontar peritos e um relatório gerado por um “modelo de caixa preta” como um LLM dificulta o contraditório e a verificação dos métodos utilizados.
Exemplo em áudio ambíguo (prova de conceito): Suponha um áudio ambíguo ou distorcido: `/ __ ˈvelho/véia /` (onde `__` é um som entre /macaco/ e /paca/).
– Passo 1: o modelo extrai características acústicas (e.g., formantes, energia: possibilidades).
– Passo 2: consulta o espaço vetorial: [a] Opção 1: `/m/ + /a/` → “macaco” (probabilidade alta); ou, [b] Opção 2: `/p/ + /a/` → “paca” (probabilidade menor, pela frequência).
– Passo 3**: contexto posterior (“…referência ao racismo por outros falantes”): “racismo” + “racista” → associação forte com “macaco”.
– Resultado**: P(“macaco”) > P(“paca”).
A preferência por “macaco” sobre “paca” emerge dos seguintes fatores: (a) Frequência lexical superior (“macaco” é estatisticamente dominante na base de treinamento do modelo); (b) Sensibilidade fonotática (sequências como /ma/ são mais estáveis); (c) Pistas contextuais (semântica e sintaxe); e, (d) Arquitetura do modelo (atenção a padrões comuns e associações estatísticas).
Os modelos de IAGen internalizam vieses linguísticos e estatísticos a partir dos dados de treino, priorizando hipóteses mais prováveis mesmo com ambiguidade fonética. Em consequência, a tendência do modelo de LLM é a de optar por “macaco velho” não porque analisou o som, mas porque no contexto: [a] é a expressão estatisticamente dominante; [b] faz sentido em contextos genéricos; e, [c] corrige ambiguidades do ASR para o padrão linguístico mais “provável” conforme os dados de treinamento.
Quando um LLM pode ser usado (com extrema cautela e não como meio de prova)
Um LLM pode servir de ferramenta de apoio somente após a transcrição técnica ou humana realizada por um perito qualificado que primeiro analisa e garante o conteúdo da gravação, auxiliando a estruturação e organização do produto transcrito, por meio da identificação de palavras-chave ou sugestão de possíveis interpretações para consideração do perito humano que permanece com a responsabilidade pessoal (administrativa, civil e penal).
Resumo operacional:
| Critério | Análise via LLM / ASR | Perícia Humana em Fonética Forense |
| Metodologia | Conversão probabilística de som em texto. | Análise acústica e espectral das ondas sonoras, comparação de formantes, entonação e características da voz. |
| Precisão | Altamente variável, dependente da qualidade do áudio e do treinamento do modelo. Não confiável para distinções refinadas. | Alta. O perito pode isolar os fonemas e analisar suas propriedades físicas, declarando um grau de certeza técnica. |
| Validade Jurídica | Nula como prova pericial. Serve apenas como apoio investigativo informal. | Alta. O laudo pericial é um documento técnico-científico aceito como prova em processos judiciais. |
| Análise | É incapaz de detectar edições, manipulações ou ambiguidade no áudio | Parte do trabalho pericial é verificar a integridade e autenticidade do arquivo de áudio/vídeo. |
| Reprodutibilidade | Limitada. Modelos diferentes podem dar resultados diferentes. A lógica interna não é totalmente explicável. | Alta. A metodologia científica utilizada pode ser descrita, auditada e questionada por outros peritos. |
Reafirmarmos a intolerância com práticas raciais ao mesmo tempo a aposta na ciência reconhecida e aceita em conformidade com os padrões científicos (Padrão Daubert), evitando-se a ocorrência de erros (tipo I: falso positivo ou tipo II: falso negativo). A própria existência de órgão autônomo para perícias técnicas decorre do reconhecimento e distribuição das capacidades institucionais, atribuindo a peritos qualificados o ofício de verificar a existência (materialidade) de evidências quanto aos fatos penais investigados, observada a cadeia de custódia (CPP, artigo 158). Tanto assim, que o CPP reserva a função de modo privativo aos técnicos qualificados, justamente para reduzir os erros judiciários em face da prevalência de opiniões pessoais (subjetivas; provas anedóticas), muitas vezes enviesadas (vieses cognitivos ou motivacionais).
Anote-se que a produção de prova sem o necessário acompanhamento de peritos oficiais foi denunciada pelo Sindicato dos Peritos Criminais do Estado de São Paulo (Sinpcresp — aqui), a partir de diversos relatos específicos (Boraceia, Urupês), com a acusação de usurpação da função pericial na constatação de drogas, extração de dados e metadados de smartphones sem mandado judicial (CR, artigo 5º, inciso XII; violação do sigilo telemático) e qualificação técnica, comprometendo a cadeia de custódia da prova digital e, por consequência, da validade da prova, tornada ilícita por atos de desconformidade de agentes estatais. A qualificação técnica é condição de validade às perícias no processo penal.
Conclusão
A questão central é jurídica e epistêmica: pode uma ferramenta de IA substituir a prova pericial oficial? Conforme demonstrado, a resposta é negativa. O que foi dito pelo indiciado depende de investigação adequada e decisão humana. Não podemos afirmar se o agente disse “macaco velho” ou “paca véia”, mas estamos autorizados a dizer categoricamente que no atual estado da arte, um modelo de LLM é inválido à determinação do conteúdo, tarefa restrita ao perito oficial, com o uso de metodologia, ferramentas e instrumentos aceitos e reconhecidos pelo paradigma científico, assegurada a cadeia de custódia, o direito ao confronto, enfim, das normas inerentes ao devido processo legal.
A análise de prova penal audiovisual para estabelecer o que foi dito exige habilidades humanas especializadas: audição crítica, interpretação contextual, compreensão de nuances não-verbais e julgamento baseado em experiência e conhecimento jurídico. LLMs, por sua natureza (processamento apenas textual, dependência de ASR imperfeito, incapacidade de capturar elementos prosódicos e visuais, propensão a erros e “alucinações”), não possuem a confiabilidade, precisão e capacidade contextual necessárias para substituir um perito forense humano no espaço do devido processo legal que demanda análise crítica. O uso direto e ingênuo (naive) de modelos de linguagem para fins de produção e análise de prova penal representa um risco inaceitável e que, merece pronto e total repúdio.
Se você ficou com dúvidas sobre o que foi dito, pergunte ao GPT o seguinte (copie e cole no seu modelo favorito): “No contexto de uma investigação criminal, em que há dúvidas sobre o que foi dito em um vídeo gravado (audiovisual), se ‘macaco velho’ ou ‘paca véa’, explique as possibilidades e limites de um modelo de LLM analisar o conteúdo com precisão e acurácia.”
Testamos.
O GPT 4.1 concluiu: “Em suma, a precisão da análise do LLM depende da qualidade da transcrição e do contexto fornecido. O LLM auxilia na interpretação, mas não pode substituir peritos para confirmar com certeza o conteúdo exato do áudio, especialmente quando há ambiguidade auditiva”.
O Gemini 2.5 Pro respondeu: “1. Uso como Ferramenta Auxiliar: Utilize o sistema de transcrição automática (ASR) para fazer uma varredura inicial do material, economizando tempo. 2. Identificação de Trechos Críticos: Ao encontrar o trecho duvidoso, marque-o para análise humana. 3. Encaminhamento para a Perícia Oficial: O material audiovisual deve, obrigatoriamente, ser submetido a uma perícia oficial em fonética forense. Somente um perito humano, utilizando equipamentos e metodologia científica, poderá analisar as características acústicas dos sons gravados e emitir um laudo com valor legal, indicando qual das expressões foi dita ou se é impossível determinar com a certeza necessária”.
A inteligência artificial generativa (IAGen) demanda competências técnicas mínimas, evitando-se o uso ingênuo, aptos a causar efeitos incompatíveis com o devido processo legal. A defesa do Estado democrático de Direito exige que: (a) a prova técnica continue sendo responsabilidade exclusiva de peritos legalmente habilitados; (b) as ferramentas de IA sejam complementares, vedada a substituição da perícia técnica; (c) o indiciamento seja sempre fundamentado em elementos de informação legalmente admissíveis, com respeito à cadeia de custódia da prova e à ciência. Por isso, a relevância da qualificação adequada dos profissionais do direito ao novo mundo digital, com os desafios inerentes à aprendizagem de adultos (alfabetização e letramento digital).
__________________________________
[1] FELIX, Yuri; MORAIS DA ROSA, Alexandre. Novas tecnologias de prova no processo penal: O DNA na delação premiada. 2ª edição revista. Florianópolis: Emais. 2019, p. 141: ““A atitude investigatória da autoridade condutora das investigações poderá ser fundamental, ou não, ao êxito de uma condenação. A simples desídia no levantamento de informações no local do crime ou a não requisição de perícia pode acarretar em sérias consequências à materialidade da infração investigada, assim como o tino, a inteligência e o tirocínio na elaboração das linhas investigativas. No pré-jogo processual podem ser realizadas jogadas táticas importantes, vinculadas à estratégia. A prova pericial, por exemplo, na sua ampla maioria, será produzida nesse momento”.
Seja o primeiro a comentar.
Você precisa estar logado para enviar um comentário.
Fazer login