Avaliação acadêmica com IA no ensino jurídico

# Avaliação acadêmica com IA: riscos, limites e possibilidades no ensino jurídico

A avaliação acadêmica sempre repousou sobre uma premissa que parecia tão óbvia que nunca precisou ser enunciada. A premissa era a de que o produto entregue pelo estudante refletia o processo que ele havia percorrido. Se o trabalho era consistente, presumia-se que o aluno havia lido, compreendido e organizado o conhecimento. Se a prova estava bem respondida, presumia-se domínio. Essa correspondência entre produto e processo era o que dava sentido à nota. A inteligência artificial generativa quebrou essa premissa, e a quebra é mais profunda do que a maioria das instituições reconhece.

Hoje, um trabalho pode estar impecável sem que o estudante tenha compreendido o que entregou. Uma resposta pode ser tecnicamente correta sem que quem a apresentou saiba sustentá-la diante de uma pergunta. O produto deixou de ser prova confiável do processo. E, no entanto, a maior parte dos sistemas de avaliação continua operando como se essa correspondência permanecesse intacta, atribuindo notas a produtos finais sob o pressuposto, agora falso, de que eles refletem o aprendizado. Essa defasagem entre o método de avaliação e a realidade tecnológica é a origem de quase todos os problemas que as instituições enfrentam quando o assunto é integridade acadêmica.

A tese deste texto é que o problema da avaliação na era da inteligência artificial não se resolve pela detecção do uso da ferramenta, mas pela reconstrução daquilo que a avaliação observa. Enquanto as instituições insistirem em avaliar produtos que podem ser gerados sem compreensão, estarão certificando competências que talvez não existam. A saída não está em perseguir a tecnologia, mas em redesenhar a avaliação para que ela volte a observar o raciocínio, que é o único objeto que importa e o único que a ferramenta não fornece pronto.

A ilusão da detecção

Diante da percepção de que estudantes usam inteligência artificial para produzir seus trabalhos, a primeira reação institucional costuma ser buscar uma forma de detectar esse uso. Surgem ferramentas que prometem identificar texto gerado por máquina, e instituições as adotam com a expectativa de restaurar o controle perdido. Essa expectativa é frágil em dois planos, e compreender essa fragilidade é essencial antes de organizar qualquer política de avaliação em torno dela.

No plano técnico, os detectores são notoriamente pouco confiáveis. Produzem falsos positivos, acusando como artificial um texto genuinamente humano, e falsos negativos, deixando passar como humano um texto gerado e levemente editado. Basear uma decisão acadêmica grave, como a reprovação ou a acusação de fraude, em um instrumento dessa fragilidade é construir injustiça sobre fundamento incerto. No plano relacional, o efeito é ainda mais corrosivo. Quando a instituição se posiciona como caçadora de fraudes, ela transforma a relação pedagógica em uma relação de vigilância e suspeita. O estudante deixa de ser alguém em formação e passa a ser um suspeito permanente, e esse deslocamento envenena o ambiente de aprendizagem em escala bem maior do que o problema que pretendia resolver.

Há, além disso, um problema lógico mais profundo na estratégia da detecção. Ela parte do princípio de que o objetivo é impedir o uso da ferramenta, quando o uso da ferramenta é, em muitos contextos, legítimo e até desejável. O que a avaliação precisa verificar não é se o estudante usou inteligência artificial, mas se ele aprendeu. São perguntas diferentes, e confundi-las leva a soluções que não resolvem o problema real. A detecção, mesmo que funcionasse perfeitamente, responderia à pergunta errada. Por isso, instituições que organizam sua política de integridade em torno da detecção estão investindo energia em um caminho que não conduz ao destino pretendido.

O risco do trabalho artificial e o que ele revela

A expressão trabalho artificial costuma ser usada para descrever o produto gerado por inteligência artificial e entregue como se fosse do estudante. Mas há uma artificialidade mais antiga e mais profunda que a tecnologia apenas tornou visível. Muitos formatos de avaliação já eram, há tempos, suscetíveis de serem cumpridos sem aprendizado real. O trabalho copiado, o resumo de resumo, a monografia montada com recortes, a resposta decorada sem compreensão. A inteligência artificial não criou a possibilidade de simular competência. Ela apenas a barateou, a acelerou e a tornou universal, expondo uma fragilidade que sempre esteve presente nos formatos avaliativos baseados exclusivamente no produto.

Esse deslocamento de perspectiva é libertador, porque transfere a discussão do estudante para o desenho da avaliação. Se um formato pode ser cumprido sem aprendizado, o problema não é apenas de quem o cumpre assim, mas do formato que o permite. Avaliações que premiam o produto final acabado, sem observar o processo que o gerou, sempre estiveram vulneráveis. A inteligência artificial apenas tornou essa vulnerabilidade impossível de ignorar. Em vez de lamentar que a ferramenta tenha quebrado o sistema, vale reconhecer que o sistema dependia de uma premissa que já era frágil e que agora precisa ser substituída.

Reconhecer isso muda a natureza da resposta institucional. A pergunta deixa de ser como impedir que os estudantes usem a ferramenta e passa a ser como avaliar de modo que o uso indevido se torne irrelevante, porque a avaliação observa algo que a ferramenta não entrega. Quando a avaliação exige que o estudante sustente seu raciocínio, justifique suas escolhas, responda ao inesperado e demonstre compreensão em ato, o trabalho artificial perde sentido, não porque foi proibido, mas porque não passa no tipo de exame que a avaliação madura aplica. A solução não está em fechar a porta à tecnologia, mas em construir avaliações que medem aquilo que a tecnologia não pode forjar.

Critérios, rubricas e a recuperação do que se avalia

Se o produto deixou de ser prova do processo, a avaliação precisa encontrar outros caminhos para observar o aprendizado. Isso não significa abandonar os trabalhos escritos, mas significa deixar de tratá-los como peças isoladas cuja correção bastaria. Um trabalho escrito passa a ser o ponto de partida de uma arguição, em que o estudante explica por que tomou cada decisão, defende suas posições diante de objeções e demonstra que o texto é expressão de um pensamento que ele realmente construiu. A defesa oral, o debate, a resolução de problemas novos em tempo real, a justificação metodológica, tudo isso observa o raciocínio em ato, e o raciocínio em ato não se delega a nenhum sistema.

A construção de critérios claros é o que dá sustentação a essa mudança. Rubricas bem desenhadas, que explicitam o que se espera em cada nível de desempenho, cumprem uma função dupla. Comunicam ao estudante o que de fato será avaliado, deslocando seu esforço do produto para a compreensão, e oferecem ao professor um instrumento consistente para avaliar competências que vão além da correção formal do texto. Quando a rubrica valoriza a capacidade de argumentar, de justificar, de criticar e de aplicar, ela orienta o estudante a desenvolver justamente o que a inteligência artificial não desenvolve por ele. O critério, nesse sentido, não é uma formalidade burocrática. É a tradução, em termos operacionais, daquilo que a instituição decidiu que importa formar.

Nada disso, porém, funciona como iniciativa isolada de um professor. A avaliação na era da inteligência artificial exige adaptação institucional, porque envolve repensar formatos consolidados, redistribuir cargas de trabalho docente e construir uma posição comum sobre o que se espera dos estudantes. Avaliações que observam o raciocínio em ato são mais trabalhosas que as que apenas corrigem produtos, e essa carga adicional não pode recair apenas sobre a boa vontade de docentes individuais. Ela precisa ser absorvida por um desenho institucional que reconheça o esforço que exige e que ofereça as condições para sustentá-lo. Sem essa adaptação, a discussão sobre avaliação permanece como recomendação que ninguém consegue cumprir na prática.

Conclusão

A inteligência artificial não destruiu a avaliação acadêmica. Ela tornou visível uma fragilidade que sempre esteve presente nos formatos baseados exclusivamente no produto final. A correspondência entre produto e processo, que dava sentido à nota, deixou de ser confiável, e nenhuma ferramenta de detecção restaura essa correspondência, porque a detecção responde à pergunta errada. O que importa não é se o estudante usou a tecnologia, mas se ele aprendeu, e essa pergunta só se responde por meio de avaliações que observem o raciocínio em ato, e não apenas o texto acabado.

Essa transformação não é uma ameaça à integridade acadêmica, mas uma oportunidade de recuperá-la em bases mais sólidas. Avaliar o raciocínio, exigir a justificação, valorizar a defesa de posições e construir critérios claros são caminhos que tornam o trabalho artificial irrelevante sem precisar persegui-lo. Mas eles dependem de adaptação institucional, porque exigem repensar formatos, redistribuir esforços e assumir, coletivamente, uma posição sobre o que a instituição entende por aprendizado. A avaliação madura na era da inteligência artificial não é a que melhor detecta a fraude, mas a que melhor observa a competência.

A NeuralLex e o trabalho de Jamille Porto se voltam exatamente para esse ponto de tensão, apoiando instituições de ensino jurídico que precisam repensar a avaliação acadêmica diante da inteligência artificial sem reduzir o rigor, abandonando a ilusão da detecção em favor de critérios que observam o aprendizado real.

A NeuralLex, sob responsabilidade técnica de Jamille Porto, desenvolve formações, diretrizes e soluções para organizações jurídicas que precisam incorporar Inteligência Artificial com método, governança, segurança e responsabilidade profissional.

Jamille Porto

FUNDADORA DA NEURALLEX

Advogada, professora, pesquisadora e fundadora da NeuralLex. Atua na interseção entre Direito, Inteligência Artificial e desenvolvimento de soluções tecnológicas para escritórios, universidades e instituições.

Conhecer a trajetória completa →