· 6 de jul. de 2023

Atualizações sobre a detecção de escrita por IA, pela Diretora de Produto da Turnitin

Annie Chechitelli

Diretora de Produtos, Turnitin

Já se passaram alguns meses desde o lançamento inicial de nosso Preview para detecção de escrita por IA. Continuamos firmes em nossa estratégia de sermos transparentes com a comunidade educacional sobre nossas descobertas e progressos. Estamos todos aprendendo juntos sobre o impacto das ferramentas generativas de IA. Como empresa, acreditamos que quanto mais informações, melhor para ajudar os professores na tomada de decisões para seus cursos e alunos.

Principais descobertas:

1. 3,5% dos envios contêm mais de 80% de texto escrito por IA.

Uma pergunta que ouvimos com frequência é: “Que quantidade de escrita por IA você está vendo nos envios feitos para a Turnitin?”. Em 14 de maio de 2023, dos 38,5 milhões de envios que processamos para escrita por IA, 9,6% relatam mais de 20% de escrita por IA e 3,5% relatam entre 80% e 100% de escrita por IA.

É importante considerar que essas estatísticas também incluem tarefas em que os professores podem ter autorizado ou atribuído o uso de ferramentas de IA, mas não distinguimos isso nesses números. Não estamos prontos para classificar essas métricas como “boas” ou “ruins”; os dados são os dados. Continuaremos a rastrear e publicar essas métricas e estamos investigando outras que podem ser úteis para entender as macrotendências da escrita por IA e sua relação com o plágio tradicional de copiar e colar.

2. Os professores e administradores citam os falsos positivos como uma das principais preocupações na detecção de escrita por IA em geral e, em casos específicos, dentro do nosso recurso de detecção de escrita por IA*.

Antes do lançamento, testamos nosso modelo em um ambiente de laboratório controlado (nosso Innovation lab). Desde o lançamento, descobrimos que o uso no mundo real está gerando resultados diferentes dos resultados do nosso laboratório. Investigamos artigos que foram sinalizados por instituições, ou por professores, para análise adicional. Para reforçar nossa estrutura de teste e diagnosticar tendências estatísticas de falsos positivos, colocamos 800.000 amostras de escrita acadêmica que foram feitas antes do lançamento do ChatGPT, por meio de nosso serviço de detecção.

Como resultado desse teste adicional, determinamos que, nos casos em que detectamos menos de 20% de IA em um documento, há uma incidência maior de falsos positivos. Este é um comportamento inconsistente e continuaremos a testar para entender a causa raiz. Para reduzir a probabilidade de má interpretação, atualizamos o botão do indicador de IA no Relatório de Similaridade para incluir um asterisco em porcentagens menores que 20%, para chamar a atenção ao fato de que tal pontuação é menos confiável.

Consideramos vários tratamentos dos indicadores para esse cenário, incluindo não mostrar uma pontuação percentual quando detectamos menos de 20%, mas o feedback dos professores foi consistente: eles não gostaram da ideia de pontuações percentuais de IA ocultas, porque isso tira a oportunidade de obter mais informações e exercer seu direito de julgamento acadêmico.

Outra mudança que estamos fazendo com base em nossos dados e testes é aumentar o requisito mínimo de 150 para 300 palavras, para que um documento seja avaliado por nosso detector de escrita por IA. Os resultados mostram que nossa precisão aumenta com um pouco mais de texto, e nosso objetivo é focar na escrita longa. Podemos ajustar esse requisito mínimo de palavras ao longo do tempo, com base na avaliação contínua de nosso modelo.

Também observamos uma maior incidência de falsos positivos nas primeiras, ou nas últimas frases de um documento. Muitas vezes, essas frases são a introdução ou a conclusão do texto. Como resultado, mudamos a forma como agregamos essas sentenças específicas para detecção, para reduzir os falsos positivos.

Em resumo, essas atualizações estão sendo lançadas para atender às preocupações de falsos positivos de nossos clientes:

exibir um asterisco no indicador para documentos com menos de 20% de escrita por IA detectada,
aumento do requisito mínimo de palavras de 150 para 300
ajuste de como agregamos as frases no início e no final de um documento.

3. Os professores têm dificuldade em interpretar nossas métricas de escrita por IA.

Primeiramente, achamos importante explicar que existem duas estatísticas diferentes calculadas: (1) no nível do documento e (2) no nível da frase. Cada uma delas tem uma métrica de escrita por IA associada.

Levando em consideração as mudanças acima e compreendendo como os professores interpretam nossas métricas, atualizamos a forma como discutimos taxas de falsos positivos para documentos, e taxas de falsos positivos para sentenças. Para documentos com mais de 20% de escrita por IA, nossa taxa de falsos positivos de documentos é inferior a 1%, conforme validado por um teste recente de 800.000 documentos pré-GPT. Isso significa que podemos sinalizar um documento escrito por humanos como tendo escrita por IA na frequência de um em cada 100 documentos escritos por humanos. Embora 1% seja uma porcentagem bem pequena, por trás de cada instância de falso positivo está um aluno real que pode ter se esforçado muito em seu trabalho original. Não podemos mitigar completamente o risco de falsos positivos devido à natureza da redação e análise da IA, portanto, é importante que os professores usem a pontuação da IA para iniciar um diálogo significativo e impactante com seus alunos nesses casos. Eles também devem planejar como abordar tal conversa e podem achar este recurso útil: Guia para abordar textos gerados por IA em sua sala de aula.Nossos clientes nos pediram estatísticas de falsos positivos de nível mais granular - especificamente, a probabilidade de uma frase específica ser destacada como escrita por IA quando é escrita por humanos. Essa é uma métrica diferente da taxa de falsos positivos do documento.

Nossa taxa de falsos positivos no nível da sentença é de aproximadamente 4%. Isso significa que a frase específica que estamos destacando pode ter sido escrita por humanos, 4 vezes para cada 100 frases destacadas. A incidência disso é mais comum em documentos que contêm uma mistura de conteúdo escrito por humanos e por IA, particularmente nas transições entre conteúdo escrito por humanos e IA. Esta é uma área interessante que planejamos pesquisar mais, porque há uma correlação entre essas frases e sua proximidade no documento com a escrita, de fato, da IA:

54% das sentenças de falso positivo estão localizadas ao lado da escrita por IA
26% das sentenças falso positivas estão localizadas a duas sentenças de distância da escrita por IA
10% das sentenças falso positivas estão localizadas a três sentenças de distância da escrita por IA
Os 10% restantes não estão perto de nenhuma escrita por IA de fato.

Com isso em mente, qual é o “e então” para os professores? Quando uma frase é destacada como escrita por IA, há cerca de 4% de chance de que ela seja escrita por humanos, mas a maioria das instâncias estará próxima ao texto real escrito por IA. Planejamos experimentar e testar diferentes experiências do usuário nos próximos meses para ajudar os professores a entenderem melhor esses pontos de transição. Enquanto isso, recomendamos que os docentes visualizem as áreas destacadas no documento, na totalidade, ao visualizar um envio.

Estou compartilhando essas informações para demonstrar o rigor de nossos tecnólogos para entender melhor o “porquê”, para que possamos continuar melhorando e orientando os professores com dados confiáveis junto com o contexto para ajudar a entender o significado. Como parte de nossa melhoria contínua, à medida que os LLMs e a escrita por IA continuam a evoluir, nossas métricas podem mudar, especialmente aquelas relacionadas ao limite de escrita por IA de 20%, o requisito de contagem de palavras e a taxa de falsos positivos em nível de frase de, aproximadamente, 4%.

4. Os docentes sentem-se inseguros sobre as ações que podem realizar ao descobrir a escrita gerada por IA.

Entendemos que, como comunidade educacional, estamos em território desconhecido. Publicamos alguns recursos gratuitos para ajudar professores e instituições a navegar nessas águas:

Abordando um aluno em relação ao uso indevido de IA: Este guia oferece suporte ao diálogo honesto e aberto com os alunos sobre os trabalhos, sem que nenhuma das partes se torne excessivamente defensiva durante o que pode ser uma interação difícil.
Iniciadores de discussão para conversas difíceis sobre IA: este guia ajuda os professores a se concentrarem no desenvolvimento do trabalho que foi enviado e a facilitar conversas produtivas.
Conversas sobre IA: Lidando com falsos positivos para professores: este guia compartilha estratégias que os docentes podem considerar antes e depois dos envios, ao descobrir um falso positivo.
Conversas sobre IA: Lidando com falsos positivos para alunos: este guia compartilha estratégias que os alunos podem considerar antes e depois de envios, quando confrontados com um falso positivo.
Lista de verificação de uso de IA ética para alunos: esta lista de verificação fornece aos alunos orientações durante todas as fases do trabalho e sugere maneiras de tomar decisões que apoiem a integridade e se alinhem com as diretrizes do professor.

Também convidamos a comunidade acadêmica a participar da discussão sobre Escrita por IA, na Turnitin Educator Network.

Continuaremos a compartilhar informações sobre nossas descobertas, mudanças e questões em aberto, enquanto viajamos juntos nessa jornada para o futuro.

Annie Chechitelli
Diretora de Produto, Turnitin

*Este recurso está disponível inicialmente para conteúdos produzidos em Inglês

Subscrever