•  
  •  
 
RELCASI

DOI

10.17705/1relc.00100

Abstract

This exploratory study examines the reliability of generative artificial intelligence in grading subjective academic assignments under controlled conditions. Twelve fictional assignments representing predetermined competency levels were presented to a GenAI model under three prompting conditions. Statistical analyses revealed moderate accuracy (MAE = 1.33, RMSE = 1.83) but inadequate consistency (Fleiss’s Kappa = 0.23), with statistically significant differences among conditions (F = 7.04, p < .05). The Coefficient of Determination (R² = 0.5) indicated that GenAI grading explained only half the variability in intended competency levels. Findings suggest current GenAI systems demonstrate significant sensitivity to prompting variations, indicating they do not yet meet the reliability standards necessary for dependable educational assessment without substantial human oversight.

Este estudio exploratorio examina la confiabilidad (reliability) de la inteligencia artificial generativa en la calificación de tareas académicas subjetivas bajo condiciones controladas. Doce tareas ficticias que representan niveles de competencia predeterminados fueron presentadas a un modelo de GenAI bajo tres condiciones de instrucción (prompting). Los análisis estadísticos revelaron una precisión moderada (MAE = 1,33, RMSE = 1,83) pero una consistencia inadecuada (Kappa de Fleiss = 0,23), con diferencias estadísticamente significativas entre las condiciones (F = 7,04, p < 0,05). El Coeficiente de Determinación (R² = 0,5) indicó que la calificación mediante GenAI explicó solamente la mitad de la variabilidad en los niveles de competencia previstos. Los hallazgos sugieren que los sistemas GenAI actuales demuestran una sensibilidad significativa a las variaciones en las instrucciones, lo que indica que aún no cumplen con los estándares de confiabilidad necesarios para una evaluación educativa confiable sin una supervisión humana sustancial.

Este estudo exploratório examina a confiabilidade da inteligência artificial generativa na avaliação de tarefas acadêmicas subjetivas sob condições controladas. Doze tarefas fictícias representando níveis de competência predeterminados foram apresentadas a um modelo de IA generativa sob três condições de prompt. Análises estatísticas revelaram precisão moderada (EAM = 1,33, REQM = 1,83), mas consistência inadequada (Kappa de Fleiss = 0,23), com diferenças estatisticamente significativas entre as condições (F = 7,04, p < 0,05). O Coeficiente de Determinação (R² = 0,5) indicou que a avaliação da IA generativa explicou apenas metade da variabilidade nos níveis de competência pretendidos. Os resultados sugerem que os sistemas atuais de IA generativa demonstram sensibilidade significativa às variações de prompt, indicando que ainda não atendem aos padrões de confiabilidade necessários para avaliação educacional confiável sem supervisão humana substancial.

Share

COinS