Программа разработки Университета Канзаса, как утверждается, способна с исключительной точностью выявлять 99% всех сгенерированных ИИ текстов. Это огромный прогресс по сравнению с предыдущими попытками автоматически отделять искусственно созданные тексты от человеческих.
Статьи от ChatGPT обычно кажутся максимально естественными, смоделированными на человеческом письме, на котором ИИ было обучено. Поэтому трудно отличить такой плагиатезированный текст от реального письма.
Предыдущие попытки автоматического обнаружения сгенерированных ИИ текстов в некоторых случаях имели коэффициент успеха значительно ниже 50%. Это делает показатель 99% принципиально более перспективным показателем.
Команда из Университета Канзаса, которая опубликовала свои результаты 6 ноября 2023 года на сайте sciencedirect.com, смогла разработать систему, которая способна с высокой точностью отличать искусственно созданные научные статьи.
Узкая область применения
В тестовой работе университета были отобраны тексты из тринадцати научных журналов, все связанные с химией, а затем их сравнили с 200 текстами, сгенерированными алгоритмами GPT-3.5 или GPT-4.
По словам авторов, 198 из этих текстов были признаны сгенерированными ИИ, что соответствует показателю 99%. Новый антиплагиат от Университета Канзаса основан на 20 текстовых признаках, таких как переменная длина предложения, типичное употребление определённых слов или знаков препинания. Кроме того, обучение проводилось на многочисленных научных текстах по химии.
И именно эта комбинация классической структуры и языка научных текстов, а также фокус на одной предметной области отвечают за надёжность системы.
Однако в дальнейшем тесте со статьями с произвольно выбранного новостного сайта детектор антиплагиата ИИ полностью провалился. Практически ни одна искусственно созданная новость не была идентифицирована как таковая.
Тем не менее, кажется перспективным, что можно достичь такой высокой степени успеха с помощью инструментов, таких как анализ текста для конкретных предметных областей.