Berliner Zeitung | 7 августа 2007 г.
С Википедией к диплому
Ральф Нестлер
Не только при подготовке домашних заданий, но и при написании докторских есть место плагиату. Новое программное обеспечение из Веймара призвано выходить на след воров текстов
Выделить, скопировать, добавить. Выглядит заманчиво: скачать из интернета готовый текст и вставить его в свой документ, выдав все это затем за собственный труд. В ходе одного исследования, проведенного в Университете Лейпцига, 23% студентов признались, что занимаются плагиатом при подготовке домашних заданий - то есть не указывают в конце работы источник. Даже при написании докторских диссертаций случается нечто подобное. Новая компьютерная программа, которая в настоящее время разрабатывается в Университете Баухаус (Веймар), должна будет в будущем помочь раскрыть кражу чужих мыслей.
"Вот уже около 10 лет существуют компьютерные программы, которые дают указания на то, скопировал ли автор текст из другого источника", - говорит преподаватель информатики Мартин Поттхаст из Университета Баухаус. Он и его коллеги с кафедры "Управления сайтами и интернет-технологий" усовершенствовали известные механизмы обнаружения плагиата и объединили в программу под названием Picapica. Эта программа способна отлавливать даже тех, кто переставляет предложения местами, говорит Поттхаст.
Как и в других программах по обнаружению плагиата текст сначала передается в цифровом формате в систему. Для того чтобы отыскать возможные источники в сети, программа выделяет самые важные слова. "В тексте об автомобильных двигателях чаще всего встречаются такие понятия, как автомобиль, двигатель, бензин, дизель и мощность", - поясняет Поттхаст. Чтобы лучше узнавать ключевые слова, программа сначала стирает так называемые слова-тормозы: определенные артикли, местоимения "тот", "этот", а также предлоги "и", "или". Из оставшихся слов десять самых часто встречающихся передаются таким поисковым машинам, как Google или Yahoo. Найденные таким образом документы автоматически оцениваются компьютерной программой, в результате чего выделяются похожие формулировки в тексте.
Иногда те, кто ворует чужие тексты, переставляют местами предложения в надежде на то, что в таком случае воровство идей обнаружить не удастся. Picapica способна раскрыть даже эту хитрость, говорит Поттхас. Это стало возможным при помощи так называемого хеширования. Программисты называют так прием, применяемый для нахождения определенной учетной записи в компьютерном файле.
Программа, разработанная веймарскими специалистами, разделяет любой текст на отрезки, в каждом из которых содержится около 100 слов. Эти отрезки автоматически проверяются при помощи 30 различных статистических методов. Так, например, просчитывается, с какой периодичностью повторяются определенные начальные буквы. В конце все статистические данные суммируются. Полученный результат достаточно точно характеризует весь текст. А поскольку статистические методы не учитывают места слов в предложении, то перестановка предложений лишь в незначительной степени может сказаться на результатах такой проверки.
Программа проверяет, имеются ли в интернет-энциклопедии Википедия отрезки, которые имеют одинаковые хеш-функции. Для этого веймарские ученые в прошлом году проанализировали все немецко- и англоязычные статьи энциклопедии одним и тем же методом и сохранили полученные результаты. Благодаря этому проверка текста сегодня занимает всего несколько секунд.
На самом деле статьи в Википедии меняются, поскольку эта интернет-энциклопедия постоянно расширяется. Но при этом статистические методы остаются весьма надежными. Небольшие изменения не коснутся хеша, говорят программисты. "Но для абсолютной уверенности нужно постоянно обновлять анализ статей".
Как и другие программы по поиску плагиата, Picapica может сравнивать исходный текст только с материалом, выложенным в сети. "Но именно такие материалы используются для плагиата чаще всего", - утверждает социолог Нильс Тауберт из Университета Билефельда. Чтобы быстрее вывести на чистую воду использующих нечестные методы студентов, он использует американскую программу Turnitin, лицензию на которую приобрел университет. "Одно лишь уведомление о том, что мы используем такую систему, на многих действует как устрашение", - говорит Тауберт. Пока программа не была введена в оборот, каждый четвертый пытался выдать списанное за собственную работу. Сегодня таких недобросовестных студентов осталось менее 5%.
Возможно, остаются и другие лжецы, на след которых не может напасть ни Turnitin, ни сам преподаватель - поскольку у него просто нет времени отслеживать все подозрительные моменты. Снизит ли их процент Picapica, станет ясно в будущем году. А до тех пор Мартин Поттхаст и его коллеги будут и дальше оптимизировать свою программу настолько, чтобы она была доступна на веб-сайте их университета и любой заинтересовавшийся смог бы ее протестировать.
Даже для тех, кто из страха быть пойманным программой будет использовать не цифровые источники, а списывать с книг, настанут тяжелые времена. Ведь Picapica способна анализировать и стиль. Например, она сравнивает длину предложений или среднее число слогов в словах. Эти данные становятся признаком того, насколько сложен текст - а здесь бывают отличия в зависимости от темы и автора. Если показатели внутри исследуемого текста сильно отличаются, то это является прямым указанием на то, что данный автор не все написал самостоятельно.
Обратная связь: редакция / отдел рекламы
Подписка на новости (RSS)
Информация об ограничениях