Die „Peer Group Similarity“-Hypothese, Teil I: Die Grundlagen   Recently updated !


PlagScan entdeckte bei der Entwicklung von Author Metrics – einem Tool zur Erkennung von akademischen Auftragsarbeiten –, dass die „Peer Group Similarity“-Hypothese für die Erkennung von Ghostwritern angewendet werden kann.

Von der Plagiatserkennung zur Autorenüberprüfung

Die Präsentation von Herrn Goldbach zu diesem Thema während der jährlichen Europäischen Konferenz für akademische Integrität (ENAI) in Vilnius, Litauen, im vergangenen Monat wurde mit großem Interesse aufgenommen. Daher möchte ich in diesem Artikel näher auf die Grundlagen dieser Hypothese eingehen.

Im Vergleich zur traditionellen Lösung zum Erkennen von Plagiaten innerhalb einer Arbeit betrachtet Author Metrics eine ganze Gruppe von Dokumenten für die Analyse. Unsere Daten zeigen bei einem Vergleich von Arbeiten, die von einer Gruppe an Schülern derselben Klasse zum selben Thema geschrieben wurden, eine Gaußsche Verteilung für die von uns ausgewählten Metriken. Die meisten Studenten konzentrieren sich in der Mitte des Wertebereichs, einige wenige liegen jedoch unter- oder oberhalb des Mittelwerts.

Ausreißer im unteren Bereich betrachten wir als leistungsschwache Schüler, die wir nicht hervorheben. Studenten die signifikant besser als ihre Gruppenmitglieder abschneiden werden zur weiteren Prüfung gekennzeichnet. Hohe Werte bei einer Reihe von Metriken können entweder auf einen erstaunlich begabten Schüler/Studenten oder einen potenziellen Ghostwriter hinweisen. Nach der Kennzeichnung durch Author Metrics liegt die Entscheidung für eine der beiden Kategorien daher im Ermessen des Lehrers. Unser Tool möchte keine Klassifizierung vornehmen, sondern lediglich auf aus der Norm fallende Arbeiten aufmerksam machen. Wir sind uns bewusst, dass die Werteverteilung für diese Metriken, das Ergebnis kulturell spezifischer pädagogischer Annahmen sein kann, mit denen wir uns zu einem späteren Zeitpunkt auseinandersetzen wollen. Um diese Annahmen abzuschwächen, stützen wir uns zunächst auf insgesamt acht Kennzahlen zur Charakterisierung jedes Dokuments.

Arbeiten eines einzelnen Autoren vergleichen

Zukünftig ist geplant, die Validierung durch den Vergleich einer Aufgabe mit anderen Aufgaben, die der Student zuvor hochgeladen hat, durchzuführen. Die Teilnehmer der jährlichen PAN-Wettbewerbe haben dieses Problem bereits intensiv erforscht und so ist das Problem der „Authorship Verification“ bereits gründlich wissenschaftlich diskutiert worden. Unsere Methode ist jedoch stabiler und weniger anfällig für verschiedene soziokulturelle Eigenschaften einzelner Schüler und Studenten, oder der in der Arbeit behandelten Themen und Textgenres. Damit Arbeiten analysiert werden können, müssen zunächst einige Datengrundlagen für jeden Schüler ermittelt werden. Deshalb führt PlagScan derzeit Klassen- und Jahrgangsstufen-übergreifende Vergleiche durch, um Daten zu sammeln und Dokumente zu kennzeichnen.

Das Konzept der „Speech Communities“

Damit wir unsere Herangehensweise in den Kontext verschiedener wissenschaftlicher Ansätze einordnen können, wenden wir uns der Dialektologie zu. Die Dialektologie verfolgt einen quantitativen Ansatz zur Identifizierung von „prototypischen“ Sprechern und kartiert geografisch gleichzeitig die Prävalenz von Sprachvarianten und die Sprachmerkmale, die Dialektgruppen bilden. Ein weiterer Ansatz, die  sprachliche Anthropologie, ist ein Bereich, der sich mit Sprachvariationen innerhalb von Gemeinschaften und den sozialen Bedeutungen befasst, die durch verschiedene Kommunikationsformen konstruiert werden. In beiden spannenden Bereichen gibt es das Forschungskonzept der „Speech Communities“, bei dem Gruppen von Sprechern, die regelmäßig interagieren, Muster des Sprachgebrauchs teilen und die sie als Mitglied ihrer jeweiligen Gemeinschaften identifizieren.

Ghostwriter innerhalb einer Gruppe von Studierenden auspüren

Im Rahmen eines Tests haben wir die Arbeit eines fremden Ghostwriters in ein Set von Dokumenten, die von Schülern derselben Klasse geschrieben wurden, eingefügt. Anhand dieses Datensatzes ließ sich der Ghostwriter einfach identifizieren, da er für fast alle derzeit in Author Metrics implementierten Messwerte signifikant unterschiedliche hoher Extremwerte erzielte. Die pädagogische Forschung zur Erziehung in einem Umfeld mit verschiedensprachlichen Individuen, auch oft multikulturelles Klassenzimmer genannt, kann unserem Verständnis dessen, was Sprachgemeinschaften und Peer Groups ausmacht, eine wichtige Hinweise geben, da wir in der Realität zunehmend globalisierte und heterogene Klassenzimmer analysieren können müssen.

Hat dieser Artikel Ihr Interesse geweckt? Bald veröffentlichen wir Teil II mit weiteren Überlegungen zur „Peer Group Similarity“-Hypothese.

In der Zwischenzeit freuen wir uns, Ihre Meinung zu unserer Hypothese zu hören. Kommentieren Sie entweder unter diesem Artikel, oder schreiben Sie an presse@plagscan.com.


Schreibe einen Kommentar

Your email address will not be published. Required fields are marked *

Ein Gedanke zu “Die „Peer Group Similarity“-Hypothese, Teil I: Die Grundlagen