«Ein Schnappschuss aus der Krisensituation»

02.11.2020 Stellenausschreibungen sind eine Mine von Information. Diesen Schatz zu schürfen, ist anspruchsvoll. Das hat Informatikabsolvent Dennis Gjokaj mit seiner Bachelorarbeit zur Datenextraktion aus einer Jobplattform gezeigt.

Dennis Gjokaj, wie sind Sie dazu gekommen, Stellenausschreibungen zu untersuchen?

Dennis Gjokaj: Das Crawlen, also die Datengewinnung aus dem Internet, hat mich immer interessiert. Die Idee, Stellenanzeigen zu analysieren, kam von meinem Dozenten Erik Graf.

Sie gehören zum ersten Lehrgang der BFH, der sich auf das so genannte Data Engineering spezialisieren konnte. Was fasziniert Sie daran?

In unserem Informatiklehrgang waren wir so was wie Versuchskaninchen. Es hat sich auf alle Fälle gelohnt. Aus unscheinbaren Dingen zu lernen, reizt mich.

Wie sind Sie vorgegangen, um die Datensätze zu erhalten?

Es war klar, dass wir nur auf öffentliche Materie zugreifen und schon damit gab es das erste Problem.

Warum?

Weil die Plattformen Abwehrmechanismen gegen das Crawlen haben. Es brauchte eine Reihe von Versuchen, bis wir die Lösung fanden. Beim Jobportal indeed konnten wir täglich die neuen Inserate abgreifen, indem wir Suchanfragen für jede Kantonshauptstadt mit einem Radius von 50 Kilometer aufgaben. So kamen täglich etwa 700 Inserate herein, am meisten Anfang Woche. Zum Schluss, nachdem die Duplikate «ausgestrählt» waren, hatten wir gut 55000 beisammen.

Wie behält man den Überblick über 55000 Stellenausschreibungen und wie bewältigte Ihr Computer die Aufgabe?

Das tönt nach viel, aber mit diesem Volumen an Textdateien kommt ein Computer problemlos klar. Ich habe mittels Stichproben überwacht, ob alles klappt. Die Qualität war durchwegs hoch. Bei der Spracherkennung habe ich bei 800 Ausschreibungen keine einzige falsche Zuordnung gefunden.

Mehr erfahren