Arbeiten am Lehrstuhl

Die bei den Abschlussarbeiten angegebenen Kurse stellen thematische Voraussetzungen dar, damit die Arbeit direkt bearbeitet werden kann.  Wurden diese Kurse nicht besucht, muss entsprechende Literaturarbeit miteinkalkuliert werden. Die Tiefe der Themen kann nach Abschlussart (Bachelor- oder Masterarbeit) in Absprache mit den Betreuenden variiert werden. Sollten Sie sich für ein Thema interessieren, so beraten wir Sie gern.

Generell bietet sich die Lektüre dieses f Ratgebers an.

Einen Überblick über bereits am Lehrstuhl bearbeitete Themen findet sich hier.

Nutzung von Support Vector Machines in Kombination mit CQQL

SVMs (Support Vector Machines) [1] sind eine Möglichkeit der Klassifikation von Daten, d.h. mit Hilfe von Methoden der Linearen Algebra können Objekte in Klassen eingeteilt werden (z.B. Substanz gefährlich/ungefährlich; Prüfung bestanden/nicht bestanden). SVMs sind dabei eine sehr mächtige Möglichkeit zur Klassifizierung und werden aktuell stark genutzt.

CQQL ist eine Datenbank-Anfragesprache, welche am Lehrstuhl DBIS entwickelt wurde. Ergebnisse sind im Vergleich zum Relationalen Modell nicht Boolesch (wahr/falsch), sondern erhalten einen Score-Werte aus dem Intervall [0, 1], mit dessen Hilfe ein Ranking (wie in Suchmaschinen) durchgeführt werden kann. Dabei entspricht 0=falsch, 1=wahr und alles dazwischen Übergangswerte (z.B. Prozentangaben zwischen 0% und 100%. Die Berechnung in CQQL basiert auf einer Logik, sie hat also einen mathematischen Hintergrund. Klingt alles kompliziert, aber es funktioniert und wurde schon implementiert.

Es gibt mehrere Zusammenhänge zwischen beiden Ansätzen/Verfahren (CQQL und SVMs), z.B. basieren sie auf Linearer Algebra und arbeiten mit positiv semi-definiten Matrizen (quadratische Matrizen, deren Eigenwerte alle >= 0 sind). Eine Kombination liegt daher nahe.

In der Arbeit soll untersucht werden, in wie fern CQQL und SVMs kombiniert werden können, z.B. Definition einer SVM auf Grundlage von CQQL oder Integration einer SVM in CQQL. Bei Erfolg dieser Arbeit könnte man ggf. die Klassifikation von Objekten erleichtern und bessere Ergebnisse liefern, ist also höchst sinnvoll. Ebenso könnte es neue Veränderungs- und Erweiterungsimpulse für CQQL geben.

Quellen:

[1] https://de.wikipedia.org/wiki/Support_Vector_Machine

  • Ansprechpartner: Sascha Saretz
  • Technologien: Das Thema ist eher theoretischer Natur. Ein abstraktes Denkvermögen und Grundkenntnisse in Linearer Algebra sind nötig.
  • Kurse: Datenbanktheorie, Neuronale Netze, Lerntheorie wären sinnvoll, sind aber nicht notwendig
  • Themenvergabe: Die Themen sind als als Master- oder Diplomarbeit angedacht. Teilelemente, könnten aber auch als Bachelorarbeit, Studienarbeit oder HiWi-Job durchgeführt werden. Die Aufgabe wird auf die Kenntnisse und Interessen des Studenten zugeschnitten.

 

Erweiterung von CQQL und ProQua um Methoden der Klassifikation

Dies ist eine an "Nutzung von Support Vector Machines in Kombination mit CQQL" angelehnte Aufgabe, bei der es aber vor allem um Implementierung geht. Es sollen unterschiedliche Methoden/Bibliotheken der Klassifikation in das bereits vorhandene System "ProQua" integriert werden. Das Hauptaugenmerk soll auf der SVM-Bibliothek "libsvm" sowie dem Oracle Data Mining Package gelegt werden (Anleitungen dazu sind vorhanden bzw. Hilfe kann gegeben werden).

Ansprechpartner: Sascha Saretz

  • Technologien: Java, C++, außerdem ist ein abstraktes Denkvermögen und Grundkenntnisse in Linearer Algebra wichtig.
  • Kurse: -
  • Themenvergabe: Bachelorarbeit, Studienarbeit oder HiWi-Job. Die Aufgabe wird auf die Kenntnisse und Interessen des Studenten zugeschnitten.

 

Untersuchung zu Ranking-Semantiken in probabilistischen Datenbanken

In probabilistische Datenbanken sind Daten nicht nur enthalten oder nicht enthalten (wie im Relationalen Modell), sondern jedes Tupel hat einen so genannten "Konfidenzwert" aus dem Intervall [0, 1], z.B. "wie wahrscheinlich ist es, dass es am Donnerstag regnet?".

Bei einem Ranking werden die besten Ergebnisse als erstes ausgegeben, schlechte Ergebnisse folgen später oder werden gar gelöscht. Dieses Verhalten kennt man z.B. von Suchmaschinen.

Am Lehrstuhl DBIS wurde das System "ProQua" entwickelt, welche probabilistische Datenbanken mit CQQL (siehe Aufgabe oben) kombiniert. Darin ist auch ein Ranking möglich. Nun gibt es mehrere Arten von Rankings (die Literatur nennt mindestens vier Arten), welche alle unterschiedliche Semantiken und Berechnungsvorschriften haben. Jedes Ranking hat seine eigenen Vor- und Nachteile.

In der Arbeit soll untersucht werden, ob neben dem bereits umgesetzten Ansatz ("expected scores") noch weitere gibt, die sich in das ProQua umsetzen ließen, welches Anwendungsfälle sinnvoll erscheinen und was die Semantik der Ansätze im Bereich der probabilistischen Datenbanken ist.

  • Ansprechpartner: Sascha Saretz
  • Projekt:  ProQua
  • Technologien: Das Thema ist eher theoretischer Natur. Ein abstraktes Denkvermögen und Grundkenntnisse in Linearer Algebra sind nötig.
  • Kurse: Datenbanktheorie, Neuronale Netze, Lerntheorie wären sinnvoll, sind aber nicht notwendig
  • Themenvergabe: Die Themen sind als als Master- oder Diplomarbeit angedacht. Teilelemente, könnten aber auch als Bachelorarbeit, Studienarbeit oder HiWi-Job durchgeführt werden. Die Aufgabe wird auf die Kenntnisse und Interessen des Studenten zugeschnitten.

 

Durchführung von mathematischen Beweisen im Bereich der positiv-definiten Matrizen

Diese Aufgabe richtet sich vor allem an Personen, welche einen mathematischen Beweis führen und schätzen können. Es geht insbesondere um Lineare Algebra (z.B. positiv (semi-)definite Matrizen).

Ansprechpartner: Sascha Saretz

  • Technologien: Grundkenntnisse in Linearer Algebra essenziell.
  • Kurse: -
  • Themenvergabe: Studienarbeit oder HiWi-Job. Die Aufgabe wird auf die Kenntnisse und Interessen des Studenten zugeschnitten.

 

Portierung des CQQL-Normalisierungsalgorithmus

Für die am LS DBIS entwickelte Anfragesprache CQQL wurde in Java ein Normalisierungsalgorithmus implementiert. Dieser soll nach C++ portiert werden. Zunächst soll jedoch die Funktionalität untersucht werden und abgewägt werden, welche Funktionen den Ansprüchen genügen. Der Normalisierungsalgorithmus soll in das bestehende Pythia-Projekt integriert und getestet und evaluiert werden. 

 

Untersuchung des Containment-Problems für Bilder

Im Bereich des Multimedia-Retrievals verstehen wir unter dem Containment-Problem das Enthaltensein von Bildteilen in anderen Bildern oder Bildkollektionen. Dieses Problem des „Enthaltenseins“ stellt eine große Herausforderung für das Multimedia-Retrieval dar. Semantiktragende Elemente eines Multimediadokuments sind Nutzer -und Nutzungsabhängig. Der Vergleich von Multimediadokumenten, insbesondere Bildern, hinsichtlich einer Ähnlichkeit basiert deshalb auf nutzerspezifizierten Anteilen. Somit müssen entsprechende Ähnlichkeitsberechnungen flexibel gestaltet werden können.

Im Rahmen dieser Arbeit sollen theoretische Ansätze zur Lösung des Containment-Problems gesucht und analysiert werden. Dabei ist unter anderem zu untersuchen, wie das Matching durchgeführt wird und diese Ansätze in die am Lehrstuhl entwickelte Anfragesprache CQQL integriert werden können. Eine prototypische Implementierung soll das am besten geeignete Verfahren demonstrieren.


Kalibrierung von Ähnlichkeitsmaßen für die CQQL-Auswertung

In einer CQQL-Ähnlichkeitsanfrage werden Werte verschiedener Ähnlichkeitsbedingungen mittels einer Logik miteinander kombiniert. Die Werte der Ähnlichkeitsbedingungen sind in der Regel unterschiedlich
verteilt, was bei der Kombination zu Verfälschungen führen kann, da die Werte direkt gar nicht vergleichbar sind. Um dies zu beheben, muss eine Kalibrierung durchgeführt werden. Dazu müssen in der Literatur verschiedene Kalibrierungsansätze untersucht und bewertet werden. Weiterhin müssen diese mit einem Ansatz des Lehrstuhls verglichen und auf Ihre Effektivität untersucht werden. Die Arbeit ist eher konzeptionell angelegt, beinhaltet aber auch eine Implementierung zur Durchführung konkreter Experimente.

  • Ansprechpartner: Prof. Ingo Schmitt
  • Denkbare Technologien: in Absprache
  • Kurse: Multimedia/Information Retrieval

 

Multimedia-Klassifikation mit Pythia

 

Fehlermonitoring auf Sensordaten der Internationalen Raumstation ISS

 

Implementierung und Evaluation eines nicht-metrischen Indexierungsverfahrens

Die Gruppe der metrischen Indexierungsverfahren nutzt die Eigenschaften der zugrundeliegenden Distanzfunktionen, insbesondere die Dreiecksungleichung, um Objekte frühzeitig von der Suche auszuschließen. Ist die Dreiecksungleichung nicht gegeben, können diese Verfahren jedoch nicht angewandt werden. Der TriGen-Algorithmus dient dazu, eine nicht-metrische Distanzfunktion in eine metrische Distanzfunktion umzuwandeln und ermöglicht somit die Nutzung beliebiger metrischer Indexierungsverfahren zur nicht-metrischen Indexierung. Ziel der Arbeit ist die Implementierung des TriGen-Algorithmus, seine Integration in das bereits vorhandene pivotbasierte metrische Indexierungsverfahren des Lehrstuhls und seine Evaluation (Effektivität und Effizienz) anhand künstlicher und realer Daten.

 

Analyse von Pivot-Selection-Verfahren

Für Pivot-basierte Indextrukturen ist die Auswahl der Pivot-Elemente entscheidend, um bei der Suche möglichst wenige exakte Berechnungen ausführen zu müssen. Dafür liegen in der Literatur bereits einige heuristische Verfahren vor. Hier soll eine Auswahl gewählt, analysiert und bewertet werden.

 

Automatische Bildannotation durch Einsatz von Data-Mining-Verfahren

Das Erstellen von Bildern mit Digitalkameras in großen Mengen ist sehr einfach – das Wiederfinden dieser Bilder dagegen deutlich schwieriger. Werden die Bilder mit Annotationen/Tags (Stichworten, Beschreibungen etc.) versehen,  ist es möglich, mit Text-Retrieval-Verfahren diese wiederzufinden. Sind jedoch keine Annotationen vorhanden müssen andere Wege gegangen werden.

In dieser Arbeit soll das Fehlen von Annotationen durch den Einsatz von Data-Mining-Verfahren „kompensiert“ werden, d.h. neue Bilder werden anhand der bestehenden visuellen Daten(Feature-Daten) anderer Bilder annotiert. Dabei wird ein Ansatz zur Annotation theoretisch untersucht und bewertet. Anschließend wird das Verfahren prototypisch umgesetzt bzw. aufgearbeitet und eine Evaluierung auf Testdaten durchgeführt.    

 

 

Externe und weitere Arbeiten

  • Weiterentwicklung der Antragsformulare für das elektronische immissionsschutzrechtliche Antragsverfahren (ELiA) als Bachelorthema. Details erfahren Sie bei Herrn Sascha Saretz.

 

Weitere Themen auf Nachfrage bei den jeweiligen Mitarbeitern