Die Recherchequalität ist vor oder neben der Usability und der ansprechenden Optik wohl das wichtigste Kriterium eines modernen WEB-OPAC. Wie in aktuellen Recherchesystemen üblich, gibt der Recherchierende seine Suchbegriffe bequem in einem einzigen Suchschlitz ein.

 

Alternativ stehen mit der erweiterten bzw. Profisuche (siehe 2.7) mehrere spezifische Suchfelder zur Verfügung. Umfassende anonyme Untersuchungen des Nutzerverhaltens haben ergeben, dass die Profisuche nur wenig, nämlich bei etwa 4% der Suchanfragen, verwendet wird.

Um mögliche Nachteile der Verwendung eines Ein-Suchschlitzes zu vermeiden kommen die folgenden Techniken zum Einsatz, die mit folgenden Beispielsanfragen kurz erläutert werden sollen:

  • Thomas Mann
  • Thomas Mann Zauberberg
  • Datenbank Datenbanken
  • Klavier Piano

In den ersten beiden Fällen erwartet der Recherchierende eine boolesche UND-Verknüpfung, in den beiden letzten Fällen vermutlich eine ODER-Verknüpfung. Das kann aber im Suchschlitz nur mit eigener Syntax ausgedrückt werden, es wird im Allgemeinen eine UND-Verknüpfung angenommen.

smartBib_Recherche_Trefferliste_Spanien

2.1        Fehlertolerantes Suggest von Titeln und Verfassern

Bei der Eingabe von Suchbegriffen werden keine einzelnen Wörter sondern vollständige Titel vorgeschlagen, die mit den eingegebenen Wortanfängen und Suchworten „gut“ übereinstimmen.

Das Suggest geht also über die einfache Wortvervollständigung weit hinaus und führt den Recherchierenden bereits sehr viel näher an die Medien des Bibliothekssystems.

2.1.1     Fehlertoleranz

Bei Einbindung der Linguistik-Funktionen von VirtualWorks wird das Suggest durch die führenden linguistischen Ähnlichkeitsalgorithmen unterstützt, so dass Titel auch bei typischen Rechtschreibfehlern erkannt werden:

  • Hary Poter Hollows oder Hary Poter deadly finden als erste Vorschläge „Harry Potter and the deathly hallows“
  • Joan Rawling findet die Verfasserin „Rowling, Joanne K.“ und als erstes ein Buch über Joanne K. Rowling

smartBib_Suche_Linguistik_Potter

2.1.2     Vorschläge von Verfassern

Bei der Eingabe von Eigennamen werden die Namen sowohl als Verfasser als auch als Teile von Titeln vorgeschlagen. Wenn man etwa Thomas Mann (oder Mann, Thomas) eingibt, so erscheinen neben den Titeln von Thomas Mann auch der Verfasser Thomas Mann. Bei Auswahl des Verfassers Thomas Mann erhält man anstelle der Werke über Thomas Mann die Werke von Thomas Mann. Somit werden die beiden für die Recherchierenden wichtigsten Suchen über Titel und Verfasser schon vom Suggest unterstützt.

Hinweis: Es wäre möglich, weitere Suchkategorien vorzuschlagen, z.B. Serien, Verlage, Signatur oder bei der Eingabe von Ziffern auch ISBNs. Nach unseren bisherigen Beobachtungen erscheint die Konzentration auf die beiden Hauptsuchwege sinnvoll, wir bieten hier jedoch flexible Konfigurationsmöglichkeiten an.

2.2        Wortformen

In der Vergangenheit wurde dem Recherchierenden in der Regel eine boolesche Suche in mehreren Suchfeldern zugetraut, wobei er durch Wildcards und Trunkierung die Suche syntaktisch erweitern konnte – mehr schlecht als recht, weil sich Synonyme nur sehr eingeschränkt durch Wildcards oder Trunkierung ausdrücken lassen.

Heute erwarten die an Google gewöhnten Recherchierenden, dass diese Wortformenbildungen „irgendwie“ vom Recherchesystem erledigt werden – sie erwarten mindestens, dass es unerheblich ist, ob man Suchworte in der Einzahl oder Mehrzahl verwendet und auf jeden Fall, dass der Recherchierende keine Wildcards angeben oder mehrere Wortformen angeben muss. Die einfache Aufreihung mehrerer Wortformen in einem Suchschlitz wäre auch wenig sinnvoll, da die Worte im Allgemeinen zunächst UND-verknüpft werden (s.o.). Suchen nach Datenbank oder Datenbanken, nach Kochbuch oder Kochbücher, nach Atlas oder Atlanten sollten auf jeden Fall die gleichen Ergebnisse liefern. Häufig sollen auch Adjektive, Verben und Substantive (z.B. Maler) gleiche oder ähnliche Ergebnisse liefern.

2.2.1     Stemming

Im VuFind-Standard und in anderen Discovery-Systemen werden die synonymen Wortformen  durch „Stemming“ gebildet,  allerdings liefert das Stemming gerade im Deutschen wegen der unterschiedlichen Bildungen von Wortformen (Mehrzahlendungen e, en, er, Lautverschiebungen, unterschiedliche Verkleinerungsformen ….) unerwünschte Ergebnisse: die Mehrzahl von Mal ist eben Male und weder Maler noch Malen. Immerhin ist ein gutes mit sinnvollen Heuristiken und Ausnahmebehandlungen verbessertes Stemming sicher besser als die Suche nach exakt übereinstimmenden Worten unter Verwendung von Wildcards.

2.2.2     Zusammenspiel mit der Sortierung nach Relevanz „Relevance Ranking“

Verschiedene Wortformen sind oft nicht völlig gleichbedeutend, so dass es teilweise schwer abgrenzbar ist, ob sie synonym verwendet werden. Hier ergibt sich ein günstiges Zusammenspiel mit dem Relevanz-Feedback bzw. der Gewichtung der Trefferqualität. Man erhält zwar bei den Suchen nach „Atlas“ und „Atlanten“ die gleichen Treffer, abhängig von der Suche werden jedoch die Treffer mit dem Wort „Atlas“ oder „Atlanten“ höher bewertet. Beim Relevance Ranking erscheinen Treffer wenn ein Suchwort genau in der gesuchten Form vorkommt durch die höhere Bewertung weiter oben.

2.3        Komposita

Auch die Kompositazerlegung geht nur mit Wortschätzen von Komposita, wobei es auch nicht ausreichend ist, wenn nur Listen von Grundworten vorliegen. Sonst wird etwa Schwangerschaft und Landschaft wegen dem vermeintlichen Grundwort „Schaft“ als eng verwandt ansehen.

Mit der Zerlegung von Komposita in ihre Komponenten wird es der Suche möglich, „in den Begriff hineinzusehen“. So findet man mit „sachslehner geschichte wien“ das gewünschte Buch von 1998, selbst wenn man nicht weiß, dass der Titel tatsächlich den Begriff „Stadtgeschichte“ enthält. Diese Funktionalität ist übrigens derzeit nicht mal auf amazon.at verfügbar.

2.4        Synonyme

2.4.1     Zahlwörter

Bereits im VuFind-Standard haben folgende Sucher die gleichen Treffer:

  • Neunte Symphonie
  • die 9. Symphonie

Nach Einbindung der Linguistik Module wird dies weiter verbessert. Es werden nun ganz generell Zahlen in Ziffern- und Wortschreibweise wechselseitig gefunden. Als Beispiele mögen hier dienen

  • Einundsechzig Stunden => findet den Titel „61 Stunden“ (nicht so auf amazon.at)
  • Achtzehnhundertachtundvierzig => findet „Wien 1848 Reportage einer Revolution“ (nicht so auf amazon.at)
  • 48 Wiener Revolution => findet Drimmels Titel „Oktober achtundvierzig. Die Wiener Revolution“ (nicht so auf amazon.at)

2.4.2     Suche nach gleichbedeutenden Begriffen

In der deutschen Sprache gibt es wie in anderen Sprachen auch gleichbedeutende Begriffe. Es ist für den Benutzer sicher angenehm, wenn er sich nicht entscheiden muss, ob er nach Klavier, Piano oder Pianoforte suchen soll/muss.

Die drei Klavierbezeichnungen sind unter https://wien.smartbib.at als Synonyme angeben, so dass unter den drei Bezeichnungen die gleichen Treffer erscheinen.

Nachfolgend ein kleiner Ausschnitt aus der Synonymliste

  • kfz, kraftfahrzeug
  • kirgisistan, kirgistan
  • kläranlage, klärwerk
  • klavier, piano, pianoforte
  • klee, trifolium
  • klinik, krankenhaus, klinikum
  • knochengerüst, skelett
  • knochenschwund, osteoporose

Bei WEB-OPACs ohne Synonyme tritt bei der Einschlitzsuche wieder das schon kurz beschriebene Problem auf.  Wird nur mit einem der Worte Klavier oder Piano gesucht, so erhält man die Dokumente mit dem jeweiligen Wort. Sucht man deswegen im Suchschlitz mit „Klavier Piano“ so erhält man nicht etwa die Dokumente mit Klavier oder Piano sondern deutlich weniger Dokumente, nämlich nur noch die Dokumente, die beide Begriffe Klavier und Piano enthalten.

Tatsächlich kann in smartBib mit dem Funktionswort OR eine ODER-Verknüpfung bewirken. Die schwierige ODER-Verknüpfung ist besonders unangenehm, wenn der Recherchierende Synonyme kennt, die er mit ODER verknüpfen möchte. In smartBib ist dies aber gar nicht notwendig. Das Problem wird dadurch gelöst bzw. zumindest entschärft, da die Dokumente unter beiden Begriffen gefunden werden.

Achtung: Die Synonomie muss mit Bedacht eingesetzt werden, z.B. sollte man Historie und Geschichte nicht als Synonyme vereinbaren, um bei einer Suche nach Historie keine Bücher über Gutenacht-Geschichten zu erhalten.

2.4.3     Suche nach Übersetzungen

Bei übersetzten Begriffen tritt gleiche Situation wie für Synonoyme innerhalb einer Sprache auf: Ohne die Übersetzung „database,datenbank“ müssen zwei Suchen durchgeführt werden, um die database- und datenbank-Treffer zu erhalten (oder es ist explizit eine OR-Verknüpfung zu verwenden oder in die Profisuche zu wechseln). Wenn die Synonyme eingetragen sind, so erhält man bei beiden Suchen die gleichen Ergebnisse.

Für https://wien.smartbib.at gibt es beispielhaft folgende Übersetzungen

  • Datenbank, database
  • physik, physics

Da es auch in deutschsprachigen Beständen in der Regel eine Reihe englischsprachiger Medien (Bücher aber z.B. etwa auch Musiktitel) gibt, ist eine Erweiterung der Übersetzungen ähnlich wichtig wie deutsche Synonyme.

2.5        Angabe der Suchkategorie

Die Trefferqualität kann erheblich verbessert werden, wenn der Recherchierende zu einem Suchwert angeben kann, in welcher Kategorie dieser Suchwert zu suchen ist:

  • Thomas Mann als Verfasser
  • Literatur über Thomas Mann

smartBib_Suche_Kategorien

Es ist allerdings umstritten, ob die Verbesserung der Recherchequalität (höhere precision) die Komplizierung der Suche rechtfertigt – auch wenn es sich nur um eine ganz geringere Komplizierung handelt, weil der Nutzer die Feldauswahl ja nicht anwenden muss. Sinnvoll ist die Feldereinschränkung auf jeden Fall in der Profisuche während es zu diskutieren ist, ob (wie etwa bei der Stadtbibliothek Münster) in der Einschlitzsuche auf die Auswahlmöglichkeit der Suchkategorie verzichtet wird.

 

2.6        Facetten bzw. Filter

2.6.1     Vereinfachung der Booleschen Recherche

smartBib_Recherche_Facetten_FilterIn Google und anderen Webseiten-Suchen weitgehend unbekannt hat sich bei der Suche in Bibliotheksbeständen das Drilldown mit Facetten bzw. Filtern etabliert. Durch die guten Metadaten (Bibliotheksdokumente werden professionell katalogisiert) hat man speziell im Bibliotheksbereich eine gute Datenbasis um verschiedene Facetten oder Filter wie Medientyp, die Zweigstelle oder Personen und Institutionen anzubieten (bei einer schlechten Personen-Katalogisierung würden die vielen Formen einer Person den Filter sehr entwerten). Die hohe Effizienz der Suchmaschinentechnologie ermöglicht es, schon bei der Anzeige möglicher Filterwerte die genauen Trefferzahlen anzugeben, die man bei der Auswahl erhalten wird. So wird die Filterung selbsterklärend und deutlich einfacher als andere Formen der Boolesche Recherche.

smartBib verwendet innerhalb einer Facette die ODER-Verknüpfung und eine UND-Verknüpfung verschiedener Facetten. Obwohl grundsätzlich in VuFind möglich bieten wir dem Leser aus Usabilitygründen keine Möglichkeit zwischen UND- ODER- und UNDNICHT-Verknüpfung umzustellen. Diese erweiterte boolesche Recherche steht in der Profisuche zur Verfügung.

Für einen optimalen Einsatz der Drilldown-Technologie müssen die angebotenen Facetten sinnvoll gewählt werden und die Filter müssen durch geeignete und durchaus umfangreiche Normierungen gut aufbereitet werden.

2.6.2     Datenkonvertierung zur Bildung optimaler Filterwerte

Da die Anzahl der anzeigbaren Filterwerte sehr eingeschränkt ist, sind bei vielen Facetten Wertezusammenfassungen sinnvoll, z.B. sollten synonyme Sprachangaben, ähnliche Mediengruppen und Medientypen zusammengefasst werden.  Personen sind durch Weglassen von Funktionsangaben [Hrsg.], [Regisseur] zu normieren. Die Hitchcock-Reihe „Die drei ???“ erschien beispielsweise in einem Bibliotheksbestand in 8 Formen, mit/ohne Nichtsortierzeichen für das ¬Die¬, mit/ohne [Fragezeichen], teils nur in Vorlage- und teils nur in Ansetzungsform. Wenn die Reihe als Facette zur Verfügung stehen soll, so darf hier nur ein Filterwert stehen.

Die Bildung optimaler Filterwerte ähnelt den Datenkonvertierung von Bibliotheksbeständen. Hier stützt sich smartBib auf über 20 Jahre Erfahrung bei Datenkonvertierungen im Bibliotheksbereich.

Während sich bei der Suche durch die linguistischen Methoden eine „nachträgliche“ Vereinheitlichung ergibt, muss bei Filtern bereits bei der Übertragung in den Index normiert werden. Wir überlegen, ob wir über die bisherigen „starren“ Regeln hinaus auch hier linguistische Techniken einsetzen können.

2.6.3     Filterlisten aufklappen, zuklappen

Damit mehrere Facetten angezeigt werden können, werden zunächst üblicherweise pro Facette nur die  fünf Filterwerte mit der höchsten Trefferzahl angeboten um gleichzeitig die Anzahl der angezeigten Werteanzeige zu erhöhen. Erscheinungsjahre bilden eine gewisse Sonderstellung. Hier ist es oft nicht ausreichend einzelne Erscheinungsjahre aus einer Liste auszuwählen. In smartBib können daher Intervalle von Erscheinungsjahren (etwa 1965 – 1972) eingegeben werden.

smartBib_Profisuche_Jahr

2.6.4     Geeignete Auswahl von Facetten durch Untersuchung der Verwendung

Einerseits darf man den Recherchierenden nicht durch zu viele Facetten überfordern und Untersuchungen zeigen auch, dass sich die Recherchierenden auf die obersten 5 Facetten konzentrieren. Andererseits gibt es im Bibliothekswesen durch die gute Metadatenerfassung in verschiedene Feldern oft bis zu zehn ernsthaft in Betracht kommende Facetten.

In smartBib können Facetten einfach gelöscht aber auch wieder hinzugenommen werden. smartBib unterstützt die geeignete Auswahl von Facetten durch Suchstatistiken – welche Facetten werden wie häufig verwendet. Zum Beispiel konnten wir feststellen, dass die Medientyp-Facette neben der Datenbanken-Facette wie erwartet am häufigsten verwendet wurde, während die Erscheinungsjahr-Facette nur wenig verwendet wurde.

2.6.5     Online-Filter Status

Für viele Recherchierende ist es sinnvoll, die Suche auf verfügbare Titel (evtl. auch auf andere Verfügbarkeiten) einzuschränken, z.B. wenn Bücher mit Vormerkungswartezeiten den Leser nicht interessieren. Am benutzerfreundlichsten geschieht das, wenn der Titelstatus als „Facette“ angeboten wird, wenn nach dem Titelstatus also in der gleichen Art und Weise gefiltert werden kann, wie bei anderen Filterkriterien. So verwendet der  Leser hier die gleiche „Suchtechnologie“ und sieht auch hier im Vorhinein wie sich die Treffer bei einer Einschränkung auf verfügbare Titel ändern werden. Der Titelstatus ergibt sich dabei aus den Statuswerten der Exemplare: Ein Titel ist verfügbar, falls mindestens Exemplar verfügbar ist, er ist vormerkbar, wenn mindestens ein Exemplar vormerkbar ist, usw..

Da sich der Status als einziges relevantes Filterkriterium häufig tagsüber ändert, wird in vielen Web-OPACs auf einen Status-Filter verzichtet. Man beschränkt sich häufig auf die Anzeige in der Detailseite oder in der Trefferliste.

Mit Hilfe des subkom bibConnectors und einer online-Änderung der Titelstatus-Facette im Suchindex kann der Titelstatus für einige Bibliothekssysteme  minutengenau ermittelt und in der Facette aktualisiert werden, so dass der Status gut als Facette angeboten werden kann.

2.7        Profisuche / Erweiterte Recherche

In der Profisuche kann bereits pro Suchwert das Suchfeld ausgewählt werden. Die einzelnen Suchwerte können flexibel mit auch für Laien gut verständlichen booleschen Operatoren durch folgende Feldauswahl verknüpft werden:

  • mit allen Wörtern (UND)
  • mit irgendeinem Wort (ODER)
  • ohne die Wörter (NICHT / OHNE)

Die so definierten Suchkombinationen können um weitere wiederum mit UND- ODER- bzw. OHNE-Verknüpfungen gebildete Suchmengen erweitert werden. Dadurch ergeben sich komplexe boolesche Suchausdrücke, die trotzdem gut verständlich aufgebaut werden können.

smartBib_Profisuche

Auch wenn die Profisuche für den Durchschnittsleser keine große Bedeutung hat, so ist sie sehr doch wichtig für den fortgeschrittenen Leser und die Bibliothekare. Und auch für RSS-Feeds sind anspruchsvoll formulierte Suchanfragen sehr relevant.

Obwohl bei smartBib die Einschränkungen der Einschlitzsuche durch gute Linguistik teilweise kompensiert werden kann, ist die Profisuche doch noch deutlich mächtiger.

Für die Zukunft streben wir eine weitere Verbesserungsmöglichkeit an. Durch das hinterlegen einer Liste von „Indexwerten“ können mit Hilfe der Suggest—Technologie von VirtualWorks Vorschlaglisten für die einzelnen Suchfelder der Profisuche integriert werden um den Suchenden weiter zu unterstützen.

2.8        Sortierung der Ergebnisse

Die Standard-Sortierung ist das Relevance Ranking.

Die gute Sortierung ist ähnlich wichtig wie die gute Suche selbst. Stellen Sie sich vor, dass bei 1000 Treffern nur 20% passende bzw. „interessante“ Treffer geliefert werden. Wenn diese 20% sich über die gesamte Treffermenge gleichmäßig verteilen, so findet der Leser auf jeder Seite nur 1/5 der für ihn relevanten Dokumente.  Werden sie hingegen optimal sortiert, so findet er auf den ersten 10 Seiten zu 20 Treffern nur gute Dokumente – ein ausgezeichnetes Ergebnis.

Beide Extreme sind nicht realistisch, eine schlechte oder gute Sortierung kann aber bei gleicher Ergebnismenge durchaus dazu führen, dass weniger oder mehr als die Hälfte der Treffer auf den ersten Seiten gute Treffer sind.

smartBib_Exemplarstatus_Sortierung_Wald

Die VuFind-Community hat bereits eine Menge Optimierungsarbeit in das Relevance Ranking investiert, um eine besonders nützliche Sortierung der Ergebnisse sicherzustellen. Dazu gehören moderne Techniken wie Boosting, inverted document frequency, genaue Wortformen vor ungefähren, Gewichtung der verschiedenen Felder Titel, Verfasser, Schlagworte, Serien, Abstract, etc.

2.9        Qualitätsmessung

Angesichts der Bedeutung einer guten Recherche in der Konkurrenz der Bibliothek mit anderen Suchportalen ist eine Qualitätsmessung wichtig, wobei die klassischen Bewertungsgrößen precision und recall sehr aufwändig zu ermitteln sind und für Relevance Ranking umformuliert werden müssen.

Von uns werden hauptsächlich zwei Arten von Qualitätsmessungen durchgeführt.

2.9.1     Bewertung von Beispielanfragen

Ein Satz typischer Suchanfragen wird anhand der Frage „Wieviele passende Treffer sind innerhalb der ersten 20 Treffer bzw. auf der ersten Seite“ bewertet. Dieses Ergebnis kann als vereinfachte Precision-Ermittlung angesehen werden. Wenn auch sehr spezifische Anfragen mit unter den 20 Treffern einbezogen werden, so wird auch der Recall bewertet.

2.9.2     Vergleich von gleichbedeutenden Recherchen

Deutlich einfacher lässt sich überprüfen, ob Recherchen die das gleiche meinen in einem System auch gleiche oder zumindest ähnliche Ergebnisse liefern. Das lässt sich einfach prüfen, indem nach verschiedenen Wortformen, Synonymen usw. recherchiert wird.

2.10    Zusammenfassung Recherche

Eine reine Wortsuche ist dem durch Google und Amazon verwöhnten Leser nicht mehr zuzumuten. Die von der weltweiten VuFind-Community und insbesondere den deutschen VuFind-Anwendern optimierten Stemming-Algorithmen führen immerhin zu einem befriedigenden Ergebnis, angesichts der Unregelmäßigkeit der deutschen Endungen durchaus ein Erfolg. Mit Hilfe der linguistischen Techniken von VirtualWorks werden die Ergebnisse weiter verbessert.

Eine gute Auswahl der Facetten sowie eine gute Konvertierung der Filterwerte und ein gutes Relevance Ranking tragen ebenfalls wesentlich zur überragenden smartBib-Recherchequalität bei.

 

Zurück zu smartBib: Überblick Discovery System (1/7)

Weiter zu smartBib: Stöbern (3/7)