Der Kölner UniversitätsGesamtkatalog (KUG) - Einsatz und technischer Aufbau

Zugriffsinformationen auf einen Blick

Projekt

Im Projekt 'Kölner UniversitätsGesamtkatalog' (KUG) wird unter Mitwirkung der Universitäts- u. Stadtbibliothek (USB), der Institute und Seminare sowie der Zentralbibliothek für Medizin (ZB MED) seit Anfang 2002 ein universitätsweiter bibliothekarischer Gesamtkatalog aufgebaut. Die technische Durchführung, die Betreuung sowie das Hosting übernimmt die USB. Weitere Informationen zum Projekt und seiner Historie, ausgehend vom Projekt 'Dezentrale Katalogisierung' zu Anfang der 90er Jahre, finden Sie in den Berichten 'Kooperative Informationsverarbeitung an der Universität zu Köln' des ZAIK für die Jahre 2002, 2004 sowie 2005.

Grundlage für den Gesamtkatalog sind das kommerzielle integrierte Bibliothekssystem SISIS-SunRise der Firma OCLC PICA für die Erfassung der Katalogdaten, die Ausleihe und die Erwerbung sowie die OpenSource-Software OpenBib zur Realisierung des KUG Recherche-Portals für den Endanwender.

Darüber hinaus werden durch das Projekt weitere Aspekte abgedeckt:

  • Die Ausstattung der teilnehmenden Institute und Seminare mit technischem Gerät in Form von insgesamt mehr als 400 PC’s und 60 sogenannter Thin-Clients. Diese Geräte werden sowohl zur Katalogisierung wie auch als Recherche-Instrument für die Besucher der jeweiligen Bibliothek eingesetzt.
  • Die Migration der Altdaten aus den bisher genutzten Katalogisierunssystemen Bislok und Allegro in das neue System SISIS-SunRise.
  • Die Schulung, bibliothekarische und auch technische Betreuung der Mitarbeiter in den teilnehmenden Instituten und Seminaren.

Insbesondere die Migration der Altdaten war mit erheblichem Aufwand verbunden. Mit Stand Oktober 2006 sind bis auf ein Institut alle anderen 77 schon vorhandenen Kataloge in das neue System migriert worden – zusätzlich konnten viele weitere Institute und Seminare für eine Teilnahme am Projekt gewonnen werden.

Damit wurde das Ziel des Projektes, einen universitären Gesamtkatalog aufzubauen sowie die Vorgabe des Ministeriums nach „funktionaler Einschichtigkeit in zweischichtigen Bibliothekssystemen“ umzusetzen, nach etwas mehr als vier Jahren für alle am Projekt teilnehmenden Institute und Seminare erreicht. Neben dem nicht minder aufwändigen Routinebetrieb kann nun fortan insbesondere der Ausbau und die Integration anderer interessanter Datenbestände in das KUG Recherche-Portal in den Vordergrund rücken.

Zentrales integriertes Bibliothekssystem für Institute und Seminare

Das Bibliothekssystem SISIS-SunRise wird in der USB für die Kataloge der Instituts- und Seminarbibliotheken der Universität zu Köln auf einem zentralen Datenbankserver, einer SunFire 3800 (firewater) mit vier 900MHz UltraSparc3-Prozessoren, 16 GB RAM und einem T3-RAID-Array mit einer Nutzkapazität von 130 GB, eingesetzt. Die SunFire ist mit zwei redundanten Systemboards ausgestattet, die unabhängig voneinander betrieben werden können. Zur weiteren Absicherung hat die SunFire redundante Netzteile sowie eine eigene Notstromversorgung. Die Kataloge der USB und der ZB MED – die ebenfalls mit SISIS-SunRise realisiert sind, werden von der USB und der ZB MED auf zwei weiteren Servern betrieben.

Für die am KUG-Projekt teilnehmenden Institute und Seminare – mit Stand Oktober 2006 sind dies insgesamt 145 – sind auf dem Datenbankserver jeweils eigenständige Datenbanken eingerichtet. Es gibt jedoch auch Institute und Seminare, die gemeinsam in eine Datenbank katalogisieren. Mit dieser Aufteilung auf verschiedene Datenbanken wird eine maximale technische Trennung der Instituts- und Seminardaten erreicht.

KUG Recherche-Portal

Wesentlich für den Endanwender ist jedoch nicht das Bibliothekssystem selbst, sondern das vorgelagerte Recherche-Portal (Abb. 1), in dem alle verfügbaren Kataloge unter einer Rechercheoberfläche vereinigt werden. Hier kann er seine Suchanfragen formulieren und weitergehende Dienste nutzen.

Dieses Recherche-Portal (kurz: „der KUG“) ist von den einzelnen SISIS-SunRise-Systemen (USB, ZB MED, Institute u. Seminare) – mit Ausnahme der Ausleih-Komponenten - entkoppelt. Damit können diese von den Rechercheanfragen entlastet werden und bei Wartungsarbeiten und Software-Upgrades der Bibliothekssysteme ist weiterhin eine Recherche über das Portal möglich.

KUG Recherche-Portal

Abb. 1: Das KUG-Recherche-Portal

Darüber hinaus ergeben sich weitere Vorteile wie eine bessere Skalierbarkeit mit mehreren Portal-Servern, eine „intelligente“ Lastverteilung sowie die Verwendung verschiedenster Ursprungs-(Bibliotheks-) Systeme - es muss lediglich eine Konvertierung der jeweiligen bibliographischen Daten in das Standard-Meta-Datenformat des Portals erfolgen. Als Datenlieferanten können aber ebenso beliebige andere Datenquellen dienen. So werden z.B. derzeit auch verschiedene OAI-Repositories geharvestet – darunter der Hochschulschriftenserver der Universität zu Köln (http://kups.ub.uni-koeln.de/).

Neben den Katalogen der Instituts- und Seminarbibliotheken wurden im KUG Recherche-Portal weitere Spezialkataloge erschlossen bzw. erst verwirklicht. Dazu gehören u.a. die Digitale Einbandsammlung der USB Köln, die Virtuelle Bibliothek Elise und Helene Richter, der Hochschulschriftenserver, EconBiz, das Graph Drawing Eprint-Archive, die Poetica-Sammlung, die Sammlung Kölner Zeitungsausschnitte, die Kataloge verschiedener Bibliotheken mit historischen Beständen des Rheinlandes sowie diverse separate Teilkataloge des USB-Bestandes (Lehrbuchsammlung, Lesesaal, Europäisches Dokumentationszentrum).

Insgesamt sind damit derzeit im KUG Recherche-Portal 128 verschiedene Katalogdatenbanken mit insgesamt 5141367 Titelaufnahmen vertreten.

Das KUG Recherche-Portal ist unter folgendem URL zu erreichen:

http://kug.ub.uni-koeln.de/

Neben diesem zentralen Einstieg mit einer Vorauswahl aller verfügbaren Kataloge bietet das Portal weitere Einstiege in Form von individuellen (Instituts-)Sichten.

Bei diesen individuellen Sichten sind in der Regel jeweils nur die entsprechenden (Instituts-)Kataloge ausgewählt bzw. weitere institutsspezifische Informationsquellen (z.B. der Digitale Kartenkatalog der Philosophischen Fakultät, http://retro-philfak.ub.uni-koeln.de/) verlinkt. Eine Ausweitung der Katalogauswahl auf weitere Kataloge ist jedoch in diesen Sichten immer möglich. Daher werden sie gerne von Instituten und Seminaren als erster Einstieg genutzt und von ihren Web-Seiten primär verlinkt.

Betrieb und Technik des Recherche-Portals

Das KUG Recherche-Portal wird mit drei Doppel-Pentium-III Servern (1.16 GHZ CPU, 4 GB RAM) im RAID-Level 1 betrieben. Alle Rechner werden im Rahmen der Lastverteilung genutzt, wobei einer der drei Rechner zusätzlich die eigentliche Verteilung übernimmt. Neben diesen drei Produktions-Servern verfügt die USB über ein Test- und Entwicklungssystem, auf dem vor einem Upgrade unter Beteiligung der Kollegen aus der USB bzw. aus den dezentralen Bibliotheken eine intensive Testphase durchgeführt wird. Erst wenn keine gravierenden Fehler gemeldet werden, erfolgt die Umstellung der Produktionssysteme.

Auf allen Portal-Servern sind jeweils die bibliographischen Daten aller Kataloge in getrennten SQL-Datenbanken abgelegt – jeder Server umfasst also immer sämtliche Katalogdaten. Damit können etwaige Performance-Engpässe – z.B. ausgelöst durch ständig steigende Rechercheanfragen – sehr schnell durch Hinzunahme eines neuen Servers gelöst werden. Damit wird das Portal sehr skalierbar.

Alle im Recherche-Portal vorhandenen Daten werden, ausgehend von den jeweiligen Quell-Systemen, auf denen die Katalogisierung oder primäre Datenhaltung stattfindet, nächtlich aktualisiert. Dazu werden die Daten in der Regel auf den verschiedenen Quell-Systemen entladen sowie auf einem geschützten Bereich eines Webservers abgelegt. Von dort sammeln die einzelnen Server des Portals die Daten automatisiert ein, wandeln sie um und spielen sie in ihre zugehörigen lokalen Recherchedatenbanken ein.

Für die Recherche stehen derzeit ein SQL- sowie zukünftig zusätzlich ein Suchmaschinen-Backend zur Verfügung. Eine direkte Kopplung des Recherche-Portals zur Ausleih-Komponente der jeweiligen Bibliothekssysteme - z.B. zur sekundengenauen Ermittlung des Ausleihstatus, zu Zwecken der Authentifizierung oder zur Anzeige der Benutzerkonten - wird über SOAP-basierte WebServices realisiert.

Über externe webbasierte Zugriffsschnittstellen, die auf Vorgaben des Hochschulbibliothekszentrums NRW (hbz) beruhen, sind die Bestände des KUG in die DigiBib NRW (DigiBib, http://www.digibib.net/) und UK-Online eingebunden.

Ebenso sind umgekehrt externe Recherche-Portale wie DigiBib (Monographien, Zeitschriften), Elektronische ZeitschriftenBibliothek (EZB), DatenBankInformationsSystem (DBIS) sowie MedPilot in den KUG integriert. Ausgehend von den Recherchen (und einer etwaigen Authentifizierung) im KUG kann mit Übernahme der Recherchebegriffe (und den Authentifizierungsinformationen) direkt in die Recherchefunktion der entsprechenden Portale gesprungen werden.

Zur unmittelbaren Recherche im Portal über einen Web-Browser steht ein Such-Plugin für den Browser Firefox zur Verfügung, das ausgehend von der KUG-Hilfeseite installiert werden kann.

Gerade die Administration von derart vielen Datenbanken in einem Portal ist ein sehr wichtiger – wenn auch für den Endanwender weitgehend unsichtbarer – Aspekt beim Betrieb des Portals. Aus diesem Grund verfügt das KUG Recherche-Portal über ein bequemes, web-basiertes Administrations-Interface (Abb. 2), das den Arbeitsaufwand wesentlich minimiert. Neben den Katalogen lassen sich dort auch die Sichten, RSS-Feeds usw. konfigurieren sowie die aktiven Sessions überwachen.

Das Administrations-Interface des Portals

Abb. 2: Das Administrations-Interface des Portals

OpenBib als Basis des KUG Recherche-Portals

Die Basis für das KUG Recherche-Portal stellt die OpenSource-Software OpenBib dar. Seit ihrer ersten Version aus dem Jahr 1997, in der sie historisch noch unter dem Namen 'biblio' firmierte und von der USB wenig später zur Realisierung des KVIK (Kölner Virtueller InstitutsgesamtKatalog, der Vorgänger des KUG, http://kvik.ub.uni-koeln.de/) genutzt wurde, steht OpenBib unter der GPL und basiert ihrerseits wieder auf verbreiteten OpenSource-Komponenten – speziell Linux, Apache, MySQL sowie Perl. Damit handelt es sich um ein typisches LAMP-System mit einer entsprechend niedrigen Einstiegsschwelle für einen erfahrenen LAMP-Entwickler.

Von ihrer ersten Version entwickelte sich die Software von einer reinen Sammlung von CGI-Skripten mit wenigen mod_perl-Elementen aus den Jahren 1997-2004 zu einer vollständig mod_perl-basierten, direkt in den Apache-Webserver integrierten Webanwendung, die zusammen mit den zugrundeliegenden Datenbanken und einem Templating-System (Perl Template Toolkit) das MVC-Pattern realisiert. Speziell durch die Verwendung der Templates, die sich zudem datenbank- bzw. katalogsichtspezifisch kaskadieren lassen, kann die Darstellung sehr differenziert und mit geringem Aufwand angepasst werden. Darüber hinaus wurde ein Logging-Framework (log4perl) sowie eine SOAP-basierte WebServices-Schnittstelle integriert, mit der u.a. der Zugriff auf die SISIS-Ausleihsysteme der USB (s.o.) und verschiedener Institute und Seminare erfolgt.

Gerade der Einsatz von OpenSource-Komponenten hat sich dabei in der alltäglichen Arbeit als sehr vorteilhaft erwiesen:

  • Erweiterungen werden umgehend selbständig vorgenommen sowie Probleme sehr schnell gelöst.
  • Von unseren Benutzern an uns herangetragene Wünsche werden zeitnah umgesetzt.
  • Release-Zyklen der Software werden selbst vorgegeben.
  • Die Integration mit anderen Software-Produkten über standardisierte Schnittstellen ist nun mit wenig Aufwand möglich.

Diese maximale Flexibilität durch den Einsatz von OpenSource-Software wiegt vor dem Hintergrund verschiedenster Anforderungen um so mehr, da mit dem Recherche-Portal grundsätzlich zwei verschiedene Zielgruppen angesprochen werden.

Primäre Zielgruppe sind normale Endnutzer wie Studenten, Wissenschaftler usw. Darüber hinaus muss das Portal aber auch bibliothekarischen Anforderungen standhalten. Diese werden jedoch nicht immer notwendigerweise an uns herangetragen. Sehr oft stellen wir fest, dass im Institutsbereich das Portal für Aufgaben genutzt wird, die wir selbst so gar nicht als Nutzungsmöglichkeit eingeplant haben.

Mit dem Portal konnte in der Vergangenheit sehr schnell auf Trends und neue Technologien reagiert werden. Im laufenden Jahr waren dies insbesondere die Ergebnisanreicherung durch digitalisierte Inhaltsverzeichnisse sowie die Aufbereitung der Neuzugänge in den verschiedenen Katalogen als RSS-Feeds.

Ergebnisanreicherung aller KUG-Datenbanken durch gescannte Inhaltsverzeichnisse

Unter der Federführung des Hochschulbibliothekszentrums NRW (hbz), unterstützt vom Ministerium für Innovation, Wissenschaft, Forschung und Technologie des Landes Nordrhein-Westfalen und durchgeführt von der Firma ImageWare Components GmbH in Zusammenarbeit mit den beteiligten Bibliotheken, wurden seit Herbst 2005 an der USB Köln und der ZB MED im Projekt 180T Inhaltsverzeichnisse von Büchern gescannt und mit einer OCR-Schrifterkennung bearbeitet (Wirtschafts- u. Sozialwissenschaften, Medizin). Ziel ist das sog. Catalogue Enrichment, also sowohl eine Such- wie auch Ergebnisanreicherung in Online-Katalogen.

Informationen zum Projekt finden Sie unter:

http://www.hbz-nrw.de/angebote/catalogue_enrichment/

Da dieses Projekt in seiner eigentlichen Konzeption auf die Anreicherung des USB- bzw. Verbundkataloges ausgerichtet ist, wurde von uns dieses Konzept lokal für einen Einsatz im Institutsumfeld für den KUG erweitert, so dass wir die in diesem Projekt gewonnenen digitalen Inhaltsverzeichnisse der USB auch für alle Institute und Seminare nutzbar machen können.

RSS-Feeds

Für die Nutzer des SISIS-SunRise-Moduls Erwerbung werden seit einiger Zeit Neuerwerbungslisten in Form von statischen Web-Seiten angeboten (http://kug.ub.uni-koeln.de/neuerwerbungslisten/), die u.a. auch fächerbezogene Neuerwerbungslisten umfassen.

Da diese Neuerwerbungslisten zwingend den Einsatz des Erwerbungs-Moduls voraussetzen, haben wir nach einer pragmatischen, flexiblen und zeitgemäßen Lösung für die Nutzer all derjenigen Institute und Seminare gesucht, die nur den SISIS-Katalogklienten einsetzen und nicht die Erwerbung.

Hierzu bietet sich insbesondere die XML-basierte RSS-Technologie an. Im Gegensatz zu einer gewöhnlichen Präsentation über simple Webseiten bieten RSS-Feeds den Nutzern durch die geschickte Verwaltung über spezialisierte Programme deutlich mehr Nutzungsmöglichkeiten. So können solche Programme sich um die Sichtung der Daten kümmern, schon aufgerufene Titel von den noch nicht aufgerufenen farblich trennen, Informationen archivieren, Data-Mining in Verbindung mit spezialisierter Suchtechnologie einsetzen usw. Mit dieser Technik bieten wir seit April 2006 Neuzugangslisten der Kataloge im KUG-Kontext an. Das umfasst z.B. die letzten 50 in einen Katalog aufgenommenen Titel und dies sowohl generell als auch spezifisch zu einem Verfasser, einer Körperschaft, einem Schlagwort oder einer Notation.

Mit den derzeit angebotenen RSS-Feeds für 113 Kataloge nimmt die USB Köln bei dem Einsatz dieser innovativen Technologie in dieser Größenordnung unter den großen wissenschaftlichen Bibliotheken – wie schon im Jahr 2002 mit dem KUG-Projekt an sich – deutschlandweit eine Vorreiterrolle ein.

Flexibler Einsatz in Projekten

Durch die vielen Möglichkeiten der Anpassung war die Software des Recherche-Portals prädestiniert für den Einsatz in weiteren Projekten.

Hier sind insbesondere drei eigenständige Fach-Portale zu nennen:

  • Die Digitale Einbandsammlung der USB Köln (http://einbandsammlung.ub.uni-koeln.de/)
  • Die Virtuelle Bibliothek Elise und Helene Richter (http://richterbibliothek.ub.uni-koeln.de/)
  • Die Virtuelle Bibliothek Historische Bestände im Rheinland (http://rheinlandbib.ub.uni-koeln.de/, Abb. 3)
Virtuelle Bibliothek Historische Bestände im Rheinland

Abb. 3: Die Virtuelle Bibliothek "Historische Bestände im Rheinland“ als Beispiel für ein visuell eigenständiges Fach-Portal

Ausblick

Die Entwicklung des Recherche-Portals steht nicht still. Während sich alle Angaben in diesem Artikel auf die derzeit eingesetzte Version 1.2.2 von OpenBib beziehen, wurde im Hintergrund konsequent an einer neuen Version 2.0 gearbeitet, die eine grundsätzliche tiefgreifende Überarbeitung der Portal-Software darstellt.

Obwohl die Version 2.0 von OpenBib bereits feature-complete ist, muss vor einem möglichen Einsatz in der USB für den KUG noch eine ausgiebige Test-Phase eingeplant werden.

Einige der Neuerungen der OpenBib-Version 2.0 sind:

Unicode

Das System verarbeitet nun grundsätzlich alle bibliographischen Daten im Unicode-Format. Damit wird der Grundstein für die Integration von CJK-Datenbeständen gelegt, z.B. des Ostasiatischen Seminars.

Mehrsprachigkeit

Mit der Einführungen von GNU gettext als Mechanismus zur Internationalisierung (I18N) der Texte - in den Programmteilen wie auch in den Templates - gewinnt das System die Fähigkeit, diese Texte in verschiedenen Sprachen auszugeben.

Restrukturierung der bibliographischen Datenstrukturen

Es wurde eine grundsätzliche Restrukturierung der verwendeten Datenstrukturen vorgenommen. Grundlage ist eine weitgehende Orientierung am MAB2-Standard (modifizierte SISIS-Variante). Neben dem Übergang zu MAB2 sind die Daten nun deutlich effizienter in den Templates verwendbar. Ebenso sind nun deutlich flexiblere Recherchemöglichkeiten möglich. So kann bereits die Titel-String-Suche auf weitere Kategorien jenseits des Hauptsachtitels ausgedehnt werden.

Verwendung von Suchmaschinen-Technologie

Durch die Verwendung von Suchmaschinen-Technologie, basierend auf der OpenSource Software Xapian (http://www.xapian.org/) mit ihrem Relevance Ranking, besteht die Möglichkeit weitere Funktionalitäten, wie z.B. 'Drill-Downs', in Treffermengen anzubieten. Xapian wird z.B. von der Webpräsenz der Zeitung "Die Zeit" eingesetzt. Auch die Möglichkeit der Anbindung weiterer Recherche-Backends, wie z.B. Lucene-WS, ist angedacht.

Verarbeitung beliebiger Meta-Datenformate

Jenseits des verwendeten MAB2-Datenformats können nun beliebige Meta-Datenformate verarbeitet werden. Grundlage hierfür ist die Restrukturierung der bibliographischen Datenstrukturen in Verbindung mit einer parametrisierbaren Import-Schnittstelle.

Zugriff auf Datenbanken über das Z39.50-Protokoll

Die Recherche in Z39.50-Datenbanken ist nun rudimentär in OpenBib integriert. Derzeit ist bereits mit der USB Köln ein Beispielkatalog über das Z39.50-Protokoll erfolgreich integriert mit funktionierender (einfacher) Recherche sowie Trefferlisten- und Einzeltrefferanzeige.

Eine Aufstellung aller Features der Version 2.0 kann der OpenBib-Homepage (http://www.openbib.org/) entnommen werden.

Oliver Flimm, Dezernat Datenverarbeitung, 2006

aus: RRZK-Kompass - Mitteilungen des RRZK/ZAIK. Nr. 108

Bleiben Sie mit uns in Verbindung:
Facebook, Feeds und Co.

Facebook  YouTube  RSS  mobile Recherche