VATEC
Vorislamische Alttürkische Texte: Elektronisches Corpus


Das Projekt VATEC wird seit Juni 1999 von der Deutschen Forschungsgemeinschaft finanziert.


Anmerkungen zum Alttürkischen

Als Alttürkisch kann die (nicht völlig einheitliche und sich im Laufe der Zeit auch etwas wandelnde) Sprache bezeichnet werden, die möglicherweise bis ins 14. Jhdt. im innerasiatischen Raum geschrieben wurde (im Westen dieses Raumes wohl nur bis zum 12. Jhdt., als Dialektmischung eintrat); sie ist die einzige frühe Türksprache, die adäquat dokumentiert ist. Die Inschriften in der sogenannten alttürkischen Runenschrift, die hauptsächlich in der Mongolei und in Südsibirien gefunden wurden, sowie die karachanidischen Quellen, die die muslimische Sprache Westturkestans im 11. Jhdt. wiedergeben, sollen hier nicht berücksichtigt werden. Dagegen sollen Texte, welche die in Ostturkestan entstandene alttürkische (uigurische) Schriftsprache aufweisen, auch dann in unser Corpus aufgenommen werden, wenn sie zu einem späteren Zeitpunkt entstanden sind. Das bei weitem umfangreichste alttürkische Textmaterial wurde in Ostturkestan, d.h. im westlichen China entdeckt; es besteht fast ausschließlich aus Hss., um die es beim VATEC-Projekt geht. Die nicht zahlreichen in China entdeckten uigurischen Inschriften sowie einige wenige relativ frühe osttürkische Texte mit islamischem Hintergrund sollen nicht Gegenstand dieses Projektes werden, könnten aber später einmal in einem ähnlichen (viel begrenzteren) Projekt berücksichtigt werden. Auch für die (zwischen dem 7. und dem 10 Jhdt. u.Z. entstandenen) Runeninschriften sollte eine spätere umfassende Bearbeitung ins Auge gefaßt werden.
Das Alttürkische war vor einem Jahrhundert noch praktisch unbekannt: Die alttürkische Runenschrift wurde um 1893 entziffert, und die karakhanidischen Quellen sind erst im 20. Jahrhundert wissenschaftlich bearbeitet worden. Die erste Arbeit zu den vorislamischen alttürkischen handschriftlichen Quellen wurde im Jahre 1899 gedruckt. Ins chinesische Ostturkestan kamen seit 1898 finnische, russische, englische, deutsche, französische, japanische und schwedische Expeditionen, die dort u.a. uigurisch-türkische Hss. fanden; altuigurische Hss. werden in China auch heute noch entdeckt. Die umfangreichsten Handschriftenfunde wurden von deutschen Expeditionen in den Jahren 1902-1914 gemacht; sie bilden heute den Bestand der Turfan-Sammlung der Berlin-Brandenburgischen Akademie der Wissenschaften. (Einen kleineren Teil der Hss., die meist mit Illustrationen versehen sind, beherbergt das Museum für Indische Kunst.) Den größten Teil des handschriftlichen Corpus machen Texte buddhistischen und in minderem Maße manichäischen oder christlich-nestorianischen Inhalts aus. Daneben liegen auch Rechtsurkunden und Briefe sowie Texte magischen, mantischen oder medizinischen Inhalts vor, ferner einige wenige Texte nicht zweckgebundener Literatur.
Im Laufe der vergangenen 100 Jahre ist zur textuellen Erschließung sowie zur sprachlichen wie auch inhaltlichen Erforschung des handschriftlichen Materials aus Ostturkestan - besonders in Deutschland - vieles geleistet worden. Schritt für Schritt ist die Forschung vorangekommen; vieles aber steht noch an: Im Jahre 1941 erschien die erste Grammatik; es folgten einige vertiefende Arbeiten zu grammatikalischen Teilgebieten. Die Erschließung der Lexik schreitet Hand in Hand mit der Veröffentlichungsarbeit voran. Mehrere Kernfragen der Überlieferung sind in der Fachliteratur ausführlich diskutiert worden. Wohl mehr als zwei Drittel der Hss. der Turfan-Sammlung sind bisher veröffentlicht worden, wobei allerdings sehr unterschiedliche Qualitätsstandards erreicht wurden.



Beschreibung des VATEC-Projekts

Gegenstand des Projekts ist die einheitliche und gegenwärtigen Kenntnissen entsprechende elektronische Erfassung von nichtislamischen alttürkischen Handschriftentexten, die bereits veröffentlicht sind oder sich in Bearbeitung befinden. Zu diesem Zweck wurden handschriftliche Quellen des Corpus neu gelesen, ferner transliteriert, transkribiert und einer interlinearisierenden morphologischen Analyse unterzogen, dann interpretiert. Diese Analyse wird durch eine morphologische Vorindizierung sowie durch den Zugriff auf ein kumulativ erarbeitetes gemeinsames Lexikon erreicht und ermöglicht u.a. die Untersuchung von lexikalischen Kompatibilitäten oder der Phraseologie. Dabei werden die Transliterationen der Hss., die diese Texte enthalten, mit einer als Neuedition anzusprechenden interpretativen Transkription und mit einer Übersetzung verknüpft. Teilweise ist die Zugriffmöglichkeit auf die digitale graphische Repräsentation der Hss. gegeben, die auf den Internetseiten der Berlin-Brandenburgischen Akademie der Wissenschaften zur Verfügung steht. Die Transliteration gibt unterschiedliche Schriftsysteme, die für die Sprache benutzt wurden, so wieder, daß die Gesamtheit der in ihnen enthaltenen relevanten Informationen erkennbar ist.

Das VATEC-Projekt ergänzt das Projekt der Berlin-Brandenburgischen Akademie der Wissenschaften zur Digitalisierung von alttürkischen Manuskipten, die in der Berliner Turfansammlung aufbewahrt werden. Auf dieser CD gibt es im Rahmen der manichäisch-türkischen Texte eine Reihe von Beispielen, bei der die Abbildungen über den entsprechenden Link auf die Berliner Internetseiten in die Darstellung der HTML-Seiten für die analysierten Texte integriert sind.



Projektteilnehmer

Die Leiter des Projekts sind: Prof. Dr. Marcel Erdal (Frankfurt, Federführung), Prof. Dr. Jost Gippert (Frankfurt), Prof. Dr. Klaus Röhrborn (Göttingen) und Prof. Dr. Peter Zieme (Berlin). Die wissenschaftlichen Mitarbeiter sind (in der den oben genannten Professoren zugeordneten Reihenfolge): Dr. habil. Irina Nevskaya, Dr. Ralf Gehrke, Dr. Michael Knüppel und Dr. Jakob Taube.

Die Anfangsphase dieses Projektes wurde von Juni 1999 bis Dezember 2000 durchgeführt.

Im Rahmen des Projekts war Irina Nevskaya für die Koordination der verschiedenen Standorte bei der Bearbeitung der Texte und für den Abgleich des zur Analyse verwendeten Lexikons zuständig. Von ihr stammen die Grundlagen für die halbautomatische morphologische Analyse der Texte. Ferner hat sie die unterschiedlichen Chuastuanift-Fassungen, Irk Bitig, die nestorianisch-türkischen Texte, die manichäisch-türkischen Texte, die Texte in runischer und sogdischer Schrift und die Pañcatantra-Fragmente eingegeben und bearbeitet.

Die Eingabe und Bearbeitung von HT3 (drittes Buch der alttürkischen Xuanzang-Biographie) besorgte Michael Knüppel.

Jakob Taube ist die Eingabe und Bearbeitung der unterschiedlichen Handschriften des des alttürkischen Goldglanzsūtra (Altun Yarok) sowie der BT13 betitelten Texte (nach Peter Zieme, Berliner Turfantexte 13) zu verdanken.

Ralf Gehrke war zuständig für die Hardware- und Software-Betreuung des Projekts, den Aufbau eines FTP- und eines Internet-Servers, die Erstellung der benötigten Fonts, die Erstellung von Skripten zum Abgleich der unterschiedlichen Lexikonvarianten, die Umwandlung der Dateien im Shoebox-Format in andere Formate (Wordcruncher, HTML) und die Erstellung dieser CD.



Einzelheiten zum Projektverlauf

Die gesamte Publikationsarbeit zu den in der Bundesrepublik bewahrten alttürkischen Hss. (die weltweit die Mehrheit der handschriftlichen alttürkischen Quellen darstellen) ist in den letzten dreißig Jahren überwiegend von Leitern und Mitgliedern der Arbeitsgruppe (bzw. von deren Mitarbeitern) getragen worden (besonders Röhrborn und Zieme). Auch für das weltweit einzige, speziell das Altuigurische (mit Ausschluß der Runenhandschriften) dokumentierende Wörterbuch zeichnet einer der Leiter (Röhrborn) verantwortlich; zwei etwas ältere, allgemein das Alttürkische anvisierende Wörterbücher können - was das Altuigurische anbelangt - schon als veraltet gelten. Einer der Leiter (Erdal) hat Bereiche der alttürkischen Lautlehre behandelt, eine umfangreiche alttürkische Wortbildungslehre verfaßt und arbeitet derzeit an einer vollständigen alttürkischen Grammatik. Darüberhinaus haben die sich mit der Turkologie befassenden Leiter und Mitglieder der Arbeitsgruppe einschlägig prinzipielle Fragen der Überlieferung und Deutung alttürkischer Texte sowie verschiedene Aspekte ihrer Sprache erörtert. Diese Arbeiten sind alle in einer von J. P. Laut zusammen mit Mitarbeitern herausgegebenen Bibliographie (Bibliographie alttürkischer Studien. Ausgewählt und chronologisch angeordnet von Volker Adam, Jens Peter Laut und Andreas Weiss. Wiesbaden, Harrassowitz Verlag, 2000) verzeichnet.

Im Laufe des Pilotprojekts sind durch die Teilnehmer alle Fragen der Graphematik der alttürkischen Schriftsysteme sowie der Phonetik und der Phonologie anhand der gesamten Fachliteratur neu aufgerollt und durchdiskutiert worden. Am 6. Mai 2000 fand in Frankfurt ein eintägiges Symposium der Teilnehmer des Projekts und ihrer Mitarbeiter statt. Bei diesem Symposium trugen die Teilnehmer und Mitarbeiter noch offen gebliebene Fragen und Probleme vor, die eine eingehende Diskussion verlangten. Es ging hauptsächlich um die Festlegung von Darstellungsnormen in der ‚rough transcription', in der Transkription und im Lexikon, u.a. mit Hinblick auf die drei Fragen, welche lautliche Realitäten durch die variierenden Daten des Schriftbildes zum Ausdruck gekommen sein könnten, inwiefern Subphonematisches in die Transkription eingehen sollte und für welche Art von lautlichen Varianten Lemmata im Lexikon und Einheiten im Morpheminventar erforderlich seien. Besprochen wurden u.a. Promiscueschreibungen von stimmhaften und stimmlosen (bzw. forte und lenis) Konsonanten (welche aber in gewissen Fällen doch sprachlich relevant sein können), lautliche und sprachhistorische Aspekte von tiefen Realisierungen des Archiphonems /X/ und des Phonems /ï/, die Vorder- bzw. Hintervokalität in verschiedenen Teilbereichen der Sprache, die Doppelschreibung von Vokalen in ursprünglich türkischen und in (gelehrten oder eingebürgerten) Lehnwörtern, Fragen der Übertragung von Fachterminologie oder der Grad der Lexikalisierung von gewissen morphologischen Formen (z.B. küniηä ‚täglich'). Bei letzterer Frage wurde beschlossen, Flexionsformen in jedem Fall zu analysieren, um ihre Angaben der Morphologie zugute kommen zu lassen; letztere hat im vorliegenden Projekt Vorrang, wodurch sich auch das hierdurch erstellte Lexikon etwa vom Uigurischen Wörterbuch unterscheidet.

Beim 4. Internationalen Kongress zur Türkischen Sprache, der vom 25.-29. September 2000 in Izmir (Türkei) stattgefunden hat, wurde das Projekt vom Teilnehmer Erdal der Fachwelt vorgestellt. Die im Projekt angewandten Methoden zur Codierung der verwendeten Schriftsysteme und zur Umwandlung in die unterschiedlichen Formate (Shoebox, Wordcruncher, HTML-Format) wurden vom Mitarbeiter Gehrke auf dem 28. Deutschen Orientalistentag in Bamberg (26.-30. März 2001) vorgetragen.

In die Arbeit am Pilotprojekt ist besonders seitens der Teilnehmer Röhrborn und Zieme sachkundiges und philologisches Wissen in bezug auf das zentralasiatische kulturelle Milieu eingeflossen. Aufgabe der Mitarbeiter war zunächst die Herstellung der Kommunikationsfähigkeit zur Projektzentrale in Frankfurt, die Einarbeitung in das Programm Shoebox und in die VATEC-Fonts (s.u.) sowie der Aufbau von Morphologie und Grundlexikon, deren Nutzung sich nun halbautomatisch gestalten kann. Durch die von der ursprünglich beantragten Laufzeit abweichende Dauer des Pilotprojekts bleibt die bearbeitete Zeilenmenge unter dem angekündigten Umfang, zumal die Aufbauphase ja nicht gekürzt werden konnte. Im übrigen hat sich die Teilnahme der Forschergruppe u.a. auf folgende Weise gestaltet:

Der Teilnehmer Röhrborn hat Kriterien für die Lesung der sanskritischen und chinesischen Fremdwörter erarbeitet, wobei für die chinesischen Fremdwörter vor allem die (auf Japanisch verfaßten) Studien von M. Shōgaito herangezogen wurden. Durch die von ihm eingegebenen in Erscheinung begriffenen Texte konnten Ergebnisse des Projekts möglichst rasch auch der weiteren lexikographischen Erschließung des Alttürkischen dienstbar gemacht werden.
In Göttingen wurde die Arbeit am VATEC-Projekt am 1.6.1999 aufgenommen. Nachdem die Kommunikation mit der Arbeitsstelle Frankfurt hergestellt war, wurden die Texte am Göttinger Standort zunächst als Textdateien im DOS-Format (WordPerfect 5.1) eingegeben und nach einer Einarbeitungsphase in das Programm Shoebox überführt. Der Text von Buch III und Buch VII der Xuanzang-Biographie wurde vollständig, der Text von Buch VIII teilweise eingegeben. Für Buch III ist die Arbeit an den verschiedenen Analyseebenen weitgehend abgeschlossen, für die restlichen Texte soll diese Arbeit und die Überarbeitung der Kommentarzeile bis Ende des Pilotprojekts fertiggestellt werden.

Der Teilnehmer Zieme hat sich (mit seinem Mitarbeiter, Taube) in Zusammenhang mit dem aus Berlin dem Corpus zugeführten Teil des alttürkischen Goldglanzsūtra (AY) u.a. der Lösung des Problems gewidmet, wie ein idealer (rekonstruierter) Basistext mit den Fragmenten der etwa 30 Hss. zu verknüpfen ist. Zu diesem Zweck wurde auf der Grundlage der Edition von P. Zieme (BT XVIII) ein neues, fragmentbasiertes und dabei corpusorientiertes Signatursystem entwickelt, das auf der Zuordnung der einzelnen Fragmente zu bestimmten Hss. basiert. Die Signaturen weisen eine insgesamt sechsfache Gliederung auf und enthalten Angaben zum Textcorpus, zum Aufbewahrungsort des Fragments, zur Hs., zum einzelnen Fragment, zu recto/verso und zur einzelnen Zeile. Die programmrelevante Struktur weist demgegenüber eine vierfache hierarchische Gliederung auf; die einzelnen Ebenen einer Signaturangabe sind hier das Datenbank-Segment, die file-Ebene in Shoebox, das record in einem file und die Ebene der Zeile. Die Verknüpfung mit der traditionellen Signatur erfolgt auf der Ebene des Fragments, wo sich im ersten Kommentar nach dem \id-Marker auch die Quellenangaben und allgemeine Bemerkungen zum Fragment finden.

Bei der Texteingabe des AY wurden folgende Prinzipien angewendet: Die Texte der betreffenden Fragmente werden entsprechend den allgemeinen VATEC-Richtlinien eingegeben. Auch die Texte von Fragmenten mit Parallelstellen aus den verschiedenen Hss. werden mindestens mit den textrelevanten Markern \transliteration und \rough transcription aufgenommen; auf die Erstellung der \transcription- und Analyseebenen sowie auf die Wiedergabe der Übersetzung wird bei Parallelstellen hingegen verzichtet. Jedes Fragment erhält ein eigenes record. Die eigenständige und vollständige Darstellung jedes Fragments in diesen beiden Markern bietet den großen Vorteil, daß z.B. Ergänzungen schon anhand ihres Umfangs sehr leicht als möglich oder unmöglich erkannt werden können. Da manche Textstellen des AY derzeit in bis zu fünf verschiedenen Hss. vorliegen, erscheint eine Interlinearisierung der Parallelstellen mit \tl1, \tr1 usw. hier nicht sinvoll, da die Zeilen sehr unübersichtlich würden. Jede Zeile wird mit jeder Parallelstelle verglichen, Abweichungen der grammatischen Formen, der Orthographie, Interpunktion usw. in Kommentaren bei jeder Stelle vermerkt. Dabei konnten gegenüber der Edition zahlreiche Ergänzungen vorgenommen werden. Für jede parallele Textstelle wird zeilenweise ein \parallel-Marker gesetzt und die entsprechenden Signaturen werden bis zur Zeilenebene angegeben, was die Voraussetzung für die angestrebte automatische Interlinearisierung der Parallelstellen darstellt. Dieses aufwendige Verfahren hat den wesentlichen Vorteil, daß das ganze Textcorpus von jedem beliebigen Fragment aus voll erschließbar ist. Zufälligkeiten wie der Erhaltungszustand, die vielleicht die eine Hs. gegenüber anderen in den Vordergrund treten lassen, können besser relativiert werden.

Nach dem derzeitigen Stand der Texteingabe sind sämtliche Berliner Fragmente zu Vorwort, Süü-Text und 1. Buch des AY eingegeben. Der Plan bis zum Ablauf des Pilotprojekts sieht die Eingabe des Süü-Textes und des 1. Buches der beiden Petersburger Hss. nach den oben genannten Richtlinien vor. Im Anschluß daran wird eine kompilierte (und damit zum Teil fiktive) Fassung des ganzen bis dahin eingegebenen Textcorpus hergestellt, und zwar in der normalisierten Schreibung der \transcription-Ebene. Bei der Herstellung dieser Fassung werden folgende Richtlinien realisiert: Im Falle der Süü-Texte liegt in der Petersburger Hs. P1 eine sehr gut erhaltene Hs. vor, die (aus rein praktischen Gründen) bei der Erstellung der kompilierten Fassung als ‚Leithandschrift' dienen soll. Vom ersten Buch jedoch ist in der Petersburger Hs. nur wenig erhalten, und auch keine der anderen Hss. weist einen solchen Zustand auf, daß sie als ‚Leithandschrift' dienen könnte. Hier wird von Passage zu Passage der Text des jeweils besterhaltenen Fragments zur Grundlage der kompilierten Fassung genommen. In beiden Fällen erscheinen Abweichungen im Text interlinearisiert als Marker \t1, \t2 usw. Die Verknüpfung der Originale mit der kompilierten Fassung erfolgt auf der Ebene der Fragmente bzw. des einzelnen Blattes, indem in einem speziellen Kommentar an festgesetzter Position nach dem \idd-Marker die dem Text des entsprechenden Fragments/Blattes zuzuordnenden Angaben über Buch und Zeilenzahlen im kompilierten Text eingefügt werden. Die Verknüpfung der kompilierten Fassung mit den Originalen erfolgt über Marker im Text, die zeigen, an welcher Stelle in der kompilierten Fassung der Text eines Fragments/Blattes einsetzt bzw. endet und die die Dateinamen der entsprechenden records angeben. Die Anfangsmarker sollen dann mit einem link versehen werden, so daß die entsprechenden Dateien aufgerufen werden können.

Der Teilnehmer Erdal und seine Mitarbeiterin (Nevskaia) haben in der Anlaufphase mit Gippert und seinem Mitarbeiter (Gehrke) an der Erarbeitung und Erprobung des zu erstellenden Computerprogrammes zusammengearbeitet. Im weiteren Verlauf haben sie alle Aspekte des Projekts koordiniert; Frau Dr. habil. Nevskaia hat die Beratung der Teilnehmer auf Mitarbeiterebene sowohl in inhaltlichen Fragen als auch bezüglich der Anwendung des Shoebox-Programms übernommen. Unter der Anleitung von Erdal hat Frau Nevskaia ferner besonders die in nichtbuddhistischen Texten verwendeten drei Schriftarten sowie die ‚soghdische' Schrift mit Hinblick auf die alttürkische Lautlehre ins Auge gefaßt und Transliterations- und Transkriptionssysteme erarbeitet. So hat sie schließlich ein Modell zur morphologischen Markierung des Corpus aufgebaut, das die verschiedenen Junkturklassen der Affixe beachtet. Hier mußte eine (in manchen Punkten immer noch tentative) Grenze zwischen Wortbildungslehre und Flexion gezogen werden, da erstere in der Wortanalyse von VATEC nicht berücksichtigt wird. Da bei mehrfachen Analysemöglichkeiten die Entscheidung des Benutzers erforderlich ist, mussten bei Abweichungen vom rein agglutinativen Prinzip diese vorgesehen und kodiert werden, so daß sie dem Benutzer des Programms nun in jedem derartigen Fall zur Wahl vorliegen. Diese weitgehend automatische Analyse bewirkt einerseits eine hohe Konsistenz der Bearbeitung (insbesondere mit Hinblick auf unterschiedliche Bearbeiter), andererseits bietet sie auch Kontrollmöglichkeiten bezüglich der Vollständigkeit und Korrektheit der Lexikoneinträge. Die in Berlin, Frankfurt und Göttingen erstellten Teillexika werden bei einem monatlichen Datenabgleich von Nevskaia und Erdal einer genauen Durchsicht unterzogen und zusammengeführt.

An Texten sind hier runenschriftlichen Quellen (u.a. das Irq Bitig), buddhistische Quellen in soghdischer Schrift, nestorianisch-christliche Quellen in syrischer Schrift (u.a. ein Hochzeitssegen), manichäische Quellen sowohl in manichäischer als auch uigurischer Schrift (u.a. Xwastvānīft) und nichtreligiöse Erzählliteratur in uigurischer Schrift (Pañcatantra-Fragmente) bearbeitet worden.

Der Teilnehmer Gippert und sein Mitarbeiter (Gehrke) haben die Beratung und Koordination der gesamten Forschergruppe in Berlin, Frankfurt und Göttingen in Computerfragen übernommen, z.B. bei Hardware- und Softwareproblemen, bei Installationen und beim Server-Zugriff.

Sie haben einen passwortgeschützten FTP-Server installiert, der den Datenaustausch zwischen den Projektteilnehmern gewährleistet und ihnen Zugang zu allen dort abgelegten Dateien bietet; in seinem eigenen Verzeichnis kann jeder von ihnen seine Dateien den anderen zur Verfügung stellen.

Für die Darstellung der benötigten Transliterations-, Transkriptions- und Sonderzeichen auf Grundlage einer von den Teilnehmern erstellten Liste, in Dateien, die sowohl auf Windows- als auch auf Macintosh-Systemen korrekt realisiert werden, erwies es sich als erforderlich, einen neuen Font und eine entsprechende Tastaturbelegung für Windows und Macintosh zu entwickeln (VATEC-Font); die erstellten Daten sind eindeutig kodiert und können jederzeit in andere Kodierungen überführt werden.

Zur Erstellung der Datenbank und der Analyse wurde das Programm ‚Shoebox' eingesetzt, welches die automatische Durchführung morphologischer Segmentierungen und entsprechendes ‚tagging' ermöglicht. Gewonnene Informationen zur Struktur, Orthographie und Grammatik der bearbeiteten Texte können maschinell bearbeitet werden und in Zukunft als eine Grundlage für unterschiedliche maschinell erstellte Indizes dienen. Die Datenbank ist so strukturiert, daß, bezogen auf die einzelnen Zeilen des Originaltextes, folgende Elemente dargestellt sind: Referenzangabe, ggf. Verweis auf Parallelstellen in anderen Hss., Transliteration, "rough transcription", Transkription, eine interlinearisierende morphologische Analyse, eine freie Übersetzung und ggf. ein Kommentar. ‚Shoebox' bietet den Export der Dateien in das Word-Format an, um formatierte Ausdrucke zu ermöglichen; zur Erhaltung der Interlinearisierungs-Struktur bei einem Export wurde eine Variante des VATEC-Fonts mit fester Zeichenbreite entwickelt.

Durch die Benutzung des in Shoebox integrierten ‚Multi-Dictionary Formatters' konnte gleichzeitig mit der Analyse der eingegebenen Texte ein als Datenbank strukturiertes Lexikon erstellt werden. Ein solches Lexikon ist nötig, weil die an verschiedenen Orten arbeitenden Benutzer dasselbe Lexikon zur Analyse verwenden und die an einem Orte eingegebenen neuen Daten auch den anderen Benutzern zur Verfügung stehen sollen. Dies stellt eine ganz neue Art der Kooperation bei der Erstellung einer linguistischen Datenbank dar. Da dieses Problem bisher offenbar noch nirgends behandelt wurde, ist als Lösung das Verfahren eines monatlichen Datenabgleichs entwickelt worden. Einmal im Monat werden dabei die Lexikonfiles aus Berlin, Frankfurt und Göttingen mit Hilfe eines speziell erstellten Computerskripts verglichen und in diverse Einzelfiles aufgeteilt. Die Aufteilung in Einzelfiles dient dabei der Übersichtlichkeit, um unveränderte Einträge von Änderungen und Neueinträgen oder differierenden Eintragungen zu unterscheiden. Die durchgesehenen Files werden dann zu einem neuen Lexikon zusammengeführt und den Teilnehmern per FTP-Server für den nächsten Monat zur Verfügung gestellt; dieses dient dann als gemeinsame Grundlage für die Erweiterung anhand neuen Materials. Die Änderungen müssen dann rückwirkend in den einzelnen Analysefiles berücksichtigt werden, was mit den Suchfunktionen von Shoebox allerdings keine Schwierigkeit bereitet.

Bei allen Vorzügen des Shoebox-Programms bezüglich Lexikonerstellung und automatischer Analyse hat es sich für das Text-Retrieval als nur begrenzt geeignet erwiesen. Die sehr mächtigen Suchfunktionen sowie die Indexverwaltung des Programms ‚WordCruncher' bieten dagegen den nahezu idealen Zugriff auf die in der Datenbank vorliegenden Informationen. Zu diesem Zweck wird derzeit eine Umwandlungsroutine entwickelt, die Dateien im Shoebox-Format in eine Form bringt, die mit dem WordCruncher-Programm aufbereitet werden kann. Dazu muß auch für den WordCruncher eine Datenstruktur entwickelt werden, die die oben erwähnten Elemente verarbeitet. Erste Beispiele liegen bereits vor. Ferner mußten bereits im Pilotprojekt Verfahren angedacht werden, die die spätere Ausgabe der Daten über das WWW ermöglichen sollen (HTML-Format). Auch hierzu liegen bereits erste Ansätze vor.





Copyright
VATEC-Projekt 2001. Kein Teil dieses Dokuments darf in irgendeiner Form ohne vorherige Zustimmung des Copyright-Inhabers wiederveröffentlicht werden.