Wie liegen die Daten vor?
Die Texte stehen zunächst als Image-Digitalisate zur Verfügung, werden nach dem Double Keying-Verfahren transkribiert und schließlich in durch umfangreiche (TEI-konforme) Metadaten angereicherte digitale Volltexte transformiert. Diese Metadaten stammen zunächst aus der hermeneutischen Untersuchung des Korpus, in Kooperation mit Experten aus der Informatik werden Werkzeuge für die erweiterte automatisierte Metadatenerfassung entwickelt. Metadaten beginnen also zunächst ganz einfach bei den bibliographischen und strukturellen Daten, gehen aber darüber hinaus.
Das Korpus wird in virtuelle Forschungs-Infrastrukturen wie TextGrid, DARIAH und CLARIN integriert, um untereinander und mit anderen Referenztexten verlinkt zu werden – z. B. den in den Poetiken zitierten Werken Goethes oder Schillers, die über das TextGridRepository verfügbar sind und von denen durch ‚Fuzzy String Matching‘ auch Varianten unterschiedlicher Schreibweisen erfasst werden können. Zusätzlich werden trainierbare interaktive Analyse- und Annotationswerkzeuge entwickelt und in diese Infrastrukturen eingespeist, sodass das edierte Korpus und die entwickelten Werkzeuge der gesamten Forschungsgemeinschaft für weiterführende Studien zur Verfügung gestellt werden können.