Hosting
Die folgenden Korpora werden im Rahmen der Kooperation zwischen dem FID Osteuropa und dem FID Nordeuropa durch den Forschungsdatendienst OstData archiviert. Der Zugriff auf die Korpora wird durch den FID Nordeuropa gesteuert, Ihre Anfragen können Sie gern an uns über das Kontaktformular richten. Informationen zu den unterschiedlichen Zugriffsbedingungen finden Sie im verlinkten PDF-Dokument: (PUB, ACA, RES).
HaCOSSA (Hamburg Corpus of Old Swedish with Syntactic Annotations)
Beschreibung
Das Korpus ist im Projekt ‚Skandinavische Syntax im mehrsprachigen Kontext‘ am Sonderforschungsbereich Mehrsprachigkeit, Universität Hamburg, entstanden. Verantwortlich für Korpusdesign und -bearbeitung war Steffen Höder. Das Projekt unter der Leitung von Kurt Braunmüller wurde von der Deutschen Forschungsgemeinschaft gefördert (2002–2011).
In diesem Projekt wurde unter anderem der Einfluss des Mittellateinischen auf die Syntax des Geschriebenen Altschwedischen (ca. 1225–1526) untersucht. Dazu wurde zum einen ein digitales Korpus relevanter Texte (vor allem aus der Periode des jüngeren Altschwedischen, etwa 1375–1550) benötigt, zum anderen ein Annotationsschema, das über wortbasierte Korpusabfragen hinaus auch syntaktische Analysen ermöglichte. Ältere digitale altschwedische Textsammlungen (wie sie etwa über ‚Projektet Källtext‘ und ‚Fornsvenska textbanken‘ verfügbar sind) enthalten lediglich reine Textdokumente ohne morphosyntaktische Annotation oder zumindest die Möglichkeit, eine solche Annotation zu ergänzen.
HaCOSSA umfasst in seiner jetzigen Form (Version 1.0, Juni 2011) 13 Texte unterschiedlicher Länge, teils vollständige Texte und teils Auszüge (insgesamt ca. 130.000 Wörter). Größtenteils repräsentieren die Quellen die dominanten Texttypen der jüngeren altschwedischen Periode, also die verschiedenen Genres religiöser bzw. klösterlicher Prosa (biblische, liturgische und literarische Texte), aber auch weltliche Texte (administrative und literarische Genres). Durch die Konzentration des Forschungsprojekts auf kontaktbedingten Sprachwandel enthält das Korpus vor allem Texte, die aus dem Lateinischen übersetzt oder auf andere Weise lateinisch beeinflusst sind.
HaCOSSA ist XML-basiert und folgt den Standards von TEI P5 und MENOTA 2.0 sowie zusätzlich dem eigens entwickelten Annotationsschema PaCMan 2.0. Die Annotation erstreckt sich auf eine Reihe vor allem syntaktischer Phänomene (morphologische Kategorien, syntaktische Funktionen, Satztypen, Satzverknüpfungsstrategien, komplexe Verben, direkte Rede, Codeswitching).
Metadaten (inklusive Zugriffsbedingung)
Type | Corpus |
Description (eng) | Religious and secular prose, law texts, non-fiction literature (geographical, theological, historic, natural science), diploma. |
Description (deu) | Religiöse (biblische, liturgische, literarische Texte) und weltliche Prosa (literarische Texte), Rechtstexte auf Altschwedisch. |
Data owner | Prof. Dr. Kurt Braunmüller |
Keywords | historical texts, historische Texte, translated texts, übersetzte Texte, code-switching |
Languages | English (eng), German (deu), Latin (lat), Old Swedish (non), Swedish (swe) |
Size | 13 texts, 128204 words |
License | HSZK-PUB |
PIDs | This corpus: http://hdl.handle.net/11022/0000-0000-9D16-7 CMDI metadata: http://hdl.handle.net/11022/0000-0000-9D16-7@CMDI |
HOSTCol (Hamburg Old Scandinavian Text Collection)
Beschreibung
Rechtstexte, Volksbücher und sonstige Literatur auf Altschwedisch und Altdänisch.
Metadaten (inklusive Zugriffsbedingung)
Type | corpus |
Description (eng) | Law texts, chap books, miscellaneous literature in Old Swedish and Old Danish. |
Description (deu) | Rechtstexte, Volksbücher und sonstige Literatur auf Altschwedisch und Altdänisch. |
Data owner | Prof. Dr. Kurt Braunmüller |
Keywords | historical texts, historische Texte |
Languages | Old Danish (mis), Old Swedish (mis) |
Size | 22 texts, 575912 words |
License | HSZK-PUB |
PIDs | This corpus: http://hdl.handle.net/11022/0000-0007-D0F1-D CMDI metadata: http://hdl.handle.net/11022/0000-0007-D390-7 |
SkandSemikoÖresund
Beschreibung
The corpus ‚Skandinavische Semikommunikation‘ was created between 1999 and 2005 in the subproject ‚Semikommunikation und rezeptive Mehrsprachigkeit im heutigen Skandinavien‘ in the Collaborative Research Center 538 ‚Mehrsprachigkeit‘ at the University of Hamburg.
The corpus contains audio files and transcriptions of interactions of Swedes, Danes and Norwegians speaking their mother tongues and using their receptive competence of the other language(s).
The Oeresund subcorpus contains recordings from the Danish-Swedish radio show ‚Öresund Direkt‘. The hosts are Danish and Swedish. A bilingual linguist answers language-related questions of the audience.
Metadaten (inklusive Zugriffsbedingung)
Title | (eng)Scandinavian Semicommunication in the Oeresund Region |
Title (deu) | Skandinavische Semikommunikation in der Öresundregion |
Description | Bilingual radio broadcasts of Scandinavian speakers interacting using their respective languages. Most speakers have Danish or Swedish as L1 and varying receptive knowledge of the other languages and live in the Oeresund region. |
Description | Zweisprachige Radioaufnahmen von Sprechern einer skandinavischen Sprache, die in ihren jeweiligen Muttersprachen interagieren. Die meisten Sprecher sind Muttersprachler des Dänischen oder Schwedischen mit unterschiedlicher rezeptiver Kompetenz in den jeweils anderen und leben in der Öresundregion. |
Publication date | 2009-04-10 |
Data owner | Prof. Dr. Kurt Braunmüller, Dr. Ludger Zeevaert |
Keywords | semi-communication, receptive multilingualism, EXMARaLDA, Semikommunikation, rezeptive Mehrsprachigkeit, EXMARaLDA |
Languages | Danish (dan), Swedish (swe) |
Size | 1429 min231 speakers (70 female, 161 male) |
Annotation types | transcription (manual): HIAT cs: code-switch k: free comment pho: manual annotation of phonetic phenomena |
License | HSZK-ACA |
PIDs | This corpus: http://hdl.handle.net/11022/0000-0003-C011-0 CMDI metadata: http://hdl.handle.net/11022/0000-0003-BFE9-0 |
SkandSemikoRadio
Beschreibung
The corpus ‚Skandinavische Semikommunikation‘ was created between 1999 and 2005 in the subproject ‚Semikommunikation und rezeptive Mehrsprachigkeit im heutigen Skandinavien‘ in the Collaborative Research Center 538 ‚Mehrsprachigkeit‘ at the University of Hamburg.
The corpus contains audio files and transcriptions of interactions of Swedes, Danes and Norwegians speaking their mother tongues and using their receptive competence of the other language(s).
The subcorpus Radio contains recordings of different radio shows with Scandinavians conversing in their mother tongue. The combinations are Swedish-Danish and Swedish-Norwegian.
Metadaten (inklusive Zugriffsbedingung)
Title (eng) | Scandinavian Semicommunication in Radio Programmes |
Title (deu) | Skandinavische Semikommunikation im Radio |
Description | Bilingual radio broadcasts of Scandinavian speakers interacting using their respective languages. The speakers have Danish, Norwegian or Swedish as L1 and varying receptive knowledge of the other languages. |
Description | Zweisprachige Radioaufnahmen von Sprechern einer skandinavischen Sprache, die in ihren jeweiligen Muttersprachen interagieren. Die Sprecher sind Muttersprachler des Dänischen, Schwedischen oder Norwegischen mit unterschiedlicher rezeptiver Kompetenz in den jeweils anderen. |
Publication date | 2009-04-10 |
Data owner | Prof. Dr. Kurt Braunmüller |
Keywords | semi-communication, receptive multilingualism, EXMARaLDA, Semikommunikation, rezeptive Mehrsprachigkeit, EXMARaLDA |
Languages | Danish (dan), Norwegian (nor), Swedish (swe) |
Size | 12 min7 speakers (3 female, 4 male) |
Annotation types | transcription (manual): HIAT cs: code-switch k: free comment en: English translation de: German translation |
License | HSZK-ACA |
PIDs | This corpus: http://hdl.handle.net/11022/0000-0003-BDFA-F CMDI metadata: http://hdl.handle.net/11022/0000-0003-BDF6-3 |
FADAC
Beschreibung
The Faroese Danish Corpus Hamburg (FADAC Hamburg) is a corpus of spoken, informal Faroese and Faroese Danish (440, 000 words) that has been collected as part of the project Variation in the multilingualism on the Faroe Islands (Project K8) at the Research Centre on Multilingualism at the University of Hamburg.
For this corpus, 92 informal interviews (20-60 minutes) were conducted with 56 speakers from three generations (70+, 40-50, 16-21) and four regions of the island, the participants being evenly distributed with regard to age and gender. All of the interviewees have Faroese as L1 and Danish as L2. For 37 of the participants, there are recordings in both Faroese and Danish, for another 15 there are recordings in Faroese only, and with four particpants the interview was only conducted in Danish. Apart from questions about the speakers‘ sociolinguistic characteristics and language backgrounds, only few predefined questions about school, hobbies, and children’s games were asked in the interviews. Otherwise, the interviews (recorded on the Faroe Islands from 2005 to 2009) are conducted as a kind of informal talk about the Faroe Islands, trips abroad, books, and the Second World War (with the oldest generation).
The corpus comprises two subcorpora based on the language used in the commnications, i.e. (Faroese) Danish vs. Faroese.
The Danish recordings were transcribed in EXMARaLDA (Extensible Markup Language for Discourse Annotation), applying the HIAT-conventions in general with some project specific adaptations. The current version 1.0 contains transcriptions of verbal and (partly) non-verbal behaviour, with some additional comments on deviant pronunciation, ingressive speech etc.
Socioeconomic and sociolinguistic data (such as age, place of birth, ancestry, education, occupation(s), time spent in countries other than the Faroe Islands and contact with Danish and other languages) as well as the (linguistic) conditions pertinent to the communication (including information about the language(s) used in the interview, the first/second/third languages of the interviewee and the interviewer) are also part of the corpus.
Metadaten (inklusive Zugriffsbedingung)
Title (eng) | Faroese Danish Corpus Hamburg 1.0.dan (FADAC-1.0.dan Hamburg) |
Description | Audio recordings of semi-structured interviews with bilingual speakers (aged 16-89 years) from various geographical areas on the Faroe Islands. For 37 of the 56 subjects there are recordings in both their L1 Faroese and their L2 Danish. Only the Danish data is available. |
Publication date | 2011-06-30 |
Data owner | Prof. Dr. Kurt Braunmüller |
Keywords | semi-structured interviews, adult bilingualism, bilingual society, cross-sectional data, successive bilingualism, L1 data, L2 data, language contact, contact variety, EXMARaLDA |
Language | Danish (dan) |
Size | 82 speakers (27 female, 33 male) |
License | HSZK-RES |
PIDs | This corpus: http://hdl.handle.net/11022/0000-0007-D8AC-4 CMDI metadata: http://hdl.handle.net/11022/0000-0007-DA19-8 |
Weitere Sammlungen wichtiger nordeuropäischer Sprachkorpora
Übersicht Norwegen (Zugriff über eduGAIN):
Übersicht Schweden:
- Språkbanken (Göteborgs Universitet)
- Corpora and resources – Institutionen för lingvistik, Stockholms Universitet
- Teckenspråkskorpusar – Institutionen för linvistik, Stockholms Universitet
Übersicht Finnland:
Übersicht Dänemark: