Sprachkorpora

Hosting

Die folgenden Korpora werden im Rahmen der Kooperation zwischen dem FID Osteuropa und dem FID Nordeuropa durch den Forschungsdatendienst OstData archiviert. Der Zugriff auf die Korpora wird durch den FID Nordeuropa gesteuert, Ihre Anfragen können Sie gern an uns über das Kontaktformular richten.  Informationen zu den unterschiedlichen Zugriffsbedingungen finden Sie im verlinkten PDF-Dokument: (PUB, ACA, RES).

HaCOSSA (Hamburg Corpus of Old Swedish with Syntactic Annotations)

Beschreibung

Das Korpus ist im Projekt ‚Skandinavische Syntax im mehrsprachigen Kontext‘ am Sonderforschungsbereich Mehrsprachigkeit, Universität Hamburg, entstanden. Verantwortlich für Korpusdesign und -bearbeitung war Steffen Höder. Das Projekt unter der Leitung von Kurt Braunmüller wurde von der Deutschen Forschungsgemeinschaft gefördert (2002–2011).

In diesem Projekt wurde unter anderem der Einfluss des Mittellateinischen auf die Syntax des Geschriebenen Altschwedischen (ca. 1225–1526) untersucht. Dazu wurde zum einen ein digitales Korpus relevanter Texte (vor allem aus der Periode des jüngeren Altschwedischen, etwa 1375–1550) benötigt, zum anderen ein Annotationsschema, das über wortbasierte Korpusabfragen hinaus auch syntaktische Analysen ermöglichte. Ältere digitale altschwedische Textsammlungen (wie sie etwa über ‚Projektet Källtext‘ und ‚Fornsvenska textbanken‘ verfügbar sind) enthalten lediglich reine Textdokumente ohne morphosyntaktische Annotation oder zumindest die Möglichkeit, eine solche Annotation zu ergänzen.

HaCOSSA umfasst in seiner jetzigen Form (Version 1.0, Juni 2011) 13 Texte unterschiedlicher Länge, teils vollständige Texte und teils Auszüge (insgesamt ca. 130.000 Wörter). Größtenteils repräsentieren die Quellen die dominanten Texttypen der jüngeren altschwedischen Periode, also die verschiedenen Genres religiöser bzw. klösterlicher Prosa (biblische, liturgische und literarische Texte), aber auch weltliche Texte (administrative und literarische Genres). Durch die Konzentration des Forschungsprojekts auf kontaktbedingten Sprachwandel enthält das Korpus vor allem Texte, die aus dem Lateinischen übersetzt oder auf andere Weise lateinisch beeinflusst sind.

HaCOSSA ist XML-basiert und folgt den Standards von TEI P5 und MENOTA 2.0 sowie zusätzlich dem eigens entwickelten Annotationsschema PaCMan 2.0. Die Annotation erstreckt sich auf eine Reihe vor allem syntaktischer Phänomene (morphologische Kategorien, syntaktische Funktionen, Satztypen, Satzverknüpfungsstrategien, komplexe Verben, direkte Rede, Codeswitching).

Metadaten (inklusive Zugriffsbedingung)

TypeCorpus
Description (eng)Religious and secular prose, law texts, non-fiction literature (geographical, theological, historic, natural science), diploma.
Description (deu)Religiöse (biblische, liturgische, literarische Texte) und weltliche Prosa (literarische Texte), Rechtstexte auf Altschwedisch.
Data ownerProf. Dr. Kurt Braunmüller
Keywordshistorical texts, historische Texte, translated texts, übersetzte Texte, code-switching
LanguagesEnglish (eng), German (deu), Latin (lat), Old Swedish (non), Swedish (swe)
Size13 texts, 128204 words
LicenseHSZK-PUB
PIDsThis corpus: http://hdl.handle.net/11022/0000-0000-9D16-7

CMDI metadata: http://hdl.handle.net/11022/0000-0000-9D16-7@CMDI

HOSTCol (Hamburg Old Scandinavian Text Collection)

Beschreibung

Rechtstexte, Volksbücher und sonstige Literatur auf Altschwedisch und Altdänisch.

Metadaten (inklusive Zugriffsbedingung)

Typecorpus
Description (eng)Law texts, chap books, miscellaneous literature in Old Swedish and Old Danish.
Description (deu)Rechtstexte, Volksbücher und sonstige Literatur auf Altschwedisch und Altdänisch.
Data ownerProf. Dr. Kurt Braunmüller
Keywordshistorical texts, historische Texte
LanguagesOld Danish (mis), Old Swedish (mis)
Size
22 texts, 575912 words
License
HSZK-PUB
PIDs
This corpus: http://hdl.handle.net/11022/0000-0007-D0F1-D

CMDI metadata: http://hdl.handle.net/11022/0000-0007-D390-7

SkandSemikoÖresund

Beschreibung

The corpus ‚Skandinavische Semikommunikation‘ was created between 1999 and 2005 in the subproject ‚Semikommunikation und rezeptive Mehrsprachigkeit im heutigen Skandinavien‘ in the Collaborative Research Center 538 ‚Mehrsprachigkeit‘ at the University of Hamburg.

The corpus contains audio files and transcriptions of interactions of Swedes, Danes and Norwegians speaking their mother tongues and using their receptive competence of the other language(s).

The Oeresund subcorpus contains recordings from the Danish-Swedish radio show ‚Öresund Direkt‘. The hosts are Danish and Swedish. A bilingual linguist answers language-related questions of the audience.

Metadaten (inklusive Zugriffsbedingung)

Title (eng)Scandinavian Semicommunication in the Oeresund Region
Title (deu)Skandinavische Semikommunikation in der Öresundregion
DescriptionBilingual radio broadcasts of Scandinavian speakers interacting using their respective languages. Most speakers have Danish or Swedish as L1 and varying receptive knowledge of the other languages and live in the Oeresund region.
DescriptionZweisprachige Radioaufnahmen von Sprechern einer skandinavischen Sprache, die in ihren jeweiligen Muttersprachen interagieren. Die meisten Sprecher sind Muttersprachler des Dänischen oder Schwedischen mit unterschiedlicher rezeptiver Kompetenz in den jeweils anderen und leben in der Öresundregion.
Publication date2009-04-10
Data ownerProf. Dr. Kurt Braunmüller, Dr. Ludger Zeevaert
Keywordssemi-communication, receptive multilingualism, EXMARaLDA, Semikommunikation, rezeptive Mehrsprachigkeit, EXMARaLDA
LanguagesDanish (dan), Swedish (swe)
Size1429 min231 speakers (70 female, 161 male)
Annotation typestranscription (manual): HIAT
cs: code-switch
k: free comment
pho: manual annotation of phonetic phenomena
LicenseHSZK-ACA
PIDs
This corpus: http://hdl.handle.net/11022/0000-0003-C011-0

CMDI metadata: http://hdl.handle.net/11022/0000-0003-BFE9-0

SkandSemikoRadio

Beschreibung

The corpus ‚Skandinavische Semikommunikation‘ was created between 1999 and 2005 in the subproject ‚Semikommunikation und rezeptive Mehrsprachigkeit im heutigen Skandinavien‘ in the Collaborative Research Center 538 ‚Mehrsprachigkeit‘ at the University of Hamburg.

The corpus contains audio files and transcriptions of interactions of Swedes, Danes and Norwegians speaking their mother tongues and using their receptive competence of the other language(s).

The subcorpus Radio contains recordings of different radio shows with Scandinavians conversing in their mother tongue. The combinations are Swedish-Danish and Swedish-Norwegian.

Metadaten (inklusive Zugriffsbedingung)

Title (eng)Scandinavian Semicommunication in Radio Programmes
Title (deu)Skandinavische Semikommunikation im Radio
DescriptionBilingual radio broadcasts of Scandinavian speakers interacting using their respective languages. The speakers have Danish, Norwegian or Swedish as L1 and varying receptive knowledge of the other languages.
DescriptionZweisprachige Radioaufnahmen von Sprechern einer skandinavischen Sprache, die in ihren jeweiligen Muttersprachen interagieren. Die Sprecher sind Muttersprachler des Dänischen, Schwedischen oder Norwegischen mit unterschiedlicher rezeptiver Kompetenz in den jeweils anderen.
Publication date2009-04-10
Data ownerProf. Dr. Kurt Braunmüller
Keywords
semi-communication, receptive multilingualism, EXMARaLDA, Semikommunikation, rezeptive Mehrsprachigkeit, EXMARaLDA
LanguagesDanish (dan), Norwegian (nor), Swedish (swe)
Size12 min7 speakers (3 female, 4 male)
Annotation typestranscription (manual): HIAT
cs: code-switch
k: free comment
en: English translation
de: German translation
LicenseHSZK-ACA
PIDsThis corpus: http://hdl.handle.net/11022/0000-0003-BDFA-F

CMDI metadata: http://hdl.handle.net/11022/0000-0003-BDF6-3

FADAC

Beschreibung

The Faroese Danish Corpus Hamburg (FADAC Hamburg) is a corpus of spoken, informal Faroese and Faroese Danish (440, 000 words) that has been collected as part of the project Variation in the multilingualism on the Faroe Islands (Project K8) at the Research Centre on Multilingualism at the University of Hamburg.

For this corpus, 92 informal interviews (20-60 minutes) were conducted with 56 speakers from three generations (70+, 40-50, 16-21) and four regions of the island, the participants being evenly distributed with regard to age and gender. All of the interviewees have Faroese as L1 and Danish as L2. For 37 of the participants, there are recordings in both Faroese and Danish, for another 15 there are recordings in Faroese only, and with four particpants the interview was only conducted in Danish. Apart from questions about the speakers‘ sociolinguistic characteristics and language backgrounds, only few predefined questions about school, hobbies, and children’s games were asked in the interviews. Otherwise, the interviews (recorded on the Faroe Islands from 2005 to 2009) are conducted as a kind of informal talk about the Faroe Islands, trips abroad, books, and the Second World War (with the oldest generation).

The corpus comprises two subcorpora based on the language used in the commnications, i.e. (Faroese) Danish vs. Faroese.

The Danish recordings were transcribed in EXMARaLDA (Extensible Markup Language for Discourse Annotation), applying the HIAT-conventions in general with some project specific adaptations. The current version 1.0 contains transcriptions of verbal and (partly) non-verbal behaviour, with some additional comments on deviant pronunciation, ingressive speech etc.

Socioeconomic and sociolinguistic data (such as age, place of birth, ancestry, education, occupation(s), time spent in countries other than the Faroe Islands and contact with Danish and other languages) as well as the (linguistic) conditions pertinent to the communication (including information about the language(s) used in the interview, the first/second/third languages of the interviewee and the interviewer) are also part of the corpus.

Metadaten (inklusive Zugriffsbedingung)

Title (eng)Faroese Danish Corpus Hamburg 1.0.dan (FADAC-1.0.dan Hamburg)
DescriptionAudio recordings of semi-structured interviews with bilingual speakers (aged 16-89 years) from various geographical areas on the Faroe Islands. For 37 of the 56 subjects there are recordings in both their L1 Faroese and their L2 Danish. Only the Danish data is available.
Publication date2011-06-30
Data ownerProf. Dr. Kurt Braunmüller
Keywords
semi-structured interviews, adult bilingualism, bilingual society, cross-sectional data, successive bilingualism, L1 data, L2 data, language contact, contact variety, EXMARaLDA
LanguageDanish (dan)
Size82 speakers (27 female, 33 male)
LicenseHSZK-RES
PIDsThis corpus: http://hdl.handle.net/11022/0000-0007-D8AC-4

CMDI metadata: http://hdl.handle.net/11022/0000-0007-DA19-8

Weitere Sammlungen wichtiger nordeuropäischer Sprachkorpora

Übersicht Norwegen (Zugriff über eduGAIN):

Übersicht Schweden:

Übersicht Finnland:

Übersicht Dänemark: