Detaljerad information för diarienr 2008-296  
 
 
Besl. instans: HS
Ämnesområde: Lingvistik
Beslutsdat: 2008-05-29
Namn: Kuhlmann, Marco
Titel: Doktor Kön: Man
Univ./Institution: Universität des Saarlandes - Department of Computer Science
Projekttitel: Exakt och effektiv icke-projektiv dependensparsning
Project title: Accurate and efficient non-projective dependency parsing
Värdhögskola: Uppsala universitet
SCB-klassificering: Språkteknologi, Datorlingvistik
Beviljat(SEK): Bidragsform/Finansieringskälla   2008 2009 2010
  Bidrag till anställning som postdok i Sverige/
Vetenskapsrådet, övrig forskning
  339000 678000 169500
Beskrivning: Detta projekt syftar till att förbättra såväl kvalitet som effektivitet i automatisk grammatisk analys av naturliga språk. Grammatisk analys är en viktig förutsättning för många språkteknologiska tillämpningar, som t.ex. informationsextraktion, textförståelse, och maskinöversättning. Ett sätt att beskriva den grammatiska strukturen hos en sats är att identifiera grammatiska relationer mellan orden. I satsen "Lotta lånar cykeln" kan man till exempel identifiera orden "Lotta" och "cykeln" som subjekt respektive objekt till ordet "lånar": Lotta är den som lånar, och cykeln är det som lånas. Grammatiska relationer som "subjekt-till" och "objekt-till" kallas för dependensrelationer, och en beskrivning av en sats med hjälp av sådana relationer kallas dependensstruktur. Om man hanterar stora mängder text är det för dyrt att bestämma dependensstrukturerna för hand; då vill man ha hjälp av en dator. Det område inom datorlingvistiken som utvecklar metoder för automatisk grammatisk analys med hjälp av dependensstrukturer kallas dependensparsning. Ett viktigt delområde är datadriven dependensparsning, där man använder sig av stora mängder av manuellt analyserad text för att träna en dator att förutsäga den mest sannolika dependensstrukturen för en given sats. Tidiga system för datadriven dependensparsning utgick från hypotesen att de dependensstrukturer som man behöver för naturliga språk har en speciell egenskap som heter "projektivitet". En stor fördel med projektivitet är effektivitet: den mest sannolika projektiva strukturen för en given sats kan beräknas snabbt. Men om man tittar på empiriska data, ser man att omkring en fjärdedel av strukturerna är inte projektiva, vilket betyder att kvaliteten hos system som bara kan hantera projektiva strukturer är begränsad. Samtidigt ser man att de flesta förekommande icke-projektiva dependensstrukturer är nästan projektiva i att de skiljer sig bara minimalt från den bästa projektiva approximationen. Målet med detta projekt är att utveckla exakta och effektiva metoder för datadriven dependensparsning av en klass av strukturer som inkluderar de icke-projektiva strukturer som förekommer i naturliga språk. Sådana metoder är av stort intresse för datorlingvistiken och kommer att finna användning inom många delområden av språkteknologin. Projektet är den första systematiska undersökningen av sådana metoder. För att uppnå projektets mål krävs svar på flera frågor: Vilka icke-projektiva strukturer förekommer i praktiska sammanhang? Hur kan vi utnyttja speciella egenskaper hos dessa strukturer för att få effektiva parsningsalgoritmer? Vad är den bästa metoden för att träna upp en dator att förutsäga den mest sannolika strukturen för en given sats bland alla möjliga strukturer? Resultatet av projektet kommer att vara programvara som tar en databas med dependensstrukturer och förutsäger strukturer för nya satser. Samtidigt kommer vi att utvärdera kvaliteten hos detta system med hänsyn till dess exakthet (hur bra är systemet på att förutsäga den korrekta analysen för en sats?) och effektivitet (hur lång tid tar det att träna systemet och att förutsäga en analys?).