NSK
NSK

Digitalni akademski repozitorij (DAR)

time: 0.0024290084838867
 
Naslov:Morfološka normalizacija tekstova na hrvatskome jeziku za dubinsku analizu i pretraživanje informacija
Autor(i):Šnajder, Jan
Vrsta:Disertacija, tekst
Područje: Računarstvo
Predmet:Hrvatski jezik, Kompjutorska obrada, Hrvatski jezik, Morfologija
Datum objave: 2010
Jezik:hrvatski (hrv)
Format:30 cm
Sažetak (hr):
Riječi u tekstu pojavljuju se u različitim morfološkim varijantama, odnosno flek tivnim i derivacijskim oblicima. Morfološka varijacija ima negativan utjecaj na djelotvornost sustava za pretraživanje informacija i dubinsku analizu teksta, naročito kod morfološki složenih jezika kao što je hrvatski. Negativne utjecaje morfološke varijacije moguće je ukloniti primjenom postupaka morfološke normalizacije, odnosno sažimanjem različitih morfoloških varijanti jedne ili više riječi na jedan reprezentativni oblik. U okviru ovog rada razvijen je postupak za flektivnu i flektivno-derivacijsku normalizaciju tekstova na hrvatskome jeziku temeljen na morfološkom leksikonu. Kako bi se zaobišao problem ograničenosti opsega leksikona te visoke cijene njegove izgradnje, razvijen je postupak za automatsku akviziciju flektivnoga leksikona iz neoznačenog korpusa. Akvizicija i normalizacija temelje se na računalnom generativno-redukcijskome modelu morfologije hrvatskoga jezika kojim je obuhvaćena fleksija i sufiksalna tvorba imenica, glagola i pridjeva. Model je inspiriran konceptima funkcijske programske paradigme, napose funkcijama višega reda kao načinu apstrakcije flektivnih i tvorbenih pravila. Provedeno je iscrpno eksperimentalno vrednovanje kojim je utvrdeno da postupak doseže visoku intrinzičnu kakvoću normalizacije, na flektivnoj razini usporedivu s onom ručno sastavljenog leksikona. Pristup opisan u ovome radu usredotočen je na hrvatski jezik, ali je primjenjiv i na druge, morfološki slične jezike
Sažetak (en):
Abstract Morphological Normalization of Texts in Croatian Language for Text Mining and Information Retrieval Due to language morphology, words appear in text in various inflectional and derivational forms. Morphological variation has been shown to negatively affect the performance of most information retrieval and text mining systems, especially in the case of morphologically complex languages such as Croatian. Morphological variation may be reduced by performing morphological normalisation, i.e., the conflation of morphological variants of a word into a single representative form. This thesis describes a lexicon-based approach to morphological normalization that addresses both inflectional and derivational variation. To eliminate the problem of limited lexicon coverage and the immense effort required to compile a lexicon by hand, a procedure for acquiring automatically an inflectional morphological lexicon from raw corpora is devised. To this end, a computational model of Croatian inflectional and derivation morphology has been developed. The model, which is both generative and reductive, is inspired by the functional programming paradigm and makes use of higher-order functions to abstract inflectional and word-formation rules. Detailed experimental evaluation revealed that the developed procedure achieves high normalization quality, which at the inflectional level is comparable to the hand-crafted gold standard. Although the focus of this thesis is on Croatian language, the approach is general enough to be also applicable to other morphologically similar languages.
Brzi preglednik: ?vdoc=7764&page=1
big_sql: 0.00038814544677734 | sql_other: 0.003626823425293