Via retumilo malbone traktas stilfoliojn. Tial vi ne povas vidi la ĝustan aspekton de tiu ĉi paĝo.
starta pagho enhavo kontaktu nin
Universala Esperanto-Asocio
starta paĝouea internedokumentojIKUprelegoj en IKU-2006 › Iván BUJDOSÓ

Dokumentoj

Rangado (Vortstatistika esploro de la multlingva teksto de la konstituci-propono de Eŭropa Unio)

(resumo de la prelego de Iván BUJDOSÓ)

La plurlingveco de dokumentoj de Eŭropa Unio ebligas korpuslingvistikajn komparajn esplorojn. Oni tradukis tre zorge la konstitucio-proponon de EU en ĉiujn oficialajn lingvojn de EU. Esperantistoj tradukis ĝin en Esperanton. Ĉiuj dokumentoj estas alireblaj en elektronika formato en interreto.

Vortstatistikaj esploroj vidigas la proprecojn de iuj lingvoj kaj la similecon de unu lingvo al la aliaj. Tiu esploro kalkulas la oftecon de la vortoj troviĝantaj en la teksto, poste oni metas la vortojn en vicordon laŭ la ofteco. Tio estas laŭ la eltrovo de Zipf, kies plej grava merito estis, ke li proponis taŭgan prezenton: ambaŭ skaloj estu logaritmaj.

Oni povas mezuri ankaŭ aliajn proprecojn de la teksto: la kvanton de la vortoj, la distribuon de vortlongecoj, la averaĝan longecon de la vortoj, la medianon, la moduson, la kvanton de samformaj vortoj, la kvanton de nur unufoje aperintaj vortoj (hapakso), ks. Kvankam la amplekso de la tekstoj en mia esploro ne estas grandaj, tamen la ricevitaj rezultoj montras bonan kongruon kun la rezultoj de iu alia esploro. La alian esploron oni faris en iu usona universitato. Oni uzis Zipf-leĝon kaj la teorion de la artefaritaj neŭraj retoj. La kvanto de la teksto en tiu esploro estis multe pli granda, sed oni esploris nur kvin lingvojn kaj Esperanton.

Mi utiligis en miaj esploroj a) ĉiujn mezureblajn proprecojn de la teksto kaj b) ankaŭ tiujn de la Zipf-leĝo (klino, konstanto, regresa koeficiento). Miaj du metodoj donis similan rezulton, sed la rezultoj per la Zipfa metodo estas pli proksima, eĉ tre proksimaj al jam konataj faktoj.

Konkludoj:

Uzante la Zipfan metodon, jam malgranda korpuso montras samajn statistikajn indikojn kiel la rezultoj ĉe multe pli grandaj korpusoj.

La esploritaj 21 lingvoj montras tre interesan bildon, la simileca vico inter lingvoj estas: finna, estona, hungara, litova, latva, slovaka, ĉeha, pola, slovena, malta, Esperanto, greka, dana, sveda, germana, itala, portugala, hispana, franca, nederlanda, angla.

Lasta ŝanĝo:
2006-06-19
Adreso:
http://uea.org/dokumentoj/IKU/bujdoso.html