Dolnoserbski tekstowy korpus

(Komfortne pytanje w nowem korpusu)

Pokazki za ekspertowe pytanje

Teksty, ako su se pśigótowali za komfortne pytanje, su se z pomocu IMS Open Corpus Workbench (CWB) indicěrowali a za pśepytanje zepśigótowali. Gaž aktiwěrujo se w pytańskich nastajenjach ekspertowe pytanje, mógu se toś teke nałožowaś wótpšašowanja w rěcy CQL a regularne wuraze. W nowem korpusu za komfortne pytanje su se wužywali slědujuce tokenowe atributy:

word
Forma tokena, tak ako w teksće wustupujo.
lemma
Lematizěrowana forma tokena. Pla skrotconkow, licbow a wósebnych znamuškow jo toś ta forma identiska z atributom word. Za interpunkciske tokeny njejo atribut lemma definěrowany. Lematizěrowana forma jo pśezceło zapisana z wjelikimi pismikami. Wóna njejo powšyknje disambiguěrowana. Wšykne potencielne homonymy se nalice źělone z pomocu znamuška |.
norm
Do źinsajšnego pšawopisa pśewjeźona (normalizěrowana) forma tokena. Za licby, wósebne znamuška a za interpunkciske tokeny njejo atribut norm definěrowany. Normalizěrowana forma njejo powšyknje disambiguěrowana. Wšykne potencielne homonymy se nalice źělone z pomocu znamuška |.
name
Swójske mě.
Móžnej gódnośe stej ;,;1;,; za apelatiwa a ;,;0;,; za propria.
toktype
Typ tokena.
Móžnej gódnośe stej ;,;w;,; za słowny token a ;,;pc;,; za interpunkciski token.
type
Dalšne informacije wó typje tokena.
Móžnej gódnośe stej number za licby a symbol za wósebne znamuška, howacej njedefiněrowane.
foreign
Njedolnoserbske słowo.
Móžnej gódnośe stej ;,;0;,; za dolnoserbske słowo a ;,;1;,; za njedolnoserbske słowo.