Når tegn skal legges inn i tegnordboka, er hovedprinsippet at tegnene skal tas fra autentisk tegnspråk. Det vil si at vi ser på f.eks. videoopptak av en naturlig samtale mellom døve, og finner tegn i samtalen.
Først registreres tegn og hvor de finnes i videoen. Deretter registreres tidskoder for sekvenser som inneholder tegnet. Vi tar med konteksten rundt tegnet, dvs. tar med hele "setningen" hvor tegnet blir brukt. Dette kaller vi kontekstformen. I praksis har vi nå funnet det som tilsvarer eksempler i TegnViser. Det som gjenstår er da å lage sitatformen. Da gjør vi et nytt opptak i studio hvor en språkmodell utfører tegnet for det ordet vi fant. Siden språkmodellen "siterer" et tegn som er i kontekstformen, kalles dette for en sitatform. I TegnViser vil en sitatform være en tegn i listen over tegn.
Selve registreringen av tidskodene for kontekstformene gjøres i TegnSmed, som er et programverktøy for å analysere tegnspråkvideoer. I TegnSmed kan du skrive inn tekst og lenke teksten til sekvenser i videoen. Siden vi her registrerer kontekstformer, og skal lage nye opptak med sitatformer, er det praktisk å kunne angi sitatformen direkte i TegnSmed.
TegnSmed produserer filer med endelsen .HVL som inneholder data fra analysen.
Et eksempel på en svært liten .HVL-fil:
<subtitlevideo> <avi>hilsen.avi</avi> <subtitles> <b 0 104>nøling</b> <b 187 221>Hei! Jeg heter Torkil.</b> Her kan man legge inn kommentarer som TegnSmed ignorerer.
<b 401 198>Hva heter du?</b> </subtitles> </subtitlevideo>
Her er tre sekvenser definert i videofilen "hilsen.avi". En sekvens kodes med en b-tag, dvs. man legger inn <b> foran og </b> etter teksten som knyttes til sekvensen. Tallene som er lagt i b-tag, f.eks. <b 187 221> angir at sekvensen starter på bilde nummer 187 og varer i 221 bilder, dvs. helt til bilde nummer 187+221=408.
Legg merke til at mellom 2. og 3. sekvens i .HVL filen ovenfor har vi en kommentar. Denne kommentaren påvirker ikke sekvensene. Bare det som er mellom <b> og </b> har en funksjon i TegnSmed.
Dette har vi utnyttet til å kunne legge inn sitatformer:
<subtitlevideo> <avi>hilsen.avi</avi> <subtitles> <b 0 104>nøling</b> <b 187 221>Hei! Jeg heter Torkil.</b> #hei
#jeg
#heter#
<b 401 198>Hva heter du?</b> </subtitles> </subtitlevideo>
Istedenfor kommentaren har vi nå lagt inn tre ord, og brukt # foran alle tre. Dette betyr at det skal bli en sitatform. Så kontekstformen "Hei! Jeg heter Torkil." har fått følgende sitatformer "hei", "jeg" og "heter". Etter siste ord har vi også en #, som markerer at nå kommer ikke flere sitatformer til denne sekvensen.
Når .HVL filen med sitatformer er klar, benytter vi et program som vi har utviklet som heter HVL2XML. Dette programmet konverterer .HVL filer til TegnXML 1.0 filer. Da får man en .XML fil med 3 leksemer med sitatformene "hei", "jeg" og "heter". Alle 3 har samme kontekstform, "Hei! Jeg heter Torkil", som finnes i videofilen "hilsen.avi", fra bilde nr 187 til 408.
HVL2XML angir også automatisk at videofilene til sitatformene heter det samme som visningsordet, men med .AVI endelse. Det betyr at i XML-filen står det hei.avi, jeg.avi og heter.avi som videofiler til sitatformene. Disse filene fins ikke ennå, og det er nå vi produserer dem. Vi går i studio med en utskrift av XML-filen, og gjør opptak av alle sitatformene som mangler. Vi ser i kontekstformen hvordan tegnet utføres.
Dermed har vi lagt inn 3 tegn med eksempler, og disse 3 tegnene er hentet fra autentisk språkbruk. Det viser et viktig prinsipp vi vil følge: Tegn skal hentes fra autentisk språkbruk.