Unicode

svensk term:

Unicode (i domännamn)

förklaring:

Som grund för IDN används teckentabellerna som finns återgivna i Unicode. Hantering av Unicode krävs i vissa modernare standarder som XML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML etc., och är det officiella sättet att implementera ISO/IEC 10646. I Unicode tilldelas varje existerande teckenglyf från världens alla skriftsystem ett heltal eller en s.k. kodpunkt. Varje kodpunkt betecknas som U + hexadecimalsiffra; exempelvis representeras a (grekiska lilla alfa) som U + 03B1. Dessa kodpunkter representeras i sin tur av multiplar av oktetter, s.k. teckenkoder, vilka varierar beroende på UTF-metod. Även matematiska symboler och några få skriftsystem som numera är utdöda finns representerade. Unicode har plats för över en miljon tecken – varav drygt 70 000 tecken redan är tilldelade – och kan ersätta några hundra olika äldre former av teckenkodningssystem. I Unicode-standarden finns tre olika typer av tecken: tecken som är ”Assigned” i Unicode och som får användas i domännamn (klass1), en andra klass tecken som också är ”Assigned” men som ändå inte får användas i domännamn utan att först översättas till klass 1, och slutligen den tredje klassen som inte är ”Assigned” men som kan komma att bli det i framtiden. Vissa tecken bör inte användas som del av domännamn.

En risk med införandet av Unicode som många diskuterar idag är möjligheten till att förväxla tecken från olika teckenmängder. På många sätt skulle användningen av enbart Unicode-baserade programvaror bli mer robust och säker. När system använder en blandning av flera olika teckenuppsättningar för att representera tecken finns det risk för att någon utnyttjar skillnaderna mellan olika uppsättningar eller det sätt på vilket program konverterar eller översätter mellan dem. Eftersom Unicode innehåller ett så stort antal tecken kan felaktig användning dock även här exponera program eller system för möjliga attacker. Överväganden kring säkerhet måste därför finnas med i utvecklingen av system som ska hantera Unicode.

I Unicode Teknisk rapport nr 36 beskrivs överväganden om säkerhet som är viktiga att vara medveten om för den som arbetar med Unicode. Dokumentet är under utformning (september 2005) och kommer att förändras och utvecklas över tiden. Tillägg kommer att göras när det är nödvändigt. Det är viktigt att alla som hanterar domäner är uppdaterade kring säkerhetsaspekterna på Unicode och domännamn.

I den aktuella versionen diskuteras två områden: kanonisk representation och visuell förfalskning (eng. spoofing). Förfalskningen innebär här en avsiktlig felstavning av ett domän- eller användarnamn för att lura in omedvetna användare i interaktion med bluffwebbsidor som om de vore de riktiga, t.ex. går det att lura användare genom att använda siffran 1 i stället för ”l”, se vidare bluffwebbplats. Unicodestandarden innehåller många tecken vars glyfer antingen av historiska skäl eller av en ren slump liknar varandra.

Problemet är inte unikt för Unicode. Många av dagens teckenuppsättningar, inklusive ISO/IEC 8859-1, innehåller förväxlingsbara element (även om de i allmänhet är färre än i den totala Unicodemängden), och medför i sig samma risker när det gäller ”spoofing”. Utförligare resonemang kring dessa frågor finns på http://www.unicode.org/faq/security.html#1.

källa:

Svenska datatermgruppen: Ordlista + förkortningar (ej frågor och svar) | 2012