Haufigkeitsverteilung einzelner Buchstaben in Domain-Namen

Verwendung der einzelnen Buchstaben

Betrachtet man die verwendeten Buchstaben innerhalb der SLD, so sind zwei in Tabelle 7 nachvollziehbare Eigenschaften besonders auffällig. Erstens die hohe Kontinuität bei der Auswahl der Buchstaben in DN. Die ersten fünf Buchstaben, e, r, n, a und i sowie die letzten 15 Buchstaben haben sich in der Reihenfolge seit 2000 nicht verändert.

Zweitens ist die überragende Dominanz des Buchstaben „e“ festzustellen, der über 32 Mio. Mal in DN eingesetzt wurde. Dagegen sind die drei folgenden Buchstaben r, n und a mit mehr als 19,2 Mio., 19,0 Mio. und 18,4 Mio. vergleichsweise dicht beieinander. Insgesamt gibt es auch nur die Buchstaben j und q die bis 2006 weniger als eine Mio. Mal genutzt werden, wobei q mit etwas mehr als 200 Tsd. die geringste Entwicklung in Bezug zur Häufigkeit zeigt.

Bei der Häufigkeitsverteilung der einzelnen Buchstaben in DN kann ein Unterschied zu den Worten der deutschen Sprache festgestellt werden. Nach Pommerening sind die sieben am stärksten vertretenen Buchstaben e, n, i, r, s, a und t. Zu einem ähnlichen Ergebnis kommt auch Beutelspacher und Heuke , die e, n, i, s, r, a und t als die sieben häufigsten vertretenen Buchstaben in der deutschen Sprache anordnen.

Um eine Übersicht über die verwendeten Buchstaben in SLD zu erlangen und um den spezifischen Aufbau der mit Buchstaben gebildeten DN darzustellen, wurde aus dem von DENIC gelieferten Datensatz ein Häufigkeitsgebirge erstellt, da
„[…]die Häufigkeit der Einzelbuchstaben inneren Gesetzen der Sprache (folgt).“

(Bauer, Friedrich L.: Entziffert Geheimnisse – Methoden und Maximen der Kryptologie, 3., überarb. u. erw. Aufl., Berlin/ Heidelberg/ New York und andere, Springer 2000, S. 294.)

Haufigkeitsverteilung einzelner Buchstaben in Domain-Namen
Haufigkeitsverteilung einzelner Buchstaben in Domain-Namen

„Im Deutschen (…) sind besonders auffällig die e-Spitze und der n-Gipfel, die f-g-h-i-Flanke mit anschließender j-k-Senke, die o-p-q-Senke mit anschließendem r-s-t-u-Kamm.

Demgegenüber bestehen im Englischen (…) signifikante Unterschiede: Es ist ein a-Gipfel ausgeprägter, es besteht ein h-i-Kamm und ein l-m-n-o-Kamm, der r-s-t-u-Kamm hat einen t-Gipfel; jedoch finden sich b-c-d-Flanke, j-k-Senke und v-w-x-y-z-Niederung wieder.“ (Bauer, Friedrich L.: a.a.O., S. 249.)

Bauers Beschreibung des deutschen wie englischen Häufigkeitsgebirges treffen voll auf die Graphen in Abbildung 15 zu. Zieht man Abbildung 15 zum Vergleich mit dem Häufigkeitsgebirge für DN heran, kann ebenfalls eine hohe Übereinstimmung in den Graphen für DN und den der deutschen Sprache festgestellt werden. Die von Bauer genannten Auffälligkeiten finden sich dementsprechend ebenfalls in dem Graphen für DN wieder. Dies scheint wiederum zu belegen, dass DN in ähnlicher Weise gebildet werden wie die Worte der deutschen Sprache.

Häufigkeitsgebirge der deutschen und englischen Sprache im Vergleich
(c) Hempel, Tino: Einführung in die Kryptologie, 1995, S. 10, in: www.tinohempel.de/info/info/kryptografie/download/krypto.pdf (Stand: 13.12.06).