„Trigraph“ – Versionsunterschied
[gesichtete Version] | [gesichtete Version] |
K r2.7.2+) (Bot: Ändere: pl:Trójznak |
Einleitung so umformuliert, dass auch die historischen Trigraphen in den Programmiersprachen C und C++ in die Definition eingeschlossen sind |
||
(38 dazwischenliegende Versionen von 26 Benutzern werden nicht angezeigt) | |||
Zeile 1: | Zeile 1: | ||
Ein '''Trigraph''' ist ein [[Graph (Linguistik)|Graph]], der aus einer Folge von drei [[Glyphe]]n besteht und in [[Sprachwissenschaft]]en ein [[Phonem]] bzw. in [[Programmiersprache]]n ein anderweitig möglicherweise schwierig eingebbares oder darstellbares Zeichen repräsentiert. |
|||
Ein Trigraph ist eine Folge von drei Symbolen, zum Beispiel Buchstaben oder Zahlen. |
|||
== Sprachwissenschaft == |
== Sprachwissenschaft == |
||
Als |
Als Trigraph bezeichnet man in der Sprachwissenschaft eine Kombination aus drei [[Buchstabe]]n, die phonetisch als Einheit behandelt werden und einen einzelnen Laut repräsentieren. |
||
{{Siehe auch|Digraph (Linguistik)|Sch (Trigraph)}} |
|||
== Programmiersprache C == |
== Programmiersprache C == |
||
Die [[C (Programmiersprache)|Programmiersprache C]] verwendet nahezu den kompletten ASCII-Zeichensatz.<ref>{{Literatur |Hrsg=British Standards Institute |Titel=The C Standard – Incorporating TC1 – BS ISO/IEC 9899:1999 |Verlag=John Wiley & Sons |Datum=2003 |ISBN=0-470-84573-2 |Kapitel=5.2.1.1}}</ref><ref>{{Internetquelle |url=https:https://www.open-std.org/jtc1/sc22/wg14/www/C99RationaleV5.10.pdf |titel=Rationale für C99, Revision 5.10 |format=PDF; 898 kB |zugriff=2010-10-17 |sprache=en |kommentar=Abschnitt 5.2.1.1}}</ref> Das konnte bis in die 1980er Jahre zu folgenden Problemen führen: |
|||
* Manche Zeichen können bei vielen seinerzeit gebräuchlichen nicht-US-amerikanischen Tastaturbelegungen nicht oder nur umständlich über die Tastatur eingegeben werden. |
|||
* In manchen seinerzeit gebräuchlichen Zeichensätzen, zum Beispiel nationale Varianten nach [[ISO 646]], sind diese Zeichen nicht vorhanden, oder sie werden unterschiedlich kodiert (wie in den verschiedenen Varianten von [[Extended Binary Coded Decimal Interchange Code|EBCDIC]]), so dass Interoperabilitätsprobleme beim Dateiaustausch auftreten können. |
|||
Darum wurden in C neun Drei-Zeichen-Sequenzen definiert, die als Trigraphen bezeichnet werden. Sie beginnen alle jeweils mit <code>'''??'''</code>, gefolgt von einem weiteren Zeichen: |
|||
⚫ | |||
{| class=" |
{| class="wikitable" style="margin-left:3em" |
||
|-class="hintergrundfarbe6" |
|- class="hintergrundfarbe6" |
||
! Trigraph !! ersetztes Zeichen |
! Trigraph !! ersetztes Zeichen |
||
|- |
|- |
||
Zeile 32: | Zeile 35: | ||
|} |
|} |
||
Die neun Trigraphen werden ''vor'' jedem anderen Verarbeitungsschritt und überall im Programmtext durch die entsprechenden einfachen Zeichen ersetzt – insbesondere auch in Zeichen- und [[Zeichenkette]]n-[[Konstante (Programmierung)|Konstante]]n: |
|||
⚫ | |||
⚫ | |||
<syntaxhighlight lang="c"> |
|||
puts("Bitte Kennnummer eingeben (im Format ??-???-??)"); |
|||
</syntaxhighlight> |
|||
Die Ausgabe ist dann: |
|||
<pre> |
|||
Bitte Kennnummer eingeben <nowiki>(im Format ~?~]</nowiki> |
|||
</pre> |
|||
wegen der Ersetzungen der Trigraphen <span style="font-family:monospace;">??-</span> und <span style="font-family:monospace;">??<nowiki>)</nowiki></span> in der Zeichenkette. |
|||
⚫ | |||
In der für Ende 2024 zur Veröffentlichung vorgesehenen<ref>{{Internetquelle |url=https://www.iso.org/standard/82075.html |titel=ISO/IEC 9899 |hrsg=[[ISO]] |abruf=2024-10-10}}</ref>{{Zukunft|2024|12}} Version C23 des Sprachstandards (ISO/IEC 9899:2024)<ref>{{Internetquelle |url=https://www.open-std.org/jtc1/sc22/wg14/www/docs/n3220.pdf |titel=ISO/IEC 9899:2024 (en) — N3220 working draft — Information technology — Programming languages — C |hrsg=open-std.org | datum=2024 |abruf=2024-10-10}}</ref> sind Trigraphen nicht mehr gelistet. Somit sind sie seither keine gültigen C-Sprachelemente mehr.<ref>{{Internetquelle |url=https://en.cppreference.com/w/c/language/operator_alternative |titel=C language – Alternative operators and tokens |werk=cppreference.com |abruf=2024-10-10}}</ref> |
|||
⚫ | |||
Die gleichen Trigraphen existierten auch in C++, galten dort aber seit [[C++#C++11|C++11]] als ''veraltet'' und sind mit [[C++#C++17|C++17]] entfernt worden.<ref>[https://en.cppreference.com/w/cpp/language/operator_alternative en.cppreference.com]</ref> |
|||
Aufgrund der schlechten Lesbarkeit im Quellcode und der Problematik, dass sie auch in Kommentaren und Zeichenkettenkonstanten wirksam sind, wurden in C++ sogenannte [[Digraph (Informatik)|Digraphen]] und „alternative Schreibweisen“ (als eigene Schlüsselwörter) für manche Operatoren eingeführt, die ebenfalls die kritischen Zeichen vermeiden. Im Gegensatz zu den Trigraphen haben Digraphen und alternative Schreibweisen nur dort ihre spezielle Bedeutung, wo ein [[Token (Übersetzerbau)|Token]] erwartet wird. |
|||
== Weblinks == |
== Weblinks == |
||
{{Wiktionary |
{{Wiktionary}} |
||
⚫ | |||
⚫ | |||
⚫ | |||
⚫ | |||
[[Kategorie:C (Programmiersprache)]] |
|||
[[af:Trigraaf (ortografie)]] |
|||
⚫ | |||
[[als:Trigraph]] |
|||
[[br:Teirgrafenn]] |
|||
[[en:Trigraph (orthography)]] |
|||
[[es:Trígrafo]] |
|||
[[io:Trigramo]] |
|||
[[it:Trigramma]] |
|||
[[ja:三重音字]] |
|||
[[pl:Trójznak]] |
|||
[[pt:Trígrafo]] |
|||
[[ru:Триграф (орфография)]] |
|||
[[sl:Tričrkje]] |
|||
[[sv:Trigraf]] |
|||
[[zh:三合字母]] |
Aktuelle Version vom 10. Oktober 2024, 20:28 Uhr
Ein Trigraph ist ein Graph, der aus einer Folge von drei Glyphen besteht und in Sprachwissenschaften ein Phonem bzw. in Programmiersprachen ein anderweitig möglicherweise schwierig eingebbares oder darstellbares Zeichen repräsentiert.
Sprachwissenschaft
[Bearbeiten | Quelltext bearbeiten]Als Trigraph bezeichnet man in der Sprachwissenschaft eine Kombination aus drei Buchstaben, die phonetisch als Einheit behandelt werden und einen einzelnen Laut repräsentieren.
Programmiersprache C
[Bearbeiten | Quelltext bearbeiten]Die Programmiersprache C verwendet nahezu den kompletten ASCII-Zeichensatz.[1][2] Das konnte bis in die 1980er Jahre zu folgenden Problemen führen:
- Manche Zeichen können bei vielen seinerzeit gebräuchlichen nicht-US-amerikanischen Tastaturbelegungen nicht oder nur umständlich über die Tastatur eingegeben werden.
- In manchen seinerzeit gebräuchlichen Zeichensätzen, zum Beispiel nationale Varianten nach ISO 646, sind diese Zeichen nicht vorhanden, oder sie werden unterschiedlich kodiert (wie in den verschiedenen Varianten von EBCDIC), so dass Interoperabilitätsprobleme beim Dateiaustausch auftreten können.
Darum wurden in C neun Drei-Zeichen-Sequenzen definiert, die als Trigraphen bezeichnet werden. Sie beginnen alle jeweils mit ??
, gefolgt von einem weiteren Zeichen:
Trigraph | ersetztes Zeichen |
---|---|
??= |
#
|
??/ |
\
|
??' |
^
|
??( |
[
|
??) |
]
|
??! |
|
|
??< |
{
|
??> |
}
|
??- |
~
|
Die neun Trigraphen werden vor jedem anderen Verarbeitungsschritt und überall im Programmtext durch die entsprechenden einfachen Zeichen ersetzt – insbesondere auch in Zeichen- und Zeichenketten-Konstanten:
puts("Bitte Kennnummer eingeben (im Format ??-???-??)");
Die Ausgabe ist dann:
Bitte Kennnummer eingeben (im Format ~?~]
wegen der Ersetzungen der Trigraphen ??- und ??) in der Zeichenkette.
Seit Ende der 1980er Jahre besteht keine Notwendigkeit mehr zur Verwendung von Trigraphen in C, da auf Tastaturen heutzutage alle Sonderzeichen vorhanden sind und sich ASCII bzw. Unicode als Standard etabliert haben.
In der für Ende 2024 zur Veröffentlichung vorgesehenen[3] Version C23 des Sprachstandards (ISO/IEC 9899:2024)[4] sind Trigraphen nicht mehr gelistet. Somit sind sie seither keine gültigen C-Sprachelemente mehr.[5]
Programmiersprache C++
[Bearbeiten | Quelltext bearbeiten]Die gleichen Trigraphen existierten auch in C++, galten dort aber seit C++11 als veraltet und sind mit C++17 entfernt worden.[6]
Aufgrund der schlechten Lesbarkeit im Quellcode und der Problematik, dass sie auch in Kommentaren und Zeichenkettenkonstanten wirksam sind, wurden in C++ sogenannte Digraphen und „alternative Schreibweisen“ (als eigene Schlüsselwörter) für manche Operatoren eingeführt, die ebenfalls die kritischen Zeichen vermeiden. Im Gegensatz zu den Trigraphen haben Digraphen und alternative Schreibweisen nur dort ihre spezielle Bedeutung, wo ein Token erwartet wird.
Weblinks
[Bearbeiten | Quelltext bearbeiten]Einzelnachweise
[Bearbeiten | Quelltext bearbeiten]- ↑ British Standards Institute (Hrsg.): The C Standard – Incorporating TC1 – BS ISO/IEC 9899:1999. John Wiley & Sons, 2003, ISBN 0-470-84573-2, 5.2.1.1.
- ↑ Rationale für C99, Revision 5.10. (PDF; 898 kB) Abgerufen am 17. Oktober 2010 (englisch, Abschnitt 5.2.1.1).
- ↑ ISO/IEC 9899. ISO, abgerufen am 10. Oktober 2024.
- ↑ ISO/IEC 9899:2024 (en) — N3220 working draft — Information technology — Programming languages — C. open-std.org, 2024, abgerufen am 10. Oktober 2024.
- ↑ C language – Alternative operators and tokens. In: cppreference.com. Abgerufen am 10. Oktober 2024.
- ↑ en.cppreference.com