Die aurale Darstellung eines Dokuments verwandelt das Dokument in "flachen" Text und füttert damit die Sprachsynthese für die Sprachausgabe.
Sie ist gedacht für Blinde, zum Lesenlernen, zur Unterstützung für Menschen mit Leseschwächen, zur Unterhaltung, für ein zukünftiges "Internetradio" – es gibt vielfältige Anwendungen. Software für die Sprachsynthese ist bereits verfügbar und die ersten Programme für die Sprachausgabe sind auf dem Markt.
Und so könnte das Stylesheet für die Sprachausgabe Überschriften ausdrücken:
h1, h2, h3, h4 { voice-family: male;
richness: 80;
cue-before: url("beep.au") }
p.heidi { azimuth: center-left }
p.peter { azimuth: right }
p.goat { volume: x-soft }
Vor einer Überschrift spielt der Sprachsynthesizer einen Klang (beep.au) und spricht die Überschrift dann mit einer sehr vollen männlichen Stimme.
volume • speak • pause-before • pause-after • pause • cue-before • cue-after • cue • play-during • azimuth • elevation • speech-rate • voice-family • pitch • pitch-range • stress • richness • speak-punctuation • speak-numeral
| Version: CSS2 Erblich: Ja |
volume legt die Lautstärke der Ausgabe fest. | number | percentage | silent | x-soft | soft | medium | loud | x-loud |
number ist eine beliebige Zahl zwischen 0 und 100, wobei 0 die minimale Lautstärke und 100 dementsprechend die höchste Lautstärke darstellt.
percentage wird relativ zu einem inhärenten Wert berechnet.
silent bedeutet kein Geräusch. Nicht zu verwechseln mit dem Wert 0 für number.
x-soft = 0
soft = 25
medium = 50 (Voreinstellung)
loud = 75
x-loud = 100
| Version: CSS2 Erblich: Ja |
speak legt fest, ob ein Inhalt ausgesprochen wird – stellt also eine analoge Eigenschaft zu display dar. | normal | none | spell-out |
none unterdrückt die Sprachausgabe für das Element und verbraucht dabei keine Zeit.
normal bewirkt eine normale, sprachabhängige Aussprache eines Elements (Voreinstellung).
spell-out buchstabiert den Text.
| Version: CSS2 Erblich: Nein |
pause-before legt eine Pause fest, die vor dem Vorlesen eines Elements eingelegt wird. | time | percentage |
time gibt den Zeitraum für eine Pause in absoluten Zeiteinheiten wie Sekunden und Millisekunden an.
percentage benutzt die Umkehrung des Wertes für speech-rate. Wenn speech-rate mit 120 Wörtern pro Minute festgelegt ist, beträgt pause-before:100% 500 ms.
| Version: CSS2 Erblich: Nein |
pause-after legt eine Pause fest, nachdem der Sprecher einen Inhalt vorgelesen hat. | time | percentage |
time gibt den Zeitraum für eine Pause in absoluten Zeiteinheiten wie Sekunden und Millisekunden an.
percentage benutzt die Umkehrung des Wertes für speech-rate. Wenn speech-rate mit 120 Wörtern pro Minute festgelegt ist, beträgt pause-after:20% 100 ms.
| Version: CSS2 Erblich: Nein |
pause stellt die Kurzform für die beiden Eigenschaften pause-before und pause-after dar. | [time | percentage]{1,2} |
Wenn zwei Werte angegeben sind, bestimmt der erste Wert pause-before und der zweite Wert pause-after. Wenn nur ein Wert angegeben ist, wird er auf beide Eigenschaften angewendet.
H1 { pause: 20ms } /* pause-before: 20ms; pause-after: 20ms */
H2 { pause: 30ms 40ms } /* pause-before: 30ms; pause-after: 40ms */
H3 { pause-after: 10ms } /* pause-before: ?; pause-after: 10ms */
| Version: CSS2 Erblich: Nein |
cue-before legt einen Klang fest, der vor der Sprachausgabe eines Elements gespielt wird, um das Element vom vorangegangenen Element zu trennen. | url("urladdress") | none |
url("urladdress") ist die Adresse einer Klangquelle. Wenn sich die URL zu etwas anderem auflöst als zu einer Audiodatei – z.B. ein Bild darstellt –, wird die Quelle ignoriert und die Eigenschaft wird behandelt, als wäre der Wert none (Voreinstellung) deklariert worden.
| Version: CSS2 Erblich: Nein |
cue-after legt einen Klang fest, der nach der Sprachausgabe eines Elements gespielt wird, um das Element vom nächsten Element zu trennen. | url("urladdress") | none |
url("urladdress") ist die Adresse einer Klangquelle. Wenn sich die URL zu etwas anderem auflöst als zu einer Audiodatei – z.B. ein Bild darstellt –, wird die Quelle ignoriert und die Eigenschaft wird behandelt, als wäre der Wert none (Voreinstellung) deklariert worden.
a {cue-before: url("glocke.aiff");
cue-after: url("dong.wav")}
h1 {cue-before: url("pop.au");
cue-after: url("pop.au")}
| Version: CSS2 Erblich: Nein |
cue ist eine generische Eigenschaft, die den Klang vor und nach einem Stil festlegt und damit eine Kurzform der Eigenschaften cue-before und cue-after darstellt. . | cue-before &| cue-after |
H1 {cue-before: url("pop.au");
cue-after: url("pop.au") }
H1 {cue: url("pop.au")}
| Version: CSS2 Erblich: Nein |
play-during legt einen Klang fest, der während des Lesens eines Elements gespielt wird. | url("urladdress") mix? repeat? | auto | none |
url("urladdress") ist die Adresse einer Klangquelle.
mix gibt an, dass der Sound vom Vorfahrenelement übernommen und mit dem in url("urladdress") angegebenen Sound gemischt wird.
repeat bewirkt, dass der Sound wiederholt wird, falls er zu kurz ist, um die volle Dauer des Elements aufzufüllen. Ansonsten wird der Sound einmal gespielt und endet dann. Wenn der Sound zu lang für die Dauer des Elements ist, wird er "abgeschnitten", sobald das Element fertig ausgesprochen wurde.
auto (Voreinstellung) bedeutet, dass der Sound des Vorfahrenelements weiterspielt und nicht neu gestartet wird (was der Fall wäre, wenn die Eigenschaft als inhärent gekennzeichnet worden wäre).
none bedeutet Stille. Der Sound des Vorfahrenelements (falls es eines gibt) ist still, solange das augenblickliche Element dauert, und fährt fort, sobald das augenblickliche Element fertig ausgesprochen ist.
blockquote.sad { play-during: url("violins.aiff") }
blockquote q { play-during: url("harp.wav") mix }
span.quiet { play-during: none }
| Version: CSS2 Erblich: Ja |
azimuth legt fest, aus welcher horizontalen Richtung die Stimme kommt. | angle | [ left-side | far-left | left | center-left | center | center-right | right | far-right | right-side ] &| behind] | leftwards | rightwards |
Räumlicher Klang ist ein wichtiges stilistisches Hilfsmittel bei der Präsentation von Sprache.
angle beschreibt den Winkel, aus dem ein Element aus horizontaler Richtung erklingt. Er wird in einem Bereich von -360° bis 360° angegeben. 0° bedeutet, dass der Klang direkt von der Mitte einer imaginären Bühne ausstrahlt, 90° bedeutet, dass der Klang von rechts kommt, 180° ist der Klang von hinten, 270° (oder -90°) der Klang von links. Negative Werte sind ebenfalls erlaubt, so ist die Angabe -90° gleichbedeutend mit 270°.
left-side = 270° mit behind = 270°
far-left = 300° mit behind = 240°
left = 320° mit behind = 220°
center-left = 340° mit behind = 200°
center = 0° (Voreinstellung) mit behind = 180°
center-right = 20° mit behind = 160°
right = 40° mit behind = 140°
far-right = 60° mit behind = 120°
right-side = 90° mit behind = 90°
leftwards bewegt den Klang nach links, relativ zum augenblicklichen Winkel.
rightwards bewegt den Klang nach rechts, relativ zum augenblicklichen Winkel.
| Version: CSS2 Erblich: Ja |
elevation legt fest, aus welcher vertikalen Richtung die Stimme kommt. | angle | below | level | above| higher | lower |
angle beschreibt den Winkel, aus dem ein Element aus vertikaler Richtung erklingt. Er wird in einem Bereich von -90° bis 90° angegeben. 0° bedeutet, dass der Klang vom vorderen Horizont ausstrahlt, auf einer Ebene mit dem Zuhörer. 90° ist der Klang von oben, -90° ist der Klang direkt von unten.
below = -90°
level = 0° (Voreinstellung)
above = 90°
higher fügt dem Winkel 10° hinzu.
lower zieht dem Winkel 10° ab.
Werte außerhalb des Bereichs von -90° bis 90° werden "abgeschnitten".
h1 { elevation: above }
tr.a { elevation: 60deg }
tr.b { elevation: 30deg }
tr.c { elevation: level }
| Version: CSS2 Erblich: Ja |
speech-rate legt fest, in welcher Geschwindigkeit ein Element gesprochen wird. | number | x-slow | slow | medium | fast | x-fast | faster | slower |
number gibt die Sprechrate in Wörtern pro Minute an. Es handelt sich hier um eine Angabe, die stark von der jeweiligen Sprache abhängt, aber dennoch von den meisten Sprachsynthesizern unterstützt wird.
x-slow entspricht 80 Wörtern pro Minute.
slow entspricht 120 Wörtern pro Minute.
medium (Voreinstellung) sind ungefähr 180 bis 200 Wörter pro Minute.
fast entspricht 300 Wörtern pro Minute.
x-fast entspricht 500 Wörtern pro Minute.
faster fügt der augenblicklichen Sprechrate 40 Wörter pro Minute hinzu.
slower senkt die augenblickliche Sprechrate um 40 Wörter pro Minute.
| Version: CSS2 Erblich: Ja |
voice-family ist eine Liste von Stimmfamilien, die bestimmte Stimmen enthalten – ähnlich wie Schriftfamilien. | [ [ specific-voice | generic-voice ], ]* [ specific-voice | generic-voice ] |
specific-voice bezeichnet spezielle Stimmen. Beispiele sind comedian, trinoids, carlos, lani. Stimmen werden ebenso behandelt wie Schriften. Sie können in einer Auswahlliste mit Alternativen angegeben werden. Wenn der Name einer Stimme aus mehreren durch Leerzeichen getrennten Wörtern besteht, wird empfohlen, den Namen in einfache Hochkommas zu setzen.
generic-voice gibt Stimmfamilien an. Mögliche Werte sind male, female und child (entspricht einer generischen Schriftfamilie wie sans-serif und monospace).
| Version: CSS2 Erblich: Ja |
pitch spezifiziert die sprechende Stimme. | frequency | x-low | low | medium | high | x-high |
Die Stimmlage der menschlichen Stimme liegt typischerweise bei 120 Hz für männliche und 210 Hz für weibliche Stimmen. Sprachen werden mit unterschiedlichen Betonungen und Stimmlagen gesprochen, die eine zusätzliche Bedeutung einbringen können.
frequency gibt die mittlere Sprachfrequenz in Hertz (Hz) an.
x-low, low, medium (Voreinstellung), high, x-high sind Werte, die nicht nicht in absoluten Hz-Werten angegeben werden können, da sie auf der jeweiligen Stimmfamilie beruhen.
| Version: CSS2 Erblich: Ja |
pitch-range legt die Variationen der vorlesenden Stimme fest. Soll der Vorleser eher monoton oder mit einer variantenreichen Betonung sprechen? | number |
number ist ein Wert zwischen 0 und 100. 0 soll eine monotone Stimme und 50 (Voreinstellung) eine normale Betonung erzeugen. Höhere Werte sind für animierte Stimmen gedacht.
| Version: CSS2 Erblich: Ja |
stress legt die Betonung eines Elements durch die Sprecherstimme fest. | number |
Englisch ist eine betonte Sprache, in der die verschiedenen Satzteile unterschiedlich betont werden. Deutsch ist eine relativ monotone Sprache.
number ist ein Wert zwischen 0 und 100. Die Bedeutung hängt von der jeweiligen Sprache ab. Ein Level von 50 ist der Standard. Bei männlichen Englisch sprechenden Stimmen mit einem mittleren pitch von 122Hz klingen Betonung und Intonation anders als bei einer italienischen Stimme.
| Version: CSS2 Erblich: Ja |
richness legt die Stärke der Stimme fest – soll die Stimme eher voll oder dünn klingen? Eine reiche Stimme wird in einem großen Raum voll klingen, während eine weiche Stimme den Raum nicht füllen kann. | number |
number ist ein Wert zwischen 0 und 100. Je höher der Wert ist, desto weiter trägt die Stimme. Ein kleinerer Wert resultiert in einer weicheren Stimme. Die Voreinstellung ist 50.
| Version: CSS2 Erblich: Ja |
speak-punctuation legt fest, ob Satzzeichen vorgelesen werden. | code | none | inherit |
code bedeutet, dass die Interpunktion wie Semikola, Klammern und Doppelpunkte wörtlich gesprochen wird.
none ist die Voreinstellung und bewirkt, dass die Interpunktion nicht gesprochen, sondern durch entsprechende Pausen ausgedrückt wird.
| Version: CSS2 Erblich: Ja |
speak-numeral legt fest, wie Zahlen vorgelesen werden. | digits | continuous |
digits bewirkt, dass Zahlen als individuelle Zeichen gelesen werden. Die Zahl 237 wird als "Zwei, Drei, Sieben" vorgelesen.
continuous ist die Voreinstellung und spricht die volle Zahl aus. Die Zahl 237 wird als Zweihundertsiebenunddreißig vorgelesen.