Cascading Stylesheets – Zur Startseite Cascading Stylesheets Stil mit <Stil>

Aural – Eigenschaften für die Sprachausgabe

Die aurale Darstellung eines Dokuments verwandelt das Dokument in "flachen" Text und füttert damit die Sprachsynthese für die Sprachausgabe.

Sie ist gedacht für Blinde, zum Lesenlernen, zur Unterstützung für Menschen mit Leseschwächen, zur Unterhaltung, für ein zukünftiges "Internetradio" – es gibt vielfältige Anwendungen. Software für die Sprachsynthese ist bereits verfügbar und die ersten Programme für die Sprachausgabe sind auf dem Markt.

Und so könnte das Stylesheet für die Sprachausgabe Überschriften ausdrücken:

h1, h2, h3, h4 { voice-family: male;
                 richness: 80;
                 cue-before: url("beep.au") }
p.heidi { azimuth: center-left }
p.peter { azimuth: right }
p.goat { volume: x-soft }

Vor einer Überschrift spielt der Sprachsynthesizer einen Klang (beep.au) und spricht die Überschrift dann mit einer sehr vollen männlichen Stimme.

volumespeakpause-beforepause-afterpausecue-beforecue-aftercueplay-duringazimuthelevationspeech-ratevoice-familypitchpitch-rangestressrichnessspeak-punctuationspeak-numeral

volume

Version: CSS2
Erblich: Ja
volume legt die Lautstärke der Ausgabe fest.

number | percentage | silent | x-soft | soft | medium | loud | x-loud

number ist eine beliebige Zahl zwischen 0 und 100, wobei 0 die minimale Lautstärke und 100 dementsprechend die höchste Lautstärke darstellt.

percentage wird relativ zu einem inhärenten Wert berechnet.

silent bedeutet kein Geräusch. Nicht zu verwechseln mit dem Wert 0 für number.

x-soft = 0

soft = 25

medium = 50 (Voreinstellung)

loud = 75

x-loud = 100

speak

Version: CSS2
Erblich: Ja
speak legt fest, ob ein Inhalt ausgesprochen wird – stellt also eine analoge Eigenschaft zu display dar. normal | none | spell-out

none unterdrückt die Sprachausgabe für das Element und verbraucht dabei keine Zeit.

normal bewirkt eine normale, sprachabhängige Aussprache eines Elements (Voreinstellung).

spell-out buchstabiert den Text.

pause-before

Version: CSS2
Erblich: Nein
pause-before legt eine Pause fest, die vor dem Vorlesen eines Elements eingelegt wird. time | percentage

time gibt den Zeitraum für eine Pause in absoluten Zeiteinheiten wie Sekunden und Millisekunden an.

percentage benutzt die Umkehrung des Wertes für speech-rate. Wenn speech-rate mit 120 Wörtern pro Minute festgelegt ist, beträgt pause-before:100% 500 ms.

pause-after

Version: CSS2
Erblich: Nein
pause-after legt eine Pause fest, nachdem der Sprecher einen Inhalt vorgelesen hat. time | percentage

time gibt den Zeitraum für eine Pause in absoluten Zeiteinheiten wie Sekunden und Millisekunden an.

percentage benutzt die Umkehrung des Wertes für speech-rate. Wenn speech-rate mit 120 Wörtern pro Minute festgelegt ist, beträgt pause-after:20% 100 ms.

pause

Version: CSS2
Erblich: Nein
pause stellt die Kurzform für die beiden Eigenschaften pause-before und pause-after dar. [time |
percentage]{1,2}

Wenn zwei Werte angegeben sind, bestimmt der erste Wert pause-before und der zweite Wert pause-after. Wenn nur ein Wert angegeben ist, wird er auf beide Eigenschaften angewendet.

Beispiel

H1 { pause: 20ms } /* pause-before: 20ms; pause-after: 20ms */
H2 { pause: 30ms 40ms } /* pause-before: 30ms; pause-after: 40ms */
H3 { pause-after: 10ms } /* pause-before: ?; pause-after: 10ms */ 

cue-before

Version: CSS2
Erblich: Nein
cue-before legt einen Klang fest, der vor der Sprachausgabe eines Elements gespielt wird, um das Element vom vorangegangenen Element zu trennen. url("urladdress") |
none

url("urladdress") ist die Adresse einer Klangquelle. Wenn sich die URL zu etwas anderem auflöst als zu einer Audiodatei – z.B. ein Bild darstellt –, wird die Quelle ignoriert und die Eigenschaft wird behandelt, als wäre der Wert none (Voreinstellung) deklariert worden.

cue-after

Version: CSS2
Erblich: Nein
cue-after legt einen Klang fest, der nach der Sprachausgabe eines Elements gespielt wird, um das Element vom nächsten Element zu trennen. url("urladdress") |
none

url("urladdress") ist die Adresse einer Klangquelle. Wenn sich die URL zu etwas anderem auflöst als zu einer Audiodatei – z.B. ein Bild darstellt –, wird die Quelle ignoriert und die Eigenschaft wird behandelt, als wäre der Wert none (Voreinstellung) deklariert worden.

Beispiel

a  {cue-before: url("glocke.aiff"); 
    cue-after: url("dong.wav")}
h1 {cue-before: url("pop.au"); 
    cue-after: url("pop.au")} 

cue

Version: CSS2
Erblich: Nein
cue ist eine generische Eigenschaft, die den Klang vor und nach einem Stil festlegt und damit eine Kurzform der Eigenschaften cue-before und cue-after darstellt. . cue-before &|
cue-after

Beispiel

H1 {cue-before: url("pop.au"); 
    cue-after: url("pop.au") }
H1 {cue: url("pop.au")} 

play-during

Version: CSS2
Erblich: Nein
play-during legt einen Klang fest, der während des Lesens eines Elements gespielt wird. url("urladdress")
mix? repeat? |
auto | none

url("urladdress") ist die Adresse einer Klangquelle.

mix gibt an, dass der Sound vom Vorfahrenelement übernommen und mit dem in url("urladdress") angegebenen Sound gemischt wird.

repeat bewirkt, dass der Sound wiederholt wird, falls er zu kurz ist, um die volle Dauer des Elements aufzufüllen. Ansonsten wird der Sound einmal gespielt und endet dann. Wenn der Sound zu lang für die Dauer des Elements ist, wird er "abgeschnitten", sobald das Element fertig ausgesprochen wurde.

auto (Voreinstellung) bedeutet, dass der Sound des Vorfahrenelements weiterspielt und nicht neu gestartet wird (was der Fall wäre, wenn die Eigenschaft als inhärent gekennzeichnet worden wäre).

none bedeutet Stille. Der Sound des Vorfahrenelements (falls es eines gibt) ist still, solange das augenblickliche Element dauert, und fährt fort, sobald das augenblickliche Element fertig ausgesprochen ist.

Beispiel

blockquote.sad { play-during: url("violins.aiff") }
blockquote q { play-during: url("harp.wav") mix }
span.quiet { play-during: none }  

azimuth

Version: CSS2
Erblich: Ja
azimuth legt fest, aus welcher horizontalen Richtung die Stimme kommt. angle |
[ left-side |
far-left |
left |
center-left |
center |
center-right |
right |
far-right |
right-side ] &|
behind] | leftwards | rightwards

Räumlicher Klang ist ein wichtiges stilistisches Hilfsmittel bei der Präsentation von Sprache.

angle beschreibt den Winkel, aus dem ein Element aus horizontaler Richtung erklingt. Er wird in einem Bereich von -360° bis 360° angegeben. 0° bedeutet, dass der Klang direkt von der Mitte einer imaginären Bühne ausstrahlt, 90° bedeutet, dass der Klang von rechts kommt, 180° ist der Klang von hinten, 270° (oder -90°) der Klang von links. Negative Werte sind ebenfalls erlaubt, so ist die Angabe -90° gleichbedeutend mit 270°.

left-side = 270° mit behind = 270°

far-left = 300° mit behind = 240°

left = 320° mit behind = 220°

center-left = 340° mit behind = 200°

center = 0° (Voreinstellung) mit behind = 180°

center-right = 20° mit behind = 160°

right = 40° mit behind = 140°

far-right = 60° mit behind = 120°

right-side = 90° mit behind = 90°

leftwards bewegt den Klang nach links, relativ zum augenblicklichen Winkel.

rightwards bewegt den Klang nach rechts, relativ zum augenblicklichen Winkel.

elevation

Version: CSS2
Erblich: Ja
elevation legt fest, aus welcher vertikalen Richtung die Stimme kommt. angle | below | level | above| higher | lower

angle beschreibt den Winkel, aus dem ein Element aus vertikaler Richtung erklingt. Er wird in einem Bereich von -90° bis 90° angegeben. 0° bedeutet, dass der Klang vom vorderen Horizont ausstrahlt, auf einer Ebene mit dem Zuhörer. 90° ist der Klang von oben, -90° ist der Klang direkt von unten.

below = -90°

level = 0° (Voreinstellung)

above = 90°

higher fügt dem Winkel 10° hinzu.

lower zieht dem Winkel 10° ab.

Werte außerhalb des Bereichs von -90° bis 90° werden "abgeschnitten".

Beispiel

h1 { elevation: above }
tr.a { elevation: 60deg }
tr.b { elevation: 30deg }
tr.c { elevation: level } 

speech-rate

Version: CSS2
Erblich: Ja
speech-rate legt fest, in welcher Geschwindigkeit ein Element gesprochen wird. number | x-slow | slow | medium | fast | x-fast | faster | slower

number gibt die Sprechrate in Wörtern pro Minute an. Es handelt sich hier um eine Angabe, die stark von der jeweiligen Sprache abhängt, aber dennoch von den meisten Sprachsynthesizern unterstützt wird.

x-slow entspricht 80 Wörtern pro Minute.

slow entspricht 120 Wörtern pro Minute.

medium (Voreinstellung) sind ungefähr 180 bis 200 Wörter pro Minute.

fast entspricht 300 Wörtern pro Minute.

x-fast entspricht 500 Wörtern pro Minute.

faster fügt der augenblicklichen Sprechrate 40 Wörter pro Minute hinzu.

slower senkt die augenblickliche Sprechrate um 40 Wörter pro Minute.

voice-family

Version: CSS2
Erblich: Ja
voice-family ist eine Liste von Stimmfamilien, die bestimmte Stimmen enthalten – ähnlich wie Schriftfamilien. [ [ specific-voice | generic-voice ],
]* [ specific-voice | generic-voice ]

specific-voice bezeichnet spezielle Stimmen. Beispiele sind comedian, trinoids, carlos, lani. Stimmen werden ebenso behandelt wie Schriften. Sie können in einer Auswahlliste mit Alternativen angegeben werden. Wenn der Name einer Stimme aus mehreren durch Leerzeichen getrennten Wörtern besteht, wird empfohlen, den Namen in einfache Hochkommas zu setzen.

generic-voice gibt Stimmfamilien an. Mögliche Werte sind male, female und child (entspricht einer generischen Schriftfamilie wie sans-serif und monospace).

pitch

Version: CSS2
Erblich: Ja
pitch spezifiziert die sprechende Stimme. frequency | x-low | low | medium | high | x-high

Die Stimmlage der menschlichen Stimme liegt typischerweise bei 120 Hz für männliche und 210 Hz für weibliche Stimmen. Sprachen werden mit unterschiedlichen Betonungen und Stimmlagen gesprochen, die eine zusätzliche Bedeutung einbringen können.

frequency gibt die mittlere Sprachfrequenz in Hertz (Hz) an.

x-low, low, medium (Voreinstellung), high, x-high sind Werte, die nicht nicht in absoluten Hz-Werten angegeben werden können, da sie auf der jeweiligen Stimmfamilie beruhen.

pitch-range

Version: CSS2
Erblich: Ja
pitch-range legt die Variationen der vorlesenden Stimme fest. Soll der Vorleser eher monoton oder mit einer variantenreichen Betonung sprechen? number

number ist ein Wert zwischen 0 und 100. 0 soll eine monotone Stimme und 50 (Voreinstellung) eine normale Betonung erzeugen. Höhere Werte sind für animierte Stimmen gedacht.

stress

Version: CSS2
Erblich: Ja
stress legt die Betonung eines Elements durch die Sprecherstimme fest. number

Englisch ist eine betonte Sprache, in der die verschiedenen Satzteile unterschiedlich betont werden. Deutsch ist eine relativ monotone Sprache.

number ist ein Wert zwischen 0 und 100. Die Bedeutung hängt von der jeweiligen Sprache ab. Ein Level von 50 ist der Standard. Bei männlichen Englisch sprechenden Stimmen mit einem mittleren pitch von 122Hz klingen Betonung und Intonation anders als bei einer italienischen Stimme.

richness

Version: CSS2
Erblich: Ja
richness legt die Stärke der Stimme fest – soll die Stimme eher voll oder dünn klingen? Eine reiche Stimme wird in einem großen Raum voll klingen, während eine weiche Stimme den Raum nicht füllen kann. number

number ist ein Wert zwischen 0 und 100. Je höher der Wert ist, desto weiter trägt die Stimme. Ein kleinerer Wert resultiert in einer weicheren Stimme. Die Voreinstellung ist 50.

speak-punctuation

Version: CSS2
Erblich: Ja
speak-punctuation legt fest, ob Satzzeichen vorgelesen werden. code | none | inherit

code bedeutet, dass die Interpunktion wie Semikola, Klammern und Doppelpunkte wörtlich gesprochen wird.

none ist die Voreinstellung und bewirkt, dass die Interpunktion nicht gesprochen, sondern durch entsprechende Pausen ausgedrückt wird.

speak-numeral

Version: CSS2
Erblich: Ja
speak-numeral legt fest, wie Zahlen vorgelesen werden. digits | continuous

digits bewirkt, dass Zahlen als individuelle Zeichen gelesen werden. Die Zahl 237 wird als "Zwei, Drei, Sieben" vorgelesen.

continuous ist die Voreinstellung und spricht die volle Zahl aus. Die Zahl 237 wird als Zweihundertsiebenunddreißig vorgelesen.

 

Cascading Styleheets – Stil mit <Stil> • Das Begleitmaterial zum Buch
© media engineering Ulrike Häßler 2002 • Frechen