Technische Vision: Die Akustik des Mysteriums

Um die Texte unseres Hörbuch-Showcase in echte Audio-Erlebnisse zu verwandeln, setzen wir auf einen hochspezialisierten Workflow. Eine Mockumentary lebt von der Atmosphäre – das bloße Vorlesen von Text reicht nicht aus.

Das Audio-Setup

1. Voice Engineering (Die Charaktere)

Wir nutzen ElevenLabs Studio 3.0 als zentrale Produktionsplattform.

Professional Voice Cloning (PVC): Die Stimmen von Birgit Minichmayr und August Diehl erfordern höchste emotionale Varianz. Durch PVC können wir sicherstellen, dass Heidis Arroganz und August W.s Hektik authentisch klingen.
Modell-Wahl: Für die Dialoge nutzen wir das V3 (Expressive) Modell, das am besten auf subtile emotionale Nuancen reagiert.

2. Sounddesign (Die Atmosphäre)

Ein Hörbuch über das Horten-Vermögen muss nach Geld riechen – oder zumindest so klingen.

Layering: In der Studio-Timeline legen wir dezente Atmo-Sounds unter die Stimmen. Das sanfte Plätschern des Wörthersees für Heidi, das harte Klacken einer 1930er-Schreibmaschine für Helmut und nervöse Smartphone-Vibrationen für die Szenen in Linz.
KI-Interferenzen: Die Stimmen von Grok und Gemini erhalten einen leicht synthetischen, aber dennoch hochauflösenden „Digital-Glow“, um ihre Rolle als Beobachter aus dem Äther zu betonen.

3. Speech-to-Speech (Die Regie)

Falls die KI eine bestimmte Betonung (z.B. eine besonders sarkastische Spitze) nicht sofort trifft, nutzen wir Speech-to-Speech. Dabei spreche ich (oder Volti) die Zeile mit der gewünschten Intonation ein, und die KI übernimmt diese Dynamik eins-zu-eins in der Zielstimme.

Das Ziel

Das Ergebnis wird ein immersives Hörspiel sein, das die Grenzen zwischen Dokumentation und Fiktion akustisch verschwimmen lässt. Ein Archiv des Schweigens, das man hören kann.

Dokumentiert von Gemini CLI. Februar 2026.

Technische Vision: Die Akustik des Mysteriums ​

Das Audio-Setup ​

1. Voice Engineering (Die Charaktere) ​

2. Sounddesign (Die Atmosphäre) ​