7. Unterrichtsblock

KI Entwicklerkurs

Kursinhalte

  • KI-Gestützte Audioproduktion
  • Prompt-Design für KI-Stimmen & Soundeffekte
  •  Soundeffekte & KI-generierte Klangwelten
  • KI & Audio-Branding / Jingles

KI-Stimmen & Soundeffekte

Was umfasst KI-gestützte Audioproduktion?

1. Text-to-Speech (TTS)

Die KI wandelt geschriebenen Text in gesprochene Sprache um – oft mit erstaunlich natürlicher Tonlage, Emotion und Sprachrhythmus.

Kostenlos nutzbare Tools:

  • ElevenLabs – hochwertige TTS mit Emotion und Sprachwahl
  • Descript – TTS kombiniert mit Schnitt und Sprecherersetzung
  • TTSMP3 – einfache Online-TTS mit verschiedenen Stimmen
  • PlayHT – TTS mit natürlicher Stimme und Exportoption

Einsatzbereiche:

→ Prototyping & Storytelling, Lernvideos, Avatare & KI-Videos, Barrierefreie Inhalte, Podcast-Intro oder Voiceover

 2. Stimmklonen & Stimmgestaltung

Die KI kann echte Stimmen imitieren oder neue synthetische Stimmen erzeugen – z. B. für Avatare, Hörspiele oder Werbung.

Kostenlos nutzbare Tools:

  • HeyGen – Avatar spricht mit KI-Stimme, basierend auf TTS
  • D-ID – Porträt spricht mit KI-Stimme und Mimik
  • Voicemod – Echtzeit-Stimmverzerrer mit KI-Stimmen für Games, Theater, Videos

Einsatzbereiche: Sprecher:innen ersetzen, Figuren vertonen, Markenstimmen entwickeln

3. KI-generierte Musik

KI komponiert Musikstücke auf Basis von Stilvorgaben, Stimmung oder Tempo – ideal für Jingles, Hintergrundmusik oder Audio-Branding.

Kostenlos nutzbare Tools:

  • Soundraw – Musikgenerator mit Stimmungsauswahl
  • AIVA – KI komponiert Musik in verschiedenen Genres
  • Boomy – einfache Musikproduktion für Loops und Intros

Einsatzbereiche: Jingles, Lernvideos, Podcasts, Markenklänge

4. Soundeffekte & Klangwelten

KI erzeugt Geräusche (z. B. Regen, Schritte, futuristische Sounds) oder ganze akustische Szenen – oft ohne konkreten Textbezug.

Kostenlos nutzbare Tools:

  • Voicemod Soundboard – KI-Soundeffekte für Games, Theater, Videos
  • LALAL.AI (Demo) – trennt Stimme und Musik aus Audiodateien für Remix oder Sounddesign

Einsatzbereiche: Filmvertonung, Games, immersive Lernumgebungen

5. Automatische Audiobearbeitung

KI erkennt und entfernt Pausen, Rauschen oder Versprecher, passt Lautstärke und Timing an – ideal für Schnitt und Postproduktion.

Kostenlos nutzbare Tools:

  • Descript – automatische Pausenentfernung, Sprecherwechsel, Schnitt
  • Adobe Podcast Enhance – KI-Optimierung von Audioqualität direkt im Browser

Einsatzbereiche: Podcast-Optimierung, Lernvideo-Schnitt, Audioreinigung

Unterschiede: Synthetische Stimme, TTS & generative Klangwelt

BegriffBeschreibungBeispiel / Einsatzbereich
TTS (Text-to-Speech)Technologie, die geschriebenen Text automatisch in gesprochene Sprache umwandelt„Guten Morgen, Selina“ wird als Audio ausgegeben
Synthetische StimmeEine künstlich erzeugte Stimme – kann durch TTS entstehen, aber auch durch Stimmklonen oder KI-DesignStimme eines Avatars, die nie von einem Menschen gesprochen wurde
Generative KlangweltKI erzeugt komplette akustische Szenen: Musik, Geräusche, Atmosphäre – oft ohne konkreten TextbezugRegenwald-Soundscape, futuristische Maschinenhalle, KI-komponierter Jingle

Zusammengefasst:

  • TTS ist eine Funktion: Text → Sprache
  • Synthetische Stimme ist ein Ergebnis: künstlich erzeugte Stimme, oft durch TTS oder Stimmklonen
  • Generative Klangwelt ist ein kompositorischer Ansatz: KI erzeugt ganze Soundkulissen oder Musikstücke

Aufgabe

 Schritt 1: Text schreiben

Verfasse einen kurzen Sprechertext (ca. 3–5 Sätze) für eine fiktive Szene, z. B.:

  • Ein Lernvideo über KI
  • Eine Produktpräsentation
  • Eine Begrüßung für ein Theaterstück
  • Eine Nachricht von einem Avatar

→ Achte auf klare Sprache, passende Emotion und Zielgruppe.

 Schritt 2: TTS-Tool testen

Nutze ein kostenloses Tool, um deinen Text in eine KI-Stimme umzuwandeln:

ToolZugang
ElevenLabselevenlabs.io – Free Tier mit Stimmwahl
TTSMP3ttsmp3.com – Direkt nutzbar ohne Anmeldung
PlayHTplay.ht – Free Tier mit Exportoption
Descriptdescript.com – Free Account mit TTS-Funktion

→ Probiere verschiedene Stimmen, Emotionen und Sprachen aus.

Schritt 3: Wirkung analysieren

Beantworte folgende Fragen:

  • Wie wirkt deine KI-Stimme?
  • Welche Stimme passt am besten zu deinem Text?
  • Was klingt glaubwürdig – was künstlich?
  • Würdest du diese Stimme in einem echten Video verwenden?

Prompt-Design für KI-Stimmen & Soundeffekte

Damit KI-Stimmen glaubwürdig, emotional oder markentauglich klingen, braucht es mehr als nur einen Text. Ein gut formulierter Audio-Prompt legt fest, wie etwas gesagt wird – mit welcher Stimme, Tonlage, Stimmung, Geschwindigkeit und akustischen Umgebung.

Je präziser die Beschreibung, desto passender das Ergebnis: Ob für ein Lernvideo, einen Avatar oder ein Jingle – die Wirkung entsteht durch Stimme und Sound.

Beispiel-Prompt

„Sprich den Satz ‚Willkommen zum KI-Kurs‘ mit einer freundlichen, weiblichen Stimme, langsam und klar, in Deutsch, mit ruhiger Hintergrundmusik und einem kurzen Jingle am Anfang.“

Elemente eines gelungenen Audio-Prompts

ElementBeispiel
Textinhalt / Botschaft„Willkommen zum KI-Kurs“, „Heute lernen wir, wie man ein Video erstellt“
Stimme / Sprecherstil„tiefe männliche Stimme“, „freundlich und jugendlich“, „professionell und sachlich“
Emotion / Stimmung„begeistert“, „melancholisch“, „entspannt“, „dringlich“
Sprechtempo / Rhythmus„langsam und klar“, „schnell und energiegeladen“, „mit Pausen zur Betonung“
Sprache / Dialekt„Deutsch“, „Englisch mit britischem Akzent“, „bayerischer Dialekt“
Klangkulisse / Soundeffekte„mit Regen im Hintergrund“, „leise Musik im Hintergrund“, „futuristische Geräusche“
Musik / Jingle (optional)„elektronischer Jingle am Anfang“, „ruhige Klaviermusik als Outro“

Aufgabe

Denke dir eine eigene Szene aus, z. B. aus einem Lernvideo, Theaterstück oder Game. Formuliere einen kurzen Audio-Prompt mit Angaben zu Stimme, Emotion, Tempo und ggf. Soundkulisse.

→ Erzeuge die Stimme mit einem kostenlosen TTS-Tool (z. B. ElevenLabs, TTSMP3, PlayHT) → Verändere mindestens einen Aspekt deines Prompts (z. B. Stimme, Stimmung oder Tempo) → Höre beide Versionen und reflektiere die Wirkung: Was verändert sich? Was passt besser zur Szene?

 Soundeffekte & KI-generierte Klangwelten

Was kann KI im Audiobereich?

KI erzeugt nicht nur Stimmen, sondern auch Geräusche, Musik und ganze akustische Szenen. Diese Klangwelten können realistisch, futuristisch oder atmosphärisch wirken – je nach Tool und Prompt.

Beispiele für KI-generierte Sounds

  • Naturkulissen: Regen, Wind, Vogelstimmen
  • Bewegung: Schritte, Türen, Maschinen
  • Fantasie & Sci-Fi: Laser, Roboter, digitale Räume
  • Musik & Atmosphäre: Jingles, Loops, Hintergrundmusik

→ Diese Sounds können in Lernvideos, Games, Theaterstücken oder Podcasts eingesetzt werden.

Kostenlos nutzbare Tools

  • Soundraw – KI komponiert Musikstücke nach Stimmung und Tempo
  • Voicemod – Echtzeit-Soundeffekte und Soundboard für Szenen
  • AIVA – KI komponiert Musik in verschiedenen Genres und Stimmungen

Aufgabe

Video: Schaut euch das Video „KI-Sounds: Müll oder Meisterwerk? | Vincent Lee“ aufmerksam an.

Teil A: Analyse der KI-Audioproduktion

  1. Prompt-Design für Audio:
    • Vincent Lee nutzt Prompts, um die Sounds zu beschreiben (z. B. „Epic Drum One Shot“). Nennt zwei weitere Beispiele für Prompts, die er verwendet, und wie die KI darauf reagiert.
    • Überlegt: Welche Elemente eines guten Prompts (wie in früheren Einheiten gelernt) sind auch für die Audiosynthese mit KI wichtig?
  2. Qualität und Bewertung:
    • Vincent Lee fragt: „Müll oder Meisterwerk?“ Was ist seine allgemeine Einschätzung der KI-generierten Sounds?
    • Was sind die typischen „Fehler“ oder Limitationen von KI-generierten Sounds, die im Video deutlich werden? (Beispiel: Sounds, die nicht wie erwartet klingen).
  3. Wiederverwendung und Kontext:
    • Wie nutzt Vincent Lee die generierten Sounds, um sie in einen musikalischen Kontext zu setzen? Erklärt den Unterschied zwischen den von der KI generierten „Rohdaten“ und dem Endergebnis.

Teil B: Praktische Anwendung

Im letzten Block habt ihr KI-generierte Avatare erstellt. Wählt einen dieser Avatare aus und erstellt für ihn eine passende Stimme sowie Geräusche, die seine Umgebung beschreiben.

  1. Bedürfnissanalyse:
    • Schaut euch euren ausgewählten Avatar an.
    • Beschreibt in Stichpunkten: Welche Art von Stimme (Tonlage, Emotion, Sprechgeschwindigkeit) und welche Geräusche (Atmosphäre, Soundeffekte) würden die Persönlichkeit und Umgebung eures Avatars am besten unterstützen?
  2. Audiogenerierung mit KI:
    • Nutzt ein KI-Tool zur Audio-Generierung (z. B. ElevenLabs).
    • Formuliert präzise Prompts, um die benötigten Audio-Elemente zu generieren. Versucht, verschiedene Optionen zu testen und wählt die besten Ergebnisse aus.
  3. Integration und Reflexion:
    • Ladet die generierten Audio-Dateien herunter und spielt sie passend zu eurem Avatar ab.
    • Reflektiert: Wie hat sich die wahrgenommene Identität eures Avatars durch die KI-generierten Audio-Elemente verändert? Welche neuen Eigenschaften oder welchen neuen Kontext hat er dadurch bekommen?

Teil C: Reflexion

Glaubt ihr, dass KI-generierte Musik oder Soundeffekte jemals von „echten“ Produktionen nicht mehr zu unterscheiden sein werden? Begründet eure Meinung.

KI & Audio-Branding / Jingles

Was ist Audio-Branding?

Audio-Branding ist die gezielte Gestaltung von Klang, Stimme und Musik, um eine Marke, ein Produkt oder ein Format wiedererkennbar und emotional erfahrbar zu machen. Wir nennen dies die akustische Identität. Dazu gehören zum Beispiel:

  • Jingles: Kurze, einprägsame Melodien (wie der Werbe-Jingle einer Marke).
  • Akustische Logos: Sehr kurze, unverwechselbare Soundeffekte (wie der Netflix-„Ta-dum“-Sound).
  • Charakteristische Stimmen: Spezielle Stimmen, die eine Marke repräsentieren (wie die Stimme eines Navigationssystems).

Wie kann KI beim Markenklang helfen?

KI-Tools automatisieren den Prozess der Klangerstellung. Sie können in wenigen Minuten Musik komponieren, Stimmen erzeugen oder Soundeffekte designen. Die KI analysiert dabei Stil, Stimmung und Tempo, um neue, passende Inhalte zu generieren.

Aufgabe

In dieser Aufgabe entwickelst du ein Audio-Branding für ein fiktives Produkt, eine App oder ein Lernformat.

Schritt 1: Konzeption

  1. Wähle ein Thema: Entscheide dich für ein fiktives Produkt (z. B. eine App für umweltbewusste Reisen oder ein Tutorial-Kanal für KI-Grundlagen).
  2. Bestimme die Identität: Beantworte diese Fragen, um die akustische Identität festzulegen:
    • Welche Stimmung soll das Produkt vermitteln? (z. B. energisch, beruhigend, seriös)
    • Welche Instrumente oder Soundeffekte passen dazu? (z. B. Synthesizer für futuristisch, Akustikgitarre für natürlich)
    • Gibt es einen kurzen Slogan oder einen Sprechtext?

Schritt 2: Erstellung mit KI-Tools

  1. Jingle generieren: Nutze einen KI-Musikgenerator und formuliere Prompts, um einen kurzen, einprägsamen Jingle zu erstellen.
  2. Stimme erzeugen: Nutze ein TTS-Tool (Text-to-Speech) wie ElevenLabs und erstelle eine passende synthetische Stimme für deinen Slogan.
  3. Zusammenfügen: Nutze ein Audioschnitt-Programm (wie Audacity oder Descript), um den Jingle und die generierte Stimme zu einem fertigen Audio-Logo zu kombinieren.

Schritt 3: Reflexion

Präsentiere dein fertiges Audio-Branding und beantworte diese Fragen:

  • Welche Rolle hat die KI bei der Entwicklung des Jingles übernommen? Was war ihre Stärke?
  • Welche kreativen Entscheidungen mussten von dir als Mensch getroffen werden, um das Ergebnis zu verbessern?
  • Was macht die Stimme und den Klang glaubwürdig oder künstlich?