Dit is een reflectie blog over de periode van 14-4-2025 t/m 2-5-2025.
In deze periode heb ik voornamelijk aan het AI onderzoek gewerkt.
AI onderzoek
Ik heb veel gewerkt aan het AI onderzoek. Ik ben verder gegaan met TTS maar ook ben ik begonnen om naar een AI brein zelf te kijken en VAD (Voice Activation Detection).
TTS:
Ik heb hier nog wat onderzoek gedaan naar wat online oplossing zoals ElevenLabs en Amazon Polly.
ElevenLabs:
Ik heb gekeken naar de stemmen en snelheid van ElevenLabs TTS dit is een online TTS API. De stemmen klonken erg goed en de snelheid was ook prime het enige is de prijs die was redelijk duur. Daarom ben ik verder gaan kijken naar andere opties. Want om een AI service te draaien met hoge kosten per minuut is niet reëel vooral als dit door veel mensen gaat worden gebruikt.
Amazon Polly:
Amazon Polly is ook een TTS API. De stemmen klonken prima maar niet zo goed als die van ElevenLabs. Voor de rest was deze API ook weer redelijk aan de prijzige kant dus ben ik weer verder gaan kijken. Dit is eigenlijk door de zelfde conclusie als ElevenLabs het is niet reëel.
F5 TTS:
Ik ben op dit moment bezig met kijken naar F5 TTS dit is een lokaal draaiend TTS model. Ik heb tot nu toe goede resultaten gezien met een reactie tijd van ongeveer 2 seconden zonder optimalisatie dus ik hoop dat ik dit nog onder de 1 seconden kan krijgen. Voor de rest klinken de stemmen heel goed. Hier zijn wat voorbeelden van F5 TTS:

Op dit moment werkt het via een soort lokale API die ik heb gemaakt. Ik wil dit aanpassen om de reactie tijd te verminderen en ook wil ik kijken naar aangepaste versies van dit model om de reactietijd sneller te maken. Dit is een goed model alleen klinken de stemmen niet perfect en hoor je wel dat het niet een echte stem is.
VAD:
Voice Activity Detection of VAD gebruik je om te detecteren of de gebruiker spreekt. Als dat het geval is kun je hier acties aan koppelen zoals het onderbreken van de AI om te voorkomen dat er door elkaar heen gesproken wordt. Daarnaast ben ik aan het onderzoeken of ik iets kan ontwikkelen of vinden dat een inschatting maakt of de gebruiker klaar is met zijn zin. Zo kunnen we het echte AI brein zo min mogelijk extra vragen geven. Uiteindelijk moet dit samenkomen in een VAD systeem. Ik gebruik hier zelf silero-vad voor dit werkt prima voor audio fragmenten langer als 0.25 seconden. Dit was makkelijk om draaiende te krijgen en ook om te testen ik was erg blij met de resultaten hiervan.
AI:
Ik ben ook bezig geweest met het testen van schillende AI modellen waaronder PHI4-mini en Llama2:7B. Die werken nu lokaal op mijn laptop. Het was redelijk makkelijk om dit werkend te krijgen met het programma genaamd ollama. Ik zal verder gaan met het testen van deze modellen om te kijken of een van deze twee te gebruiken zijn voor mijn doel (het helpen van klanten met antwoorden uit een bron of database geleverd door de gebruiker van het ai product).
Conclusie:
TTS: ik heb hier nog niet een geschikt model gevonden al deze modellen zijn of te duur of klinken niet helemaal lekker. Ik ga verder zoeken naar andere modellen en mogelijk ook om hulp vragen aan mijn collega als ik er na volgende week nog niet uit kom want ik ben hier nu al een tijdje mee bezig. VAD: Ik ben erg blij met wat ik heb gevonden een model wat meteen goed werkt. Ik ga nu goed zijn wanneer iemand praat en kan hier zo makkelijk functionaliteit aan koppelen. Later ga ik misschien nog kijken naar iets wat verteld of een zin klaar is maar dat is extra dus nog niet noodzakelijk. AI: Ik ben blij dat het lokaal werkt en ik ga nu modellen testen.
Info:
Ik heb deze periode vooral alleen gewerkt. Ik heb wel mijn resultaten besproken in een meeting met de 2 collega’s waarmee ik samenwerkt in dit onderzoek. Ze vonden dat ik al goed onderweg was en ik ga verder werken om mijn onderzoek over TTS en VAD zo snel mogelijk af te roden. Ik heb in deze periode veel over AI en vooral TTS en VAD geleerd vooral het lokaal draaien van AI was een grote stap en het helemaal werkende krijgen van een VAD systeem ook. Dit sluit dus aan op mijn PAP punt: nieuwe dingen leren.
Conclusie periode 3
Als zou ik de taken van deze periode opnieuw moeten doen zou ik niet super veel veranderen. Door mijn fouten van periode 2 heb ik het meeste al goed aangepast. Wel zou ik misschien eerder hulp vragen bij het zoeken van goede TTS modellen of moet ik een andere manier vinden om deze te zoeken want ik heb in de afgelopen 2 periodes nog niks goeds gevonden.
Overig
Gesprek:
Ik ben ook in gesprek gegaan met mijn baas en ik heb een baan voor in de zomer dus dat is leuk! Voor de rest krijg ik nu daardoor ook andere taken zoals bugs op het platform oplossen waar ik binnenkort mee zal beginnen.
Geef een reactie