Synteza polskiej mowy w Debianie

napoleon50 · Post autor: **napoleon50** » 16 maja 2011, 09:24

Na tej stronie http://www.syntezamowy.pjwstk.edu.pl/korpus.html jest polski głos do syntezatora festival, mam Debiana 6.0.1a i nie wiem jak go zainstalować, jeśli ktoś tego dokonał niech szczegółowo opisze. Pozdrawiam

fnmirk · Post autor: **fnmirk** » 16 maja 2011, 09:34

A na tej stronie forum jest dział dla początkujących.

Z kolei na tej jest o tym co należy zrobić aby instalować nowe programy.

A jak nie ma rozwiązania powyżej to na tej stronie jest opisane co należy dostarczyć w przypadku zakładania tematu lub zadawania pytania dotyczącego problemu z systemem.

Van · Post autor: **Van** » 16 maja 2011, 14:01

http://bloglinux.pl/2010/12/festival-cz ... nie-tylko/

Tutaj jest instrukcja krok po kroku. Następnym razem poszukaj trochę dokładniej w sieci

DaVidoSS · Post autor: **DaVidoSS** » 16 maja 2011, 18:40

Osobiście polecałbym Milenę. Festival gada jak stary zdewastowany robot.

napoleon50 · Post autor: **napoleon50** » 16 maja 2011, 19:14

Nie weszliście na stronę, tam głos zajmuje 500MB i naprawdę dobrze brzmi, a Wy mi podajecie stary głos co zajmuje 3MB.

DaVidoSS · Post autor: **DaVidoSS** » 16 maja 2011, 19:25

Ajajajaj wybaczcie pomyliłem festival z mbrolą. Festival jest ok ale nie dla języka polskiego.

Van · Post autor: **Van** » 17 maja 2011, 23:42

napoleon50 - wybacz, ale nie będę ściągał półgigabajtowego pliku, tylko żeby sprawdzić, co w nim jest. Wysoce prawdopodobne jest, że w paczce znajduje się instrukcja instalacji. Możesz się też posiłkować instrukcją z mojego linku. A jeśli się nie uda, to przyjdź tu i dostarcz więcej informacji.

nonnotus · Post autor: **nonnotus** » 18 maja 2011, 08:28

Witajcie.
Niestety instrukcja jest tak lakoniczna jeżeli chodzi o mnie, że nic nie rozumiem.

Kod: Zaznacz cały

This is the Polish TTS system produced by Krzysztof Szklanny and Dominika Oliver.


There is pjwstk_ks_multisyn_mbrola.tar  file. You will find two voices:
in it : Mbrola diphone voice (female)
    and Multisyn voice (male).

First of all, you should untar the file and copy it to Festival directory.

Run the voice :
(voice_pjwstk_pl_ks_mbrola)
(voice_pjwstk_pl_ks_multisyn)


Here are some details:

---------------------------------
Running the MBROLA Diphone Voice
---------------------------------
You will find the /etc directory. It contains the Mbrola necessary files to run the diphone voice. If you have the Debian distribution, just copy it.
In other distribution try to copy to: [festival_install_dir]/festival/lib/etc/[architecture_dir] , or: /usr/local/bin for system wide availability.
Directory /voices contains ale the files needed to run the voice.

Run the voice : (voice_pjwstk_pl_ks_mbrola)
		(SayText "Halo tu muwi system difonowej syntezy mowy")			

---------------------------------
Running the Polish Multisyn Voice 
---------------------------------

The directory /voices-multisyn contains all the Multisyn files. 
There is also /src directory with some additional sources connected with cost functions. It is not necessary to copy them, but if you want to obtain the higher quality just do that.
Then, quit Festival and make it with new settings: 
Go to festival directory 
./configure
make
copy to festival directory multisyn.scm file.
Then run the Festival and (load "./multisyn.scm")  the voice will run.

I added some paralinguistic you can check it by adding 
ccm, mhm, aaa, mhmaaa, haha, ble, or hrr to the sentence like:
(SayText "tu muwi nieprzyzwoity syntezator mowy. haha. ")

_______________________________
IMPORTANT!
-------------------------------
There is also path.sh file. You need to define the paths where Festival is installed.
Change the paths then run it:  source ./path.sh
-------------------------------
PHONE MAPPING
------------------------------
Here is short summary how to obtain polish diacritic symbols.
SAMPA	Festival
o~ ->	o~
e~ ->	e~
s' ->	s~
z' ->	z~
Z  ->	rz or z*
ts'->	c~
dz'->   dz~
dZ ->	dz*
w  ->	l/
n' ->	n~
u  ->	u
------------------------------
ACKNOWLEDGEMENTS
I wish to thank Dominika Oliver from Saarland University for making available Polish modules and for cooperation while creating Polish Unit Selection Synthesis. I had really good time!
I wish also to express my thanks to Nickolay V. Shmyrev, the Developer of Festival system. There wouldn't be this work without him. THANKS NICKOLAY! 
Finally I would like to thank my supervisor Prof. Krzysztof Marasek from Polish-Japanese Institute of Information Technology for his support, suggestions and patience.
--------------------------

Niestety, ja potrzebuje innej trochę, cóż prymitywnej najlepiej krok po kroku. Oczywiście jestem nowicjuszem. Doświadczony użytkownik na pewno wszystko od razu będzie wiedział co i jak.

DaVidoSS · Post autor: **DaVidoSS** » 18 maja 2011, 20:58

Ten poradnik jest chaotyczny i właśnie prymitywny. Instalowałem tę propozycję.
Multisyn nie działa i nie da się skompilować modułu z powodu braku plików.
Zainstalowałem festival "pl" jednak za pomocą innej metody i stwierdzam jednoznacznie ze Milena jest o wiele lepsza. Możesz sam się przekonać.

Wykonałem prosty test:

Kod: Zaznacz cały

echo "Synteza mowy polega na mechanicznej zamianie tekstu zapisanego w postaci znakowej na wypowiedź (mowę) w postaci dźwiękowej. Maszynę lub program komputerowy zamieniający tekst na mowę określa się mianem syntezatora mowy. W zależności od syntezatora, możemy uzyskać bardzo dokładną wymowę także słów nietypowych, literowanie różnych skrótów, odczytywanie liczb w tym również ułamków oraz odczytywanie dat poprzez dekomponowanie liczb. Syntezatory mowy mają wiele zastosowań. Pozwalają na zautomatyzowanie informowania bądź alarmowania uży " | iconv -f UTF-8 -t ISO_8859-2 | festival --tts --language polish | arecord -f cd | lame -h - festival.mp3

Jak już wcześniej pisałem festival nie radzi sobie z polskimi znakami na UTF8 i trzeba w locie konwertować do ISO ISO_8859-2 i jest cale mnóstwo problemow z tym zwiazanych.
Wynik festival:

Kod: Zaznacz cały

wget -O festival.mp3 "http://jned.pl/images/audio/festival"

oraz milena (polecam) :

Kod: Zaznacz cały

milena_say "Synteza mowy – polega na mechanicznej zamianie tekstu zapisanego w postaci znakowej na wypowiedź (mowę) w postaci dźwiękowej. Maszynę lub program komputerowy zamieniający tekst na mowę określa się mianem syntezatora mowy. W zależności od syntezatora, możemy uzyskać bardzo dokładną wymowę także słów nietypowych, literowanie różnych skrótów, odczytywanie liczb w tym również ułamków oraz odczytywanie dat poprzez dekomponowanie liczb. Syntezatory mowy mają wiele zastosowań. Pozwalają na zautomatyzowanie informowania bądź alarmowania użytkownika, są pomocne przy nauce języków obcych oraz tłumaczeniach, mogą także np. odczytywać dokumenty pisane alfabetem Brailla." | arecord -f cd | lame -h - milena.mp3

Wynik:

Kod: Zaznacz cały

wget -O milena.mp3 "http://jned.pl/images/audio/milena"

Porównaj obydwa pliki mp3 odsłuchując i stwierdź sam. Dodam tylko iż milenę można konfigurowac w zakresie prędkości i intonacji dźwięku.