Pengertian Speech Synthesis
Speech synthesis adalah transformasi dari teks ke
arah suara (speech). Transformasi ini mengkonversi teks ke pemadu suara (speech
synthesis) yang sebisa mungkin dibuat menyerupai suara nyata, disesuaikan
dengan aturan – aturan pengucapan bahasa.TTS (text to speech) dimaksudkan untuk
membaca teks elektronik dalam bentuk buku, dan juga untuk menyuarakan teks
dengan menggunakan pemaduan suara. Sistem ini dapat digunakan sebagai sistem
komunikasi, pada sistem informasi referral, dapat diterapkan untuk membantu orang-orang
yang kehilangan kemampuan melihat dan membaca.
Ada beberapa masalah yang terdapat pada pemaduan
suara, yaitu:
· User sangat sensitif terhadap variasi dan informasi suara. Oleh sebab itu,
mereka tidak dapat memberikan toleransi atas ketidaksempurnaan pemadu suara.
· Output dalam bentuk suara tidak dapat diulang atau dicari dengan mudah.
· Meningkatkan keberisikan pada lingkungan kantor atau jika menggunakan
handphone, maka akan meningkatkan biaya pengeluaran.
Lingkungan dari aplikasi pemadu suara adalah:
Bagi tunanetra, pemadu suara menawarkan media
komunkasi dimana mereka dapat memiliki akses yang tidak terbatas. Lingkungan
dimana visual dan haptic skill user berfokus pada hal lain.
Contohnya: sinyal
bahaya pada kokpit pesawat udara.
Sejarah Speech Synthesis
Upaya yang paling awal untuk menghasilkan lahirnya
pemandu suara, pada abad XVIII. Terlepas dari kenyataan bahwa upaya
pertama adalah bentuk mesin mekanis, kita dapat mengatakan hari ini
bahwa synthesizer sudah berkualitas tinggi. Pada tahun 1779 di St Petersburg,
Rusia Profesor Kratzenshtein Kristen fisiologis menjelaskan perbedaan
antara lima vokal panjang (/ A /, / e /, / i /, / o /, dan / u /) dan
membuat alat untuk menghasilkan mereka artifisial. Tahun 1791 di Wina,
Wolfgang von Kempelen memperkenalkan nya “Akustik-Mekanik Mesin Speech”.
Dalam sekitar pertengahan 1800-an Charles Wheatstone dibangun
terkenal versi mesin berbicara von Kempelen’s.
Generasi dari sistem pemaduan suara ini dapat dibagi
ke dalam 3 masa, yaitu:
· Generasi
pertama (1962-1977). Format sintesis dari fonem adalah teknologi dominan.
Teknologi ini memanfaatkan aturan berdasarkan penguraian fonetik pada kalimat
untuk kontur frekuensi forman. Beberapa sintesis masih miskin atau kurang
dalam kejelasan dan kealamiannya.
· Generasi
kedua (1977-1992). Metode pemadu suara adalah diphone diwakilkan dengan
parameter LPC. Hal tersebut menunujukkan bahwa kejelasan yang baik pada pemadu
suara dapat diperoleh dengan andal dari input teks dengan menggabungkan diphone
yang sesuai dengan unit. Kejelasan meningkat selama sintesis forman, tetapi
kealamian dari pemadu suara masih tetap rendah.
· Generasi
ketiga (1992-sekarang). Generasi ini ditandai dengan metode ‘ sintesis pemilihan
unit’ yang diperkenalkan dan disempurnakan oelh Sagisaka di Labs ATR Kyoto.
Hasil dari pemandu suara pada periode ini sangat mendekati
human-generated speech pada bagian kejelasan dan kealamian,
Teknologi pemadu suara modern melibatkan metode dan
algoritma yang canggih dan rumit. alat pemadu suara dari keluarga
“Infovox” mungkin mejadi salah satu multi bahasa TTS yang paling dikenal saat
ini. Versi komersial pertamanya, Infovox-SA 101, dikembangkan pada tahun 1982
di Institute Teknologi Royal, Swedia dan didasarkan pada sintesis forman. AT
& T Bell Laboratories (Lucent Technologies) juga memiliki tradisi yang
sangat panjang tentang pemandu suara (speech synthesis). TTS lengkap yang
pertama didemostrasikan di Boston pada tahun 1972 dan diliris pada tahun 1973.
Hal ini didasarkan pada model artikulatoris yang sikembangkan oleh Ceceil Coker
(Klatt 1987). Pengembangan proses dari sistem penggabungan sintesis ini dimulai
oleh Joseph Olive pada pertengahan tahun 1970-an (Bell Labs 1997). Sistem ini
sekarang sudah tersedia untuk bahasa Inggris, Perancis, Spanyol, Italia,
Jerman, Rusia, Rumania, Cina, dan Jepang (Mcbius et al 1996).
Speech synthesis atau pidato sintesis adalah
produksi buatan manusia pidato. Sebuah sistem komputer yang digunakan untuk
tujuan ini disebut speech synthesizer, dan dapat diimplementasikan dalam
perangkat lunak atau perangkat keras. text-to-speech (TTS) sistem bahasa normal
mengkonversi teks ke dalam pidato. sistem lain membuat representasi linguistik
simbolis seperti transkripsi fonetik bicara.
Pidato buatan dapat dibuat dengan potongan-potongan
concatenating pidato yang direkam disimpan dalam database. Sistem berbeda dalam
ukuran pidato yang disimpan unit; sebuah sistem yang menyimpan telepon
memberikan rentang output terbesar, tapi mungkin kurang jelas. Untuk keperluan
khusus domain, yang menyimpan seluruh kata-kata atau kalimat memungkinkan
output yang berkualitas tinggi. Atau, synthesizer dapat menggabungkan sebuah
model dari sistem vokal dan karakteristik suara manusia lain untuk membuat yang
benar-benar “sintetik” output suara. Kualitas synthesizer pidato dinilai oleh
kesamaan dengan suara manusia dan kemampuannya untuk dipahami. semua dimengerti
text-to-speech program yang memungkinkan orang-orang dengan gangguan visual
atau membaca untuk mendengarkan karya-karya tulis di komputer rumah. Banyak
sistem operasi komputer termasuk alat bicara sejak awal 1980-an.
A text-to-speech system (atau “mesin”) adalah
terdiri dari dua bagian: front-end dan back-end. Front-end memiliki dua tugas
utama. Pertama, mengubah teks mentah berisi simbol seperti angka dan singkatan
menjadi setara dengan tertulis-kata-kata. Proses ini sering disebut normalisasi
teks, pra-pengolahan, atau tokenization. Front-end kemudian menetapkan transkripsi
fonetik untuk setiap kata, dan membagi dan menandai teks ke prosodic unit
seperti frase dan kalimat. Proses transkripsi fonetik untuk menetapkan
kata-kata ini disebut teks-ke-fonem atau grafem-ke-fonem konversi. Fonetis
transkripsi dan informasi ilmu persajakan bersama-sama membentuk representasi
simbolik yang linguistik output dengan front-end. Back-end-sering disebut
sebagai synthesizer-maka mengubah representasi linguistik simbolik menjadi
suara.
Suara teks-to-speech engine di Vista adalah
Microsoft Anna, dan Microsoft Sam pada Windows XP. Vista pengguna dapat
mendengar suara sangat jelas dari Anna, dan kualitas suara Anna Microsoft jauh
lebih baik daripada Microsoft Sam. Sintesis pidato Windows program yang disebut
narator telah dikirimkan dengan Windows2000, Windows XP dan Vista. Bila
pengguna Windows ingin mendapatkan suara tidak hanya membaca tetapi juga file
audio seperti gelombang dan file mp3 pidato, mereka dapat menginstal bebas
teks-to-speech dan panopreter text-to-mp3 aplikasi yang ditawarkan oleh
panopreter.com. Hal membaca file teks dan mengkonversi pidato menjadi gelombang
dan mp3 file, pengguna dapat mengimpor file audio yang dihasilkan ke perangkat
portabel, dan mendengarkan mereka sambil berjalan, jogging atau Komuter untuk
bekerja.
Speech sintesis menjadi alat bantu teknologi vital
dan penerapannya di daerah ini sangat signifikan dan luas, sekarang umum
digunakan oleh orang-orang dengan disleksia dan kesulitan membaca lainnya
maupun oleh anak-anak pra-melek. Sementara itu, aplikasi sintesis pidato dan
gadget pada bahasa alat belajar. Teknik sintesis Pidato sekarang juga digunakan
dalam produksi hiburan seperti game, anime dan yang sejenis, dan banyak
digunakan dalam produk telekomunikasi juga.
http://rizafahri.blogspot.com/2010/11/speech-synthesis.html
http://freezcha.wordpress.com/2010/11/16/speech-synthesis/
http://bintangprasetyo.blogspot.co.id/2014/11/pengertian-speech-synthesis.html
Tidak ada komentar:
Posting Komentar