1. PENGERTIAN SPEECH RECOGNITION
Speech Recognition adalah proses identifikasi suara
berdasarkan kata yang diucapkan dengan melakukan konversi sebuah sinyal
akustik, yang ditangkap oleh audio device (perangkat input suara).
Keuntungan dari sistem ini adalah pada kecepatan dan
kemudahan dalam penggunaannya. Kata – kata yang ditangkap dan dikenali bisa
jadi sebagai hasil akhir, untuk sebuah aplikasi seperti command & control,
penginputan data, dan persiapan dokumen. Parameter yang dibandingkan ialah
tingkat penekanan suara yang kemudian akan dicocokkan dengan template database
yang tersedia.
Sedangkan sistem pengenalan suara berdasarkan orang yang
berbicara dinamakan speaker recognition. Pada makalah ini hanya akan dibahas
mengenai speech recognition karena kompleksitas algoritma yang
diimplementasikan lebih sederhana daripada speaker recognition. Algoritma yang
akan diimplementasikan pada bahasan mengenai proses speech recognition ini
adalah algoritma FFT (Fast Fourier Transform), yaitu algoritma yang cukup
efisien dalam pemrosesan sinyal digital (dalam hal ini suara) dalam bentuk
diskrit. Algoritma ini mengimplementasikan algoritma Divide and Conquer untuk
pemrosesannya. Konsep utama algoritma ini adalah mengubah sinyal suara yang
berbasis waktu menjadi berbasis frekuensi dengan membagi masalah menjadi
beberapa upa masalah yang lebih kecil. Kemudian, setiap upa masalah
diselesaikan dengan cara melakukan pencocokan pola digital suara.
2. SEJARAH SPEECH RECOGNITION
Biometrik, termasuk di dalamnya speech recognition,
secara umum digunakan untuk identifikasi dan verifikasi. Identifikasi ialah
mengenali identitas subyek, dilakukan perbandingan kecocokan antara data
biometric subyek dalam database berisi record karakter subyek. Sedangkan
verifikasi adalah menentukan apakah subyek sesuai dengan apa yang dikatakan
terhadap dirinya.
Biometrik merupakan suatu metoda untuk mengenali
manusia berdasarkan pada satu atau lebih ciri-ciri fisik atau tingkah laku yang
unik. Biometric Recognition atau biasa disebut dengan Sistem pengenalan
biometric mengacu pada identifikasi secara otomatis terhadap manusia
berdasarkan psikological atau karakteristik tingkah laku manusia. Ada beberapa
jenis teknologi biometric antara lain suara (speech recognition).
Metode Hidden Markov Model mulai diperkenalkan dan
dipelajari pada akhir tahun 1960, metode yang berupa model statistik dari
rantai Markov ini semakin banyak dipakai pada tahun-tahun terakhir terutama
dalam bidang speech recognition, seperti dijelaskan oleh Lawrence R. Rabiner
dalam laporannya yang berjudul “A Tutorial on Hidden Markov Models and Selected
Applications in Speech Recognition”
Proses dalam dunia nyata secara umum menghasilkan
observable output yang dapat dikarakterisasikan sebagai signal. Signal bisa
bersifat diskrit (karakter dalam alfabet) maupun kontinu (pengukuran
temperatur, alunan musik). Signal bisa bersifat stabil (nilai statistiknya
tidak berubah terhadap waktu) maupun nonstabil (nilai signal berubah-ubah
terhadap waktu). Dengan melakukan pemodelan terhadap signal secara benar, dapat
dilakukan simulasi terhadap sumber dan pelatihan sebanyak mungkin melalui
proses simulasi tersebut. Sehingga model dapat diterapkan dalam sistem
prediksi, sistem pengenalan, maupun sistem identifikasi. Secara garis besar
model signal dapat dikategorikan menjadi 2 golongan yaitu : model deterministik
dan model statistikal. Model deterministik menggunakan nilai-nilai properti
dari sebuah signal seperti :amplitudo, frekuensi, fase dari gelombang sinus.
Sedangkan model statistikal menggunakan nilai-nilai statistik dari sebuah
signal seperti: proses Gaussian, proses Poisson, proses Markov, dan proses
Hidden Markov.
Suatu model HMM secara umum memiliki unsur-unsur
sebagai berikut:
· N, yaitu jumlah state dalam model. Secara
umum state saling terhubung satu dengan yang lain, dan suatu state bisa
mencapai semua state yang lain dan sebaliknya (disebut model ergodic). Namun
hal tersebut tidak mutlak, terdapat kondisi lain dimana suatu state hanya bisa
berputar ke diri sendiri dan berpindah ke satu state berikutnya, hal ini
bergantung pada implementasi dari model.
· M, yaitu jumlah observation symbol secara
unik pada tiap statenya, misalnya: karakter dalam alfabet, dimana state adalah
huruf dalam kata.
· State Transition Probability { } -> ij A a
· Observation Symbol Probability pada state j,
{ } () -> j Bb k
· Initial State Distribution -> i p p
Dengan memberikan nilai pada N, M, A, B, dan p , HMM
dapat digunakan sebagai generator untuk menghasilkan urutan observasi. dimana
tiap observasi t o adalah salah satu simbol dari V, dan T adalah jumlah
observasi dalam suatu sequence.
3. SKEMA UTAMA DAN ALGORITMA SPEECH RECOGNITION
Terdapat 4 langkah utama dalam sistem pengenalan
suara:
· Penerimaan data input
· Ekstraksi, yaitu penyimpanan data masukan
sekaligus pembuatan database untuk template.
· Pembandingan / pencocokan, yaitu tahap
pencocokan data baru dengan data suara (pencocokan tata bahasa) pada template.
· Validasi identitas pengguna.
Secara umum, speech recognizer memproses sinyal
suara yang masuk dan menyimpannya dalam bentuk digital. Hasit proses
digitalisasi tersebut kemudian dikonversi dalam bentuk spektrum suara yang akan
dianalisa dengan membandingkannya dengan template suara pada database sistem.
Sebelumnya, data suara masukan dipilah-pilah dan diproses
satu per satu berdasarkan urutannya. Pemilahan ini dilakukan agar proses
analisis dapat dilakukan secara paralel. Proses yang pertama kali dilakukan
ialah memproses gelombang kontinu spektrum suara ke dalam bentuk diskrit.
Langkah berikutnya ialah proses kalkulasi yang dibagi menjadi dua bagian :
· Transformasi gelombang diskrit menjadi array
data.
· Untuk masing-masing elemen pada aiTay data,
hitung "ketinggian" gelombang (frekuensi).
Objek permasaiahan yang akan dibagi adalah masukan berukuran n, berupa data
diskrit gelombang suara.
Ketika mengkonversi gelombang suara ke dalam bentuk
diskrit, gelombang diperlebar dengan cara memperinci berdasarkan waktu. Hal ini
dilakukan agar proses algontma seianjutnya (pencocokan) lebih mudah diiakukan.
Namun, efek buruknya ialah array of array data yang terbentuk akan lebih
banyak.
Dari tiap elemen array data tersebut, dikonversi ke
dalam bentuk bilangan biner. Data biner tersebut yang nantinya akan
dibandingkan dengan template data suara.
Proses divide and conquer:
· Pilih sebuah angkaN, dimana N merupakan
bilangan bulat kelipatan 2.Bilangan ini berfungsi untuk menghitung jumlah
elemen transformasi FFT.
· Bagi dua data diskrit secara (dengan
menerapkan algoritma divide and conquer) menjadi data diskrit yang lebih kecii
berukuran N = N,.N2.
· Objek data dimasukkan ke dalam table (sebagai
elemen tabel).
· Untuk setiap eiemen data, dicocokkan dengan
data pada template (pada data template juga dilakukan pemrosesan digitaiisasi
menjadi data diskrit, dengan cara yang sama dengan proses digitaiisasi data
masukan bam yang ingin dicocokkan).
· Setiap upa masalah disatukan kembali dan
dianalisis secara keseluruhan, kecocokan dari segi tata bahasa dan apakah data
yang diucapkan sesuai dengan kata yang tersedia pada template data.
· Verifikasi data. Jika sesuai, proses iebih
lanjut, sesuai dengan aplikasi yang mengimplementasikan algoritma ini.
4. IMPLEMENTASI SPEECH RECOGNITION
Hardware yang dibutuhkan dalam implementasi Speech
Recognition :
· Sound card : Merupakan perangkat yang
ditambahkan dalam suatu Komputer yang fungsinya sebagai perangkat input dan
output suara untuk mengubah sinyal elektrik, menjadi analog maupun menjadi
digital.
· Microphone : Perangkat input suara yang
berfungsi untuk mengubah suara yang melewati udara, air dari benda orang
menjadi sinyal elektrik.
· Komputer atau Komputer Server : Dalam proses
suara digital menterjemahkan gelombang suara menjadi suatu simbol biasanya
menjadi suatu nomor biner yang dapat diproses lagi kemudian diidentifikasikan
dan dicocokan dengan database yang berisi berkas suara agar dapat
dikenali.
Contoh Implementasi teknologi Speech Recognition :
Saat ini pada tahun 2010 Microsoft windows vista dan
windows 7 , speech recognition telah disertakan dalam system operasinya .
sebagaimana fungsi dari speech recognition menterjemahkan pengucapan kata –
kata kedalam bentuk teks digital. Salah satu implementasi speech
recognition adalah pada konfrensi PBB dimana seluruh Negara tergabung dalam
keanggotaan nya , fungsi speech recognition dalam hal ini menterjemahkan bahasa
pembicara dari suatu Negara kedalam bahasa yang dipahami pendengar . Contoh
penggunaan lain speech recognition adalah Perawatan kesehatan.
Dalam perawatan kesehatan domain, bahkan di bangun
meningkatkan teknologi pengenalan suara, transcriptionists medis (MTs) belum
menjadi usang. Layanan yang diberikan dapat didistribusikan daripada diganti. Pengenalan
pembicaraan dapat diimplementasikan di front-end atau back-end dari proses
dokumentasi medis. Front-End SR adalah salah satu alat untuk mengidentifikasi
kata-kata yang ucapkan dan ditampilkan tepat setelah mereka berbicara Back-End
SR atau SR tangguhan adalah di mana penyedia menentukan menjadi sebuah sistem
dikte digital, dan suara yang diarahkan melalui pidato-mesin pengakuan dan
draft dokumen diakui dirutekan bersama dengan file suara yang asli ke MT /
editor, yang mengedit draft dan memfinalisasi laporan. Ditangguhkan SR sedang
banyak digunakan dalam industri saat ini.
Banyak aplikasi Electronic Medical Records (EMR)
dapat menjadi lebih efektif dan dapat dilakukan lebih mudah bila digunakan
dalam hubungannya dengan pengenalan-mesin bicara. Pencarian, query, dan
pengisian formulir semua bisa lebih cepat untuk melakukan dengan suara
dibandingkan dengan menggunakan keyboard.
SUMBER :
http://kuliah319.blogspot.com/2011/02/speech-recognition-dengan-algoritma-fft.html
http://citraanindya.blog.upi.edu/2009/06/25/tugas-artikel-300-kata/
http://kuliah319.blogspot.com/2011/02/speech-recognition-dengan-algoritma-fft.html
http://kaichitaro.blogspot.com/2010/11/speech-recognition.html
http://nda-kamal.blogspot.co.id/2011/11/speech-recognition.html
Tidak ada komentar:
Posting Komentar