ДОСЛІДЖЕННЯ ЕФЕКТИВНОСТІ ОЗНАК РОЗПІЗНАВАННЯ МОВЦІВ ПРИ ВИКОРИСТАННІ ЗАГОРТАЛЬНИХ НЕЙРОМЕРЕЖ
Ключові слова:
автоматизована система розпізнавання мовців критичного застосування, розпізнавання образів, цифрова обробка сигналів, кепстральний аналіз, згортальна нейромережаАнотація
У статті автори навели результати дослідження ефективності спектральних ознак для прийняття рішень автоматизованою системою розпізнавання мовців критичного застосування із згортальним нейромережевим класифікатором глибокого навчання, використання якого зумовило представлення інформативних ознак у графічному вигляді.
Посилання
1. Critical system — Wikipedia [Електронний ресурс] — Режим доступу : https://en.wikipedia.org/wiki/Critical_system.
2. Биков М. М. Аналіз ефективності ідентифікації мовця за частотою основного тону /
М. М. Биков, В. В. Ковтун. — Вісник Хмельницького національного університету. — 2004. — № 2. — Ч.1. — Т. 2 (60). — С. 20—23.
3. Рабинер Л. Цифровая обработка речевых сигналов / Л. Рабинер, Р. Шафер. — М. : Радио и связь, 1981. — 496 с.
4. Hermansky H. RASTA processing of speech / H. Hermansky, N. Morgan. — IEEE Trans. Speech and Audio Processing. — 1994. — 2, N 6. — P. 578—589.
5. Hermansky H. Perceptual Linear Prediction (PLP) analysis of speech / H. Hermansky. — J. Acoust. Soc. America. — 1990. — 87. — P. 1738—1753.
6. rasta-plp speech analysis — ICSI [Електронний ресурс] — Режим доступу : http://www.icsi.berkeley.edu/pubs/techreports/tr-91-069.pdf.
7. Perceptual Linear Predictive (PLP) Analysis of Speech [Електронний ресурс] — Режим доступу : http://seed.ucsd.edu/mediawiki/images/5/5c/PLP.pdf
8. CS231n: Convolutional Neural Networks for Visual Recognition [Електронний ресурс] —
Режим доступу: http://cs231n.github.io/convolutional-networks/
9. Caffe | Deep Learning Framework [Електронний ресурс] — Режим доступу: http://caffe.berkeleyvision.org/.
10. An overview of gradient descent optimization algorithms [Електронний ресурс] —
Режим доступу: http://sebastianruder.com/optimizing-gradient-descent/.
11. NOIZEUS: Noisy speech corpus - Univ. Texas-Dallas [Електронний ресурс] — Режим доступу: http://ecs.utdallas.edu/loizou/speech/noizeus/.
=============REFERENCES================
1. Critical system — Wikipedia [Yelektronniy resurs] — Rezhim dostupu: https://en.wikipedia.org/wiki/Critical_system.
2. Bikov M. M. Analíz yefektivností ídentifíkatsíí̈ movtsya za chastotoyu osnovnogo tonu /
M. M. Bikov, V. V. Kovtun. — Vísnik Khmel'nits'kogo natsíonal'nogo uníversitetu. — 2004. —
№ 2. — CH.1. — T.2(60). — S. 20—23.
3. Rabiner L. Tsifrovaya obrabotka rechevykh signalov / L. Rabiner, R. Shafer. — M. : Radio i svyaz', 1981. — 496 s.
4. Hermansky H. RASTA processing of speech / H. Hermansky, N. Morgan. — IEEE Trans. Speech and Audio Processing. — 1994. — 2, N 6. — P. 578—589.
5. Hermansky H. Perceptual Linear Prediction (PLP) analysis of speech / H. Hermansky. — J. Acoust. Soc. America. — 1990. — 87. — P. 1738—1753.
6. rasta-plp speech analysis — ICSI [Yelektronniy resurs] — Rezhim dostupu: http://www.icsi.berkeley.edu/pubs/techreports/tr-91-069.pdf.
7. Perceptual Linear Predictive (PLP) Analysis of Speech [Yelektronniy resurs] — Rezhim dostupu: http://seed.ucsd.edu/mediawiki/images/5/5c/PLP.pdf
8. CS231n: Convolutional Neural Networks for Visual Recognition [Yelektronniy resurs] — Rezhim dostupu: http://cs231n.github.io/convolutional-networks/
9. Caffe | Deep Learning Framework [Yelektronniy resurs] — Rezhim dostupu: http://caffe.berkeleyvision.org/.
10. An overview of gradient descent optimization algorithms [Yelektronniy resurs] — Rezhim dostupu: http://sebastianruder.com/optimizing-gradient-descent/.
11. NOIZEUS: Noisy speech corpus — Univ. Texas-Dallas [Yelektronniy resurs] — Rezhim dostupu: http://ecs.utdallas.edu/loizou/speech/noizeus/.
2. Биков М. М. Аналіз ефективності ідентифікації мовця за частотою основного тону /
М. М. Биков, В. В. Ковтун. — Вісник Хмельницького національного університету. — 2004. — № 2. — Ч.1. — Т. 2 (60). — С. 20—23.
3. Рабинер Л. Цифровая обработка речевых сигналов / Л. Рабинер, Р. Шафер. — М. : Радио и связь, 1981. — 496 с.
4. Hermansky H. RASTA processing of speech / H. Hermansky, N. Morgan. — IEEE Trans. Speech and Audio Processing. — 1994. — 2, N 6. — P. 578—589.
5. Hermansky H. Perceptual Linear Prediction (PLP) analysis of speech / H. Hermansky. — J. Acoust. Soc. America. — 1990. — 87. — P. 1738—1753.
6. rasta-plp speech analysis — ICSI [Електронний ресурс] — Режим доступу : http://www.icsi.berkeley.edu/pubs/techreports/tr-91-069.pdf.
7. Perceptual Linear Predictive (PLP) Analysis of Speech [Електронний ресурс] — Режим доступу : http://seed.ucsd.edu/mediawiki/images/5/5c/PLP.pdf
8. CS231n: Convolutional Neural Networks for Visual Recognition [Електронний ресурс] —
Режим доступу: http://cs231n.github.io/convolutional-networks/
9. Caffe | Deep Learning Framework [Електронний ресурс] — Режим доступу: http://caffe.berkeleyvision.org/.
10. An overview of gradient descent optimization algorithms [Електронний ресурс] —
Режим доступу: http://sebastianruder.com/optimizing-gradient-descent/.
11. NOIZEUS: Noisy speech corpus - Univ. Texas-Dallas [Електронний ресурс] — Режим доступу: http://ecs.utdallas.edu/loizou/speech/noizeus/.
=============REFERENCES================
1. Critical system — Wikipedia [Yelektronniy resurs] — Rezhim dostupu: https://en.wikipedia.org/wiki/Critical_system.
2. Bikov M. M. Analíz yefektivností ídentifíkatsíí̈ movtsya za chastotoyu osnovnogo tonu /
M. M. Bikov, V. V. Kovtun. — Vísnik Khmel'nits'kogo natsíonal'nogo uníversitetu. — 2004. —
№ 2. — CH.1. — T.2(60). — S. 20—23.
3. Rabiner L. Tsifrovaya obrabotka rechevykh signalov / L. Rabiner, R. Shafer. — M. : Radio i svyaz', 1981. — 496 s.
4. Hermansky H. RASTA processing of speech / H. Hermansky, N. Morgan. — IEEE Trans. Speech and Audio Processing. — 1994. — 2, N 6. — P. 578—589.
5. Hermansky H. Perceptual Linear Prediction (PLP) analysis of speech / H. Hermansky. — J. Acoust. Soc. America. — 1990. — 87. — P. 1738—1753.
6. rasta-plp speech analysis — ICSI [Yelektronniy resurs] — Rezhim dostupu: http://www.icsi.berkeley.edu/pubs/techreports/tr-91-069.pdf.
7. Perceptual Linear Predictive (PLP) Analysis of Speech [Yelektronniy resurs] — Rezhim dostupu: http://seed.ucsd.edu/mediawiki/images/5/5c/PLP.pdf
8. CS231n: Convolutional Neural Networks for Visual Recognition [Yelektronniy resurs] — Rezhim dostupu: http://cs231n.github.io/convolutional-networks/
9. Caffe | Deep Learning Framework [Yelektronniy resurs] — Rezhim dostupu: http://caffe.berkeleyvision.org/.
10. An overview of gradient descent optimization algorithms [Yelektronniy resurs] — Rezhim dostupu: http://sebastianruder.com/optimizing-gradient-descent/.
11. NOIZEUS: Noisy speech corpus — Univ. Texas-Dallas [Yelektronniy resurs] — Rezhim dostupu: http://ecs.utdallas.edu/loizou/speech/noizeus/.
##submission.downloads##
-
PDF
Завантажень: 312
Переглядів анотації: 283
Опубліковано
2017-04-13
Як цитувати
[1]
М. М. Биков і В. В. Ковтун, «ДОСЛІДЖЕННЯ ЕФЕКТИВНОСТІ ОЗНАК РОЗПІЗНАВАННЯ МОВЦІВ ПРИ ВИКОРИСТАННІ ЗАГОРТАЛЬНИХ НЕЙРОМЕРЕЖ», Опт-ел. інф-енерг. техн., вип. 32, вип. 2, с. 22–28, Квіт 2017.
Номер
Розділ
Системи технічного зору і штучного інтелекту з обробкою та розпізнаванням зображень
Ліцензія
Автори, які публікуються у цьому журналі, погоджуються з наступними умовами:- Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
- Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
- Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису роботи, як до подання цього рукопису до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).