DOI: https://doi.org/10.20535/SRIT.2308-8893.2019.4.08

Порівняння ефективності класифікаторів машинного навчання у контексті голосової біометрії

Valery Ya. Danilov, Yaroslav G. Grushko

Анотація


Порівняно сім популярних класифікаторів Python-біблотеки scikit-learn у контексті ефективності роботи системи голосової біометрії. Для виділення векторів ознак голосу особи, що верифікується, застосовано метод MFCCs (Mel Frequency Cepstral Coefficients). У дослідженні використано такі класифікатори: K-NN (K-Nearest neighbours classifier), MLP (Multilayer perceptron), SVM (Support vector machine), DTC (Decision tree classifier), GNB (Gaussian Naive Bayes classifier), ABC (AdaBoost classifier), RFC (Random forest classifier). Як аналізовану вибірку взято голосові зразки 40 осіб тривалістю в середньому дев’ять хвилин на особу. Критерії ефективності класифікаторів вибрано відповідно до потреб систем голосової біометрії. У межах роботи виконано моделювання шахрайства у процесі аутентифікації. Найефективнішим у голосовому розпізнаванні виявився класифікатор K-NN, який за нульової кількості неправильно допущених осіб, забезпечив на 3–85% вищу точність верифікації, ніж інші класифікатори.

Ключові слова


голосова біометрія; MFCC; порівняння класифікаторів; к-найближчих сусідів; машинне навчання; штучний інтелект

Повний текст:

PDF

Посилання


Pindrop 2018 voice intelligence report. — Available at: https://www.pindrop.com/2018-voice-intelligence-report/ (accessed: 11.11.2019).

Classifier comparison. — Available at: https://scikit-learn.org/stable/auto_examples/ classification/plot_classifier_comparison.html (accessed: 11.11.2019).

Zakharov V. Tendentsiyi vykorystannja v dijal'nosti pravookhoronnykh orhaniv biometrychnykh tekhnolohij, jaki ne vkhodjat' do "tr'okh velykykh biometryk" / V. Zakharov, O. Zachek // Nauk. visn. L'viv. derzh. un-tu vnutrishnikh sprav. Serija jurydychna. — 2015. — № 2. — S. 285–291.

Kumchenko Ju.O. Informatsijna tekhnolohija identyfikatsiyi personalu na osnovi kompleksu biometrychnykh parametriv : dys. … kand. tekhn. nauk: 05.13.06 / Ju.O. Kumchenko. — Herson, 2017. — 129 s.

Mjasishchev O. Holosove keruvannja viddalenymy prystrojamy cherez merezhu internet / O. Mjasishchev, I. Muljar // Zb. nauk. pr. Vijs'k. in-tu Kyyiv. nats. un-tu imeni Tarasa Shevchenka. — 2017. — № 55. — S. 62–71.

Shcherbakov Ye.Ju. Zastosuvannja matematychnykh modelej dlja holosovoyi identyfikatsiyi sub’yektiv u sferi finansovoyi bezpeky / Ye.Ju. Shcherbakov // Nejronechitki tekhnolohiyi modeljuvannja v ekonomitsi. — 2017. — № 6. — S. 158–190.

Shah H.N.M. Biometric Voice Recognition in Security System / H.N.M. Shah, M.Z. Ab Rashid // Indian Journal of Science and Technology. — 2014. — Vol. 7, N 1. — P. 104–112.

An Overview and Analysis of Voice Authentication Methods. — Available at: https://www.semanticscholar.org/paper/An-Overview-and-Analysis-of-Voice-Authentication-Shoup-Talkar/572af444f0382b8e7e156ab36192da95a3b8dec4 (accessed: 11.11.2019).

Dejavu: Audio Fingerprinting and Recognition in Python. Available at: https://github.com/ worldveil/dejavu (accessed: 11.11.2019).

Martinez J. Speaker recognition using Mel frequency Cepstral Coefficients (MFCC) and Vector quantization (VQ) techniques / J. Martinez, H. Perez, E. Escamilla // CONIELECOMP 2012, 22nd International Conference on Electrical Communications and Computers. — 2012. — N 1. — P. 248–251. — DOI: 10.1109/CONIELECOMP.2012.6189918

Kelly A. The Effects of Windowing on the Calculation of MFCCs for Different Types of Speech Sounds / A. Kelly, C. Gobl // Advances in Nonlinear Speech Processing. NOLISP 2011. — Vol. 7015. — 2011.

Welcome to python_speech_features’s documentation! — Available at: https://python-speech-features.readthedocs.io/en/latest/ (accessed: 11.11. 2019).

Mel frequency cepstral coefficient (mfcc) tutorial.— Available at: http://www.practicalcryptography.com/miscellaneous/machine-learning/guide-mel-frequency-cepstral-coefficients-mfccs/ (accessed: 11.11.2019).

Open Speech and Language Resources. — Available at: http://www.openslr.org/12 (accessed: 11.11.2019).


Пристатейна бібліографія ГОСТ


1. Pindrop 2018 voice intelligence report. — Available at: https://www.pindrop.com/2018-voice-intelligence-report/ (accessed: 11.11.2019).

2. Classifier comparison. — Available at: https://scikit-learn.org/stable/auto_examples/ classification/plot_classifier_comparison.html (accessed: 11.11.2019).

3. Захаров В. Тенденції використання в діяльності правоохоронних органів біометричних технологій, які не входять до "трьох великих біометрик" / В. Захаров, О. Зачек // Наук. вісн. Львів. держ. ун-ту внутрішніх справ. Серія юридична. — 2015. — № 2. — С. 285–291.

4. Кумченко Ю.О. Інформаційна технологія ідентифікації персоналу на основі комплексу біометричних параметрів : дис. … канд. техн. наук: 05.13.06 / Ю.О. Кумченко. — Херсон, 2017. — 129 с.

5. Мясіщев О. Голосове керування віддаленими пристроями через мережу інтернет / О. Мясіщев, І. Муляр // Зб. наук. пр. Військ. ін-ту Київ. нац. ун-ту імені Тараса Шевченка. — 2017. — № 55. — С. 62–71.

6. Щербаков Є.Ю. Застосування математичних моделей для голосової ідентифікації суб’єктів у сфері фінансової безпеки / Є.Ю. Щербаков // Нейронечіткі технології моделювання в економіці. — 2017. — № 6. — С. 158–190.

7. Shah H.N.M. Biometric Voice Recognition in Security System / H.N.M. Shah, M.Z. Ab Rashid // Indian Journal of Science and Technology. — 2014. — Vol. 7, N 1. — P. 104–112.

8. An Overview and Analysis of Voice Authentication Methods. — Available at: https://www.semanticscholar.org/paper/An-Overview-and-Analysis-of-Voice-Authentication-Shoup-Talkar/572af444f0382b8e7e156ab36192da95a3b8dec4 (accessed: 11.11.2019).

9. Dejavu: Audio Fingerprinting and Recognition in Python. Available at: https://github.com/ worldveil/dejavu (accessed: 11.11.2019).

10. Martinez J. Speaker recognition using Mel frequency Cepstral Coefficients (MFCC) and Vector quantization (VQ) techniques / J. Martinez, H. Perez, E. Escamilla // CONIELECOMP 2012, 22nd International Conference on Electrical Communications and Computers. — 2012. — N 1. — P. 248–251. — DOI: 10.1109/CONIELECOMP.2012.6189918

11. Kelly A. The Effects of Windowing on the Calculation of MFCCs for Different Types of Speech Sounds / A. Kelly, C. Gobl // Advances in Nonlinear Speech Processing. NOLISP 2011. — Vol. 7015. — 2011.

12. Welcome to python_speech_features’s documentation! — Available at: https://python-speech-features.readthedocs.io/en/latest/ (accessed: 11.11. 2019).

13. Mel frequency cepstral coefficient (mfcc) tutorial.— Available at: http://www.practicalcryptography.com/miscellaneous/machine-learning/guide-mel-frequency-cepstral-coefficients-mfccs/ (accessed: 11.11.2019).

14. Open Speech and Language Resources. — Available at: http://www.openslr.org/12 (accessed: 11.11.2019).