Реализуемая в библиотеке технология может эффективно работать как с телерадиовещательным, так и с телефонным каналом входящих данных. Данный SDK может использоваться в качестве начального этапа обработки речевых сигналов в системах голосовой биометрии и распознавания речи.
Технология разделения по голосам включает в себя решение следующих задач:
- Определение точек смены голоса диктора;
- Определение количества дикторов;
- Определение, в каких именно фрагментах речевого сигнала говорит каждый найденный диктор.
Технология сегментации речевого потока реализована на многослойной нейронной сети (DNN – от сокр. Deep Neural Network), обученной извлекать из краткосрочной спектральной характеристики речевого сигнала признаки, характеризующие голос диктора.
Каждый такой вектор признаков называется «глубоким» вектором или d-вектором. Расстояние между двумя такими векторами будет малым, если они принадлежат одному диктору, и большим, если разным. Это свойство позволяет обнаружить точки смены говорящего, а также «объединить» фрагменты, в которых присутствует голос одного диктора.
Требование к аудио файлам:
- Кодирование: несжатый WAV-PCM, A-Law или Mu-Law;
- Квантование отсчёта: 16 бит (при кодировании «несжатый WAV-PCM»);
- Частота дискретизации: 8000 Гц;
- Тип файла: *.wav.
Преимущества
- Надёжность (за счет отсутствия необходимости взаимодействия с удаленным модулем);
- Производительность (за счет использования кэша и подгрузки кода и данных в пространство адресов приложения);
- Прозрачность системы взаимодействия;
- Легкость внесения изменений;
- Масштабируемость.