Алгоритмы распознавания казахского слова как целого


НазваниеАлгоритмы распознавания казахского слова как целого
страница1/12
Дата публикации01.10.2013
Размер1.01 Mb.
ТипДокументы
  1   2   3   4   5   6   7   8   9   ...   12

В.В.Яворский, А.Ж.Кинтонова



БЕКМАНОВА Г.Т., НИЦЕНКО А.В., ШАРИПБАЕВ А.А., ШЕЛЕПОВ В.Ю.
^

АЛГОРИТМЫ РАСПОЗНАВАНИЯ КАЗАХСКОГО СЛОВА КАК ЦЕЛОГО


(Евразийский национальный университет им. Л.Н. Гумилева, г. Астана)

В статье рассмотрена предварительная обработка речевого сигнала, а также построение системы признаков слова для распознавания слов по эталонам с помощью алгоритма DTW. Рассматривается техника построения кодовой книги и алгоритм ступенчатого распознавания. Представлена структурная классификация слов казахского языка.


^

СТРУКТУРНАЯ КЛАССИФИКАЦИЯ СЛОВ КАЗАХСКОГО ЯЗЫКА




  1. Предварительная обработка речевого сигнала


Отрезок речи, вводимый с микрофона, оцифровывается с частотой 22050 кГц. В соответствующий буфер заносится 10 тысяч чисел:

(1.1)

- значения напряжения на выходе микрофона в последовательные моменты времени (Эти моменты времени будем называть отсчетами). Сам ряд чисел (2.1.1) и соответствующую функцию

(1.2)

будем называть сигналом. Таким образом, числа (2.1.1), в конечном счете, отражают изменение давления на мембрану микрофона как функцию времени. На экран монитора может быть выведен график сигнала, как функции времени (визуализация сигнала).

Напомним, что сглаживанием сигнала мы называем обработку его 3-точечным скользящим фильтром



Дальнейшая работа происходит с поточечной разностью исходного и десятикратно сглаженного сигнала. Это позволяет в некоторой степени "очистить" его от индивидуального тембра говорящего и тем самым сделать шаг в направлении дикторонезависимости системы распознавания. Далее, если не оговорено противное, под сигналом будем понимать указанную разность и, чтобы не усложнять обозначений, считать, что (1.1) и (1.2) соответствуют именно ей.
^

2. Построение системы признаков. Представление слова


Пусть - число отсчетов между двумя соседними локальными максимумами функции (2.1.2) (назовем сужение функции на соответствующий интервал полным колебанием). Если максимумы - не строгие, то под будем понимать число отсчетов от начала первого максимума до начала второго. Определим величину z:

z=l, 2l<20,

z=20 +, 20l<50,

z=25 + , 50l<90,

z=29, l90.
Ближайшее целое число, не превосходящее z, назовем длиной соответствующего полного колебания. Таким образом, длина полного колебания учитывается тем более точно, чем оно короче. Выделим участок сигнала и обозначим через общее число полных колебаний на этом участке, через  - число полных колебаний длины 2,...,через - число полных колебаний длины 29.

Поставим в соответствие выделенному участку вектор

(2.1)

где = /, , - отношение амплитуды (разность наибольшего и наименьшего значений) рассматриваемого участка сигнала к амплитуде всего сигнала. Величина вводится для того, чтобы надежно отделить паузу от значащей части сигнала, а нормировка ее делается, чтобы отвлечься от громкости произносимого. Вектор признаков, подобный (2.1), при распознавании русских слов предложен в [1].

Разобьем записанный сигнал в 10 тысяч отсчетов на отрезки по 368 отсчетов в каждом (удвоенный квазипериод основного тона для мужского голоса средней высоты). Для каждого из 27-ми полных отрезков вычислим вектор (2.1). Последний неполный отрезок просто отбросим. В результате мы представляем сигнал в виде траектории, то есть последовательности 27-ми точек в 29-мерном пространстве:

( , ,...,).


  1. Распознавание слов по эталонам. Алгоритм DTW


К сожалению, распознавание чистых, произнесенных изолированно, звуков мало что дает для распознавания слов. Это связано с тем, что артикуляторные органы человека обладают инерцией. Их положение в данный момент в значительной степени определяется их конфигурацией в предшествующий и последующий моменты времени. Поэтому реализация звука в конкретной речевой ситуации очень сильно зависит от его окружения. Отсюда следует, что перспективен подход к распознаванию слова как целого. Вместе с тем, пофонемное распознавание, которое является более сложным, является возможным, а при распознавании больших словарей даже необходимым. Пофонемному распознаванию посвящен ряд дальнейших разделов, а сейчас мы займемся проблемой распознаванием слова как целого.

Пусть некоторая реализация слова принимается за эталон. Как изложено в предыдущем разделе, мы представляем ее в виде набора 27-ми 29-мерных векторов:

(3.1)

Такой эталон записывается для каждого из слов распознаваемого словаря.

Пусть теперь

(3.2)

- представление слова, которое подлежит распознаванию. Естественно было бы разумным образом определить расстояние между двумя наборами вида (3.1), (3.2), так, чтобы, вычислив расстояние набора (3.2) до всех эталонов, объявить результатом распознавания то слово из словаря, эталон которого является ближайшим.

Выберем для определенности за расстояние между векторами сумму модулей разностей соответствующих координат (-метрика). Тогда казалось бы естественным определить расстояние между наборами (3.1), (3.2) как сумму расстояний векторов с одинаковыми номерами. Однако, это нецелесообразно по следующей причине. На самом деле при вычислении расстояния между двумя реализациями одного и того же слова нужно было бы сравнивать между собой вектора, относящиеся к одинаковым звукам. Но темп произнесения слова может быть различным. Кроме того, он может меняться на протяжении слова. Можно сказать "Алма", а можно сказать "Алма-а".

Разрешить эту трудность помогает следующий алгоритм, восходящий к Т.К. Винцюку [2] и получивший название алгоритма Dynamic Time Warping или DTW-алгоритма (Динамическое деформирование времени). Обозначим расстояние между векторами и наборов (3.1), (3.2) через и для всех определим величину :

, , , , (3.3) .

Это определение расстояния между частью сигнала, соответствующего (3.1), от начала до -го отрезка включительно и частью сигнала, соответствующего (3.2), от начала до -го отрезка включительно. Тогда расстояние между полными сигналами определяется как . Для того, чтобы понять смысл этого определения, обозначим через ~ отношение соответствия между векторами из набора (3.1) и векторами из набора (3.2), которое определяется следующим образом:



Далее, если , то в случае, когда минимум в (2.3.3) есть , полагаем

;

если минимум есть , полагаем

;

если минимум есть , полагаем





Рис. 1 – Ломаная, описывающая соответствия между векторами
На рисунке 1 приведен пример соответствия: центры квадратов, отвечающих соответствующим векторам соединены прямолинейными отрезками. Наличию вертикального отрезка отвечает случай, когда несколько векторов набора (3.2) соответствуют одному вектору набора (3.1). Наличию горизонтального отрезка отвечает случай, когда несколько векторов набора (3.1) соответствуют одному вектору набора (3.2). DTW-расстояние между наборами (3.1) и (3.2) определяется по формуле (2.3.3) при . При этом, если, двигаясь влево и вниз, выразить это расстояние, через расстояния между векторами наборов (3.1) и (3.2), то в результате будут проссумированы только расстояния между соответствующими векторами.

Таким образом, алгоритм DTW обеспечивает выравнивание акустически наиболее близких кусков сигнала и их сравнение. Распознавание с помощью этого алгоритма сводится к вычислению DTW-расстояния исследуемого слова до всех эталонов и объявления результатом распознавания того слова словаря, эталон которого оказывается ближайшим. Отметим, что DTW-расстояние не является метрикой, ибо, как нетрудно показать, для него не выполняется неравенство треугольника.
  1   2   3   4   5   6   7   8   9   ...   12

Похожие рефераты:

Алгоритмы распознавания казахского слова как целого
Об оптимальной абсолютно линейной дискретизации решений волнового уравнения с начальными условиями из классов Соболева
С. К. Коваленко о методике дифференцированных функциональных состояний...
Метод качественных структур, изложенный в [1], как способ рассмотрения целого, предполагает возможность исследования трех различных...
Учебное пособие для студентов
Образов по цветовому описанию, геометрическим параметрам, а также по принятию решений в интеллектуальных системах. Теоретические...
Процедуры распознавания зависят от понятия расстояния между двумя...
Методы классификации распознавания образов, использующие евклидовы пространства описаний
Процедуры распознавания зависят от понятия расстояния между двумя...
Методы классификации распознавания образов, использующие евклидовы пространства описаний
Создан первый в мире мультимедийный самоучитель казахского языка
«M. A. R. I. D. I» ведущий европейский производитель профессиональных it–решений для ускоренного изучения иностранных языков презентовала...
Сарсен аманжолов основоположник казахского языкознания
В XIX веке большую роль в создании казахского литературного языка сыграли Абай и Алтынсарин. У истоков казахского языкознания стоял...
Учебное пособие для студентов специальностей н. 02. 02 «Радиофизика»
Учебное пособие предназначено для студентов и аспирантов факультета радиофизики и электроники, включает принципы организации и алгоритмы...
Гу «Средняя общеобразовательная школа №5 г. Павлодара»
Как вы понимаете слова Н. Заболоцкого? Как вы думаете, почему именно эти слова я взяла в качестве эпиграфа нашего занятия?
Ш. Уалиханов – великий ученый и просветиель казахского народа
Цель урока: а образовательная: на основе дополнительного материала раскрыть роль Ш. Ш. Уалиханова как ученого, просветителя в истории...

Вы можете разместить ссылку на наш сайт:
Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
referatdb.ru
referatdb.ru
Рефераты ДатаБаза