Алгоритмы распознавания казахского слова как целого


НазваниеАлгоритмы распознавания казахского слова как целого
страница2/12
Дата публикации01.10.2013
Размер1.01 Mb.
ТипДокументы
1   2   3   4   5   6   7   8   9   ...   12
^

4. Построение усредненных эталонов


С целью уменьшения зависимости системы распознавания от диктора нами была применена процедура усреднения эталонов, наговоренных несколькими дикторами. Пусть

(4.1)

(4.2)

два эталона одного и того же слова, причем для общности будем считать, что эталон уже получен путем усреднения эталонов, наговоренных n дикторами, а -эталон n+1-го диктора. Берем вектор и пусть - все соответствующие ему вектора из набора (4.2) в описанном выше смысле. Тогда полагаем

=+ .

Проделав это для всех i=1,2,...27, мы получим результат усреднения эталонов для n+1 дикторов:



Коэффициенты

,

введены для того, чтобы сделать всех дикторов равноправными. При этом по мере увеличения числа изменения, вносимые новыми дикторами, становятся все меньше. Та же самая процедура позволяет усреднять несколько эталонов одного диктора с целью увеличения их надежности. Эффективность этой процедуры становится особенно наглядной, если применить ее к усреднению эталонов различных слов. Так, например, она позволяет научить компьютер воспринимать каждое слово строчки

"Буря мглою небо кроет"

как символ 0, а каждое слово строчки

"Вихриснежные крутя"

как символ 1, построив для них соответствующие усредненные эталоны.
5. Кодовая книга и техника ее построения

Хранение описанных выше эталонов, содержащих произвольные вектора, требует большого количества памяти. Существенно уменьшить ее и получить в то же время значительный выигрыш в скорости распознавания позволяет использование вместо произвольных векторов сравнительно небольшого множества так называемых кодовых векторов. Эти последние используются для приближения произвольных векторов и составляют кодовую книгу. Кодовые вектора называют также словами кодовой книги.

Для построения кодовой книги размера используют так называемый метод K-средних.

1. Инициализация:

Из числа обучающих векторов произвольно выберем векторов в качестве начального множества слов кодовой книги.

2. Поиск ближайшего соседа:

Для каждого обучающего вектора найдем ближайший вектор кодовой книги. Множество обучающих векторов, "тяготеющих" в этом смысле к одному и тому же кодовому вектору, назовем соответствующей ему клеткой.

3. Модернизация с помощью центроида:

Для каждой клетки заменим соответствующий кодовый вектор центроидом (средним) множества обучающих векторов, попавших в эту клетку.

4. Итерирование:

Повторяем шаги 2 и 3 до тех пор, пока сумма расстояний всех обучающих векторов до соответствующих кодовых слов не перестанет уменьшаться более чем на величину заранее заданного порога.

Хотя описанный способ построения кодовой книги работает достаточно хорошо, было показано, что целесообразней строить кодовую книгу, шаг за шагом увеличивая ее размерность. Начинать с книги с одним кодовым вектором и последовательно удваивать число кодовых векторов, используя метод расщепления. Эта процедура носит название бинарного расщепляющего алгоритма и может быть описана следующим образом:

1. Создаем кодовую книгу из одного слова, приняв за него центроид множества всех обучающих векторов.

2. Удваиваем размер кодовой книги, расщепляя каждый кодовый вектор согласно правилу





Здесь - параметр расщепления со значением от 0,01 до 0,05.

3. Используем алгоритм K-средних, чтобы получить наилучшее множество кодовых векторов для кодовой книги удвоенного размера.

4. Повторяем шаги 2 и 3 вплоть до получения кодовой книги необходимого размера.

Очевидно, размерность кодовой книги, построенной таким образом, является степенью числа 2.

1   2   3   4   5   6   7   8   9   ...   12

Похожие рефераты:

Алгоритмы распознавания казахского слова как целого
Об оптимальной абсолютно линейной дискретизации решений волнового уравнения с начальными условиями из классов Соболева
С. К. Коваленко о методике дифференцированных функциональных состояний...
Метод качественных структур, изложенный в [1], как способ рассмотрения целого, предполагает возможность исследования трех различных...
Учебное пособие для студентов
Образов по цветовому описанию, геометрическим параметрам, а также по принятию решений в интеллектуальных системах. Теоретические...
Процедуры распознавания зависят от понятия расстояния между двумя...
Методы классификации распознавания образов, использующие евклидовы пространства описаний
Процедуры распознавания зависят от понятия расстояния между двумя...
Методы классификации распознавания образов, использующие евклидовы пространства описаний
Создан первый в мире мультимедийный самоучитель казахского языка
«M. A. R. I. D. I» ведущий европейский производитель профессиональных it–решений для ускоренного изучения иностранных языков презентовала...
Сарсен аманжолов основоположник казахского языкознания
В XIX веке большую роль в создании казахского литературного языка сыграли Абай и Алтынсарин. У истоков казахского языкознания стоял...
Учебное пособие для студентов специальностей н. 02. 02 «Радиофизика»
Учебное пособие предназначено для студентов и аспирантов факультета радиофизики и электроники, включает принципы организации и алгоритмы...
Гу «Средняя общеобразовательная школа №5 г. Павлодара»
Как вы понимаете слова Н. Заболоцкого? Как вы думаете, почему именно эти слова я взяла в качестве эпиграфа нашего занятия?
Ш. Уалиханов – великий ученый и просветиель казахского народа
Цель урока: а образовательная: на основе дополнительного материала раскрыть роль Ш. Ш. Уалиханова как ученого, просветителя в истории...

Вы можете разместить ссылку на наш сайт:
Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
referatdb.ru
referatdb.ru
Рефераты ДатаБаза