Алгоритмы распознавания казахского слова как целого


НазваниеАлгоритмы распознавания казахского слова как целого
страница3/12
Дата публикации01.10.2013
Размер1.01 Mb.
ТипДокументы
1   2   3   4   5   6   7   8   9   ...   12
^

6. О распознавателе, использующем кодовую книгу


Способ построения эталонов с использованием кодовой книги состоит в замене каждого из 27 векторов, входящих в эталон, ближайшим кодовым вектором (в смысле описанной выше метрики ). Тогда появляется возможность хранить эталон в виде последовательности номеров соответствующих кодовых векторов. Это, даже с учетом необходимости хранения кодовой книги, дает при достаточно большом словаре очень значительную экономию памяти. Далее процесс распознавания строится следующим образом. Распознаваемое слово, записывается в виде набора 27 произвольных (некодовых) векторов. Затем строится таблица расстояний этих векторов до всех векторов кодовой книги. Далее вычисляются DTW-расстояния рассматриваемого слова до всех эталонов. При этом расстояния между векторами берутся из упомянутой таблицы, а не вычисляются каждый раз как это было, когда не использовалась кодовая книга. Это требует значительно меньше времени. Таким образом, достигается очень значительный выигрыш, как в скорости распознавания, так и в объеме необходимой памяти.

^

7. Алгоритм ступенчатого распознавания


Если распознается большой словарь и число эталонов велико, то распознавание путем полного сравнения сказанного с каждым из них - процесс слишком долгий. Ускорить его, одновременно повысив надежность распознавания, позволяет предложенный нами "Алгоритм ступенчатого распознавания". Опишем его на примере словаря в 2630 наиболее употребительных русских слов. Суть его состоит в следующем. Вначале сказанное слово сравнивается со всеми эталонами на основе DTW, но при этом в распознавании участвуют только первые 2 тысячи отсчетов. Результатом является список 50-ти ближайших слов - кандидатов (это число может меняться в зависимости от объема исходного словаря. Для упомянутого словаря в 2630 слов оно, по-видимому, является оптимальным.) Далее распознавание ведется в пределах этого списка с использованием первых 4 тысячи отсчетов, в результате чего список кандидатов уменьшается вдвое. Затем то же последовательно делается для отрезков в 6 тысяч, 8 тысяч и, наконец, 10 тысяч отсчетов. К этому алгоритму, который обеспечивает более быстрое и надежное распознавание больших словарей, мы пришли следующим образом. Вначале была сделана система, которая работала с голосовым вводом при предварительном выделении достаточно короткого отрезка распознаваемого словаря путем набора на клавиатуре одного, двух или трех начальных символов вводимого слова. Убедившись в высокой надежности такого способа, мы обратили внимание, что при этом распознаются близкие слова (слова с похожим началом). Распознавание же слов с различным началом должно быть еще более надежным и для выделения этого начала достаточно распознавание на укороченном начальном отрезке.
8. Структурная классификация слов казахского языка

В этом параграфе приводятся некоторые установленные нами факты, статистического характера о структуре казахских слов. Они, как нам кажется, интересны сами по себе и, кроме того, могут служить для обоснования использования обобщенных транскрипций. Первоначальные результаты такого сорта для русского языка [3] получены при участии Е.Е. Федорова.

Разобьем все символы казахского алфавита на несколько естественных классов

0) аұыоеәүіөу

1) бвгғджзйлмнңр (8.1)

2) сш

3) кқптфх

Нулевой – гласные плюс согласный «У», при произнении которого голосовой тракт остается открытым; первый – голосовые согласные; второй – глухие шипящие согласные; третий – глухие согласные, которые при произношении выступают как пауза в слове. Пусть далее есть достаточно большой словарь казахских слов. Сейчас у нас это будет словарь начальных форм объемом 41791 слово. Разметим его, заменяя каждый символ номером его класса. Вот отрезок размеченного таким образом словаря:

iз 01

iзбасар 0110201

iзденушi 01101020

iздестiру 011023010

iздеу 01100

iздеуiш 0110002

iлiкпес 0103302

iлiм 0101

Про слова с одинаковой разметкой будем говорить, что они имеют одинаковую структуру. Таким образом, структура – это некая модель чередования гласных, согласных, шипящих и т. д. Оказывается, что в казахском языке слов с одинаковой структурой относительно мало. Вот, например, все слова со структурой 01102301:

алжасқан 01102301

алмастыр 01102301

ойластыр 01102301

үндескен 01102301

алдаспан 01102301

А вот все слова со структурой 01010130:

ағарыңқы 01010130

амазонка 01010130

ұғыныңқы 01010130

И так далее. Максимальное число слов с одинаковой структурой 10101 равно 201, то есть около 0,5 процента. Причем это фактически исключительный случай. Все остальные структуры содержат значительно меньше слов. Это доказано нами с помощью программы, которая автоматически делает разметку и выбор слов с одинаковой структурой. Причем выбор классов (8.1) можно менять.

1   2   3   4   5   6   7   8   9   ...   12

Похожие рефераты:

Алгоритмы распознавания казахского слова как целого
Об оптимальной абсолютно линейной дискретизации решений волнового уравнения с начальными условиями из классов Соболева
С. К. Коваленко о методике дифференцированных функциональных состояний...
Метод качественных структур, изложенный в [1], как способ рассмотрения целого, предполагает возможность исследования трех различных...
Учебное пособие для студентов
Образов по цветовому описанию, геометрическим параметрам, а также по принятию решений в интеллектуальных системах. Теоретические...
Процедуры распознавания зависят от понятия расстояния между двумя...
Методы классификации распознавания образов, использующие евклидовы пространства описаний
Процедуры распознавания зависят от понятия расстояния между двумя...
Методы классификации распознавания образов, использующие евклидовы пространства описаний
Создан первый в мире мультимедийный самоучитель казахского языка
«M. A. R. I. D. I» ведущий европейский производитель профессиональных it–решений для ускоренного изучения иностранных языков презентовала...
Сарсен аманжолов основоположник казахского языкознания
В XIX веке большую роль в создании казахского литературного языка сыграли Абай и Алтынсарин. У истоков казахского языкознания стоял...
Учебное пособие для студентов специальностей н. 02. 02 «Радиофизика»
Учебное пособие предназначено для студентов и аспирантов факультета радиофизики и электроники, включает принципы организации и алгоритмы...
Гу «Средняя общеобразовательная школа №5 г. Павлодара»
Как вы понимаете слова Н. Заболоцкого? Как вы думаете, почему именно эти слова я взяла в качестве эпиграфа нашего занятия?
Ш. Уалиханов – великий ученый и просветиель казахского народа
Цель урока: а образовательная: на основе дополнительного материала раскрыть роль Ш. Ш. Уалиханова как ученого, просветителя в истории...

Вы можете разместить ссылку на наш сайт:
Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
referatdb.ru
referatdb.ru
Рефераты ДатаБаза