Алгоритмы распознавания казахского слова как целого


НазваниеАлгоритмы распознавания казахского слова как целого
страница11/12
Дата публикации01.10.2013
Размер1.01 Mb.
ТипДокументы
1   ...   4   5   6   7   8   9   10   11   12

Деректер қоймасы тұжырымы. Экономиканың түрлі салаларының дамуы олардың жұмысына қажет маңызды ақпаратты сақтауға арналған үлкен интеграцияланған деректер қоймасын құруды талап етеді. Сондықтан басқару мен бизнесті дамытудың басты құралы ретінде деректер қоймасы бүгінгі таңда өзіне көңіл аударып отыр.

Деректер базасы технологиясының дамуындағы жаңа бағыттың негізін қалаушы, деректер қоймасы тұжырымының авторы Уильям Инмон 1990 жылы деректер қоймасын жедел талдау мен шешім қабылдауға қажетті «біртұтас және жалғыз» шынайы ақпаратпен менеджерлер мен аналитиктерді қамтамасыз ететін «пәнге бағытталған, интеграцияланған, өзгермейтін, хронологияны қолдайтын, басқаруды қолдау мақсатында ұйымдастырылған деректер жинағы» деп классикалық анықтама берді [1].

Уильям Инмон деректер қоймасының келесі қасиеттерін (құрылымын) анықтады:

  • пәнге бағытталуы – қоймада талдауға және шешім жасауға қажетті деректер ғана сақталады;

  • деректердің интеграциялануы – әр түрлі уақытта әр түрлі әзірлеу құралдары арқылы әртүрлі құрушылардың ұжымдары жасаған деректер базаларындағы мәнісі бір объектілердің атаулары мен өлшем бірліктерінің әртүрлі болу мәселесін шешеді;

  • уақыт ішіндегі инварианттылық – деректердің қатаң және біртипті хронологиясын қолдау;

  • бұзылмауы – ақпараттың тұрақтылығы – қоймаға деректер тек жүктеледі және оқылады. Бұл мына екі мәселені шешеді: бір рет жазылған деректер өз актуальдылығын әрқашан сақтайды және деректерге қатынау жылдамдығы артады;

  • ақпарат артықтығын минимизациялау – қоймада тек қажетті ақпарат қана болады.

Деректер қоймасы тұжырымы – бұл корпоративті ақпаратты жүйелерді құрудың архитектурасы. Ол ұйымдастырылуы мен орналасу жағынан үлестірілген, ал олардың талдауы шешім қабылдауға ықпал ететін, қажетті деректерге түпкі қолданушылардың тікелей бірыңғай қатынауды қажет етуінің нәтижесінде дамыды [2].

Деректер қоймасы тұжырымының негізінде екі басты идея жатыр:

1) нақтыланған (нақты фактілер, оқиғалар, қасиеттерді т.б. сипаттайтын) түрдегі бөлек орналасқан деректерді біртұтас қоймаға интеграциялау. Процесс барысында келісілмеген деректердің келісілуі, агрегация орындалады. Деректер қоймаға корпорацияның тарихи архивтерінен, жедел деректер базаларынан, сырты ақпарат көздерінен түсуі мүмкін.

2) жедел өңдеуге және талдау есебін шешуге арналған деректер жинағы мен қолданбаларды бір-бірінен ажырату.

Осы тұрғыдан басты мәселе – басқарудың күрделі объектісін біртұтас интеграцияланған түрде қарастыруды, ол туралы жиналған мәліметтерге кешенді талдау жасауды, үлкен көлемді нақты деректердің ішінен пайдалы ақпаратты алуды қамтамасыз ету болып табылады.

Деректер қоймасы пәнге бағытталғандықтан оның ұйымдастырылуы бизнес процестерді автаматтандыруға емес, ақпаратты талдауға арналады. Бұл қасиет оның құрылу архитектурасын анықтайды [3].

Деректер қоймасы деректер жинағының уақытына тәуелді немесе тарихи деректерді сақтайды. Ол шешім қабылдауды қолдауға арналған, оның қолданушылары – банктің жоғары және орта менеджменті, аналитиктер, қаржылық талдау мен маркетинг бөлімдерінің өкілдері және т.б. Жинақталған ақпарат негізінде басқарудың шешімін қабылдауды қолдау үш негізгі салада іске асады [4]:

  1. ^ Нақтыланған деректер саласы. Бұл – ақпаратты іздеуге арналған көпшілік транзакциялық жүйелердің (OLTP) әрекет ету саласы. Көп жағдайда реляциялық ДББЖ мұндағы міндеттерді жақсы шеше алады.

  2. ^ Агрегацияланған көрсеткіштер саласы. Деректер қоймасына жиналған ақпаратқа кешенді көзқарас, оны жалпылау және агрегациялау, гиперкубтық бейнелеу, көпөлшемді талдау – деректерді жедел аналитикалық өңдеу жүйелерінің (OLAP) міндеттері болып табылады.

  3. ^ Заңдылықтар саласы. Деректерді интеллектуальды талдаудың әдістері (Data Mining) арқылы деректерді интеллектуальды талдау мен өңдеу орындалады, жиналған ақпараттан функциональды және логикалық заңдылықтарды іздеу, қарастыратын процестердің дамуын түсіндіру немесе болжам жасау үшін модельдер мен ережелер құру міндеттері қойылады.

Деректер қоймасындағы барлық деректер үш категорияға бөлінеді: метадеректер, нақты деректер, агрегацияланған деректер [5]:

^ Деректер қоймасының негізгі компоненттері:

  • Аралық қабаттың программалық қамтамасы – желілік қатынау мен деректер базаларына қатынауды қамтамасыз етеді. Бұларға желілік және коммуникациялық хаттамалар, драйверлер, хабарлармен алмасу жүйелері және т.б. жатады.

  • ^ Транзакциялық деректер базалары және сыртқы ақпарат көздері.

  • Деректерге қатынау деңгейлері – бұған жататын программалық қамтамалар түпкі қолданушылардың деректер қоймасымен қатынасын және транзакциялық жүйелерден керек деректерді жүктеуді қамтамасыз етеді. Әмбебап қатынау тілі ретінде SQL қолданылады.

  • ^ Жүктеу және алдын-ала өңдеу – бұл деңгей OLTP-жүйелер мен сыртқы көздерден деректерді жүктеуге арналған құралдардан тұрады. Деректер тазалығы тексеріледі, консолидация, форматтау, фильтрация және т.б. өңдеулер қоса жүргізіледі.

  • ^ Ақпараттық қойма бүкіл жүйенің ядросы, яғни деректер базаларының бір немесе бірнеше серверінен тұрады.

  • Метадеректер (репозиторий, «деректер туралы деректер») – бастапқы деректердің көздері, бастапқы деректерді өңдейтін алгоритмдер және т.б. туралы мәліметтерден тұратын анықтама қызметін атқарады.

  • ^ Ақпараттық қатынау деңгейі – деректер қоймасының деректерімен қолданушының тікелей қатынасын манипуляциялаудың, талдаудың және бейнелеудің стандартты жүйелері (MS Excel, MS Access, Lotus 1-2-3 және т.б.) арқылы қамтамасыз етеді.

  • ^ Басқару деңгейі (әкімшілік ету) – деректер қоймасын жаңартуға немесе оның күйін қолдауға арналған процедуралардың орындалуы қадағаланады.

Деректерді интеграциялаудың мәселелері

  • Программалық ортаның әртекті болуы;

  • Үлестірілген түрде ұйымдастырылуы;

  • Деректердің қауіпсіздігіне жоғары талаптар қойылуы;

  • Көпдеңгейлі метадеректер анықтамалықтарын қажет етуі;

  • Аса үлкен көлемді ақпаратты тиімді сақтау мен өңдеу қажеттілігі.

Деректер қоймасы мен витриналарының жүзеге асуының түрлері:

  • Виртуальды деректер қоймасы – оның негізі – ақпарат көздерін сипаттайтын метадеректер репозиторийі, SQL-сұратулар.

  • ^ Деректер витринасы (Data Mart, киоск) – бұл корпорация әрекетінің жеке аспектілеріне қатысты ақпараттары бар, тақырыбы бойынша байланысқан деректер базалары. Деректер витринасы – тақырып бойынша біріктірілген деректерден тұратын деректер қоймасының жеңілдетілген, көлемі шағын түрі. Көп ретте витринаға деректер деректер қоймасынан алынғандықтан, витринада тазалау, унификация, денормализация құралдары сирек қолданылады. Деректер қоймасынан айырмашылығы, мұнда қолданушы өз деректерінің құрылымын жасай алады [5].

  • ^ Кең ауқымды деректер қоймасы. Соңғы кезде деректер қоймасы мен витриналарының тұжырымдарын біріктіру, яғни деректер қоймасын барлық деректер витриналары үшін жалғыз интеграцияланған деректер көзі ретінде қолдану идеясы кең етек алып келеді.

  • ^ Деректер қоймасының көпдеңгейлі архитектурасы. Бірінші деңгейде қазіргі заманғы реляциялық ДББЖ негізінде нақтыланған интеграцияланған деректерден тұратын корпоративті деректер қоймасы іске асады. Екінші деңгейде көпөлшемді ДББЖ негізінде (мысалы, Oracle Express Server) деректер витриналары қолдау табады. Олар деректер қоймасына жасалған сілтемелерден тұруы мүмкін және сұратулардың түсуіне байланысты ақпаратпен толығып отырады. Үшінші деңгейде түпкі қолданушылардың деректерді жедел талдау құралдары орнатылған клиенттік жұмыс орындары болады.

Вон Кимнің [6] айтуынша қазіргі заманғы деректер қоймасының үш басты кемшілігі бар:

  1. «лас» деректерді өңдеудің қанағаттанарлықсыз болуы;

  2. деректер қоймасына енгізу үшін деректер көздерін таңдаудың қанағаттанарлықсыз болуы;

  3. сканерлеуге негізделген операцияларды орындаудағы өнімділік пен масштабтылықтың қанағаттанарлықсыз болуы.

Деректерді талдау және оның соңынан шешім қабылдау тұрғысынан аса көңіл аударатын деректер қоймасын қолданудағы осал жер – ол оған енгізілетін деректердің келісушілігі мен дұрыс болуы. Алайда, әдетте деректер қоймасын құрғанда оған түсетін деректерді тазалауға көп көңіл бөліне бермейді. Бұл қойманың келісілмеген, қате деректермен «ластануын» тудырады. Мысалы, орфографиялық қателері бар, дұрыс емес форматтағы, толық емес немесе керексіз деректер, кетіп қалған немесе жоқ адамдар туралы сақталған деректер және т.б. Ал ақпаратты тазалау қажет, себебі олар әр текті болады және әртүрлі ақпарат көздерінен түседі. Кез келген күрделі жүйеде ақпаратты жинау барысында деректердің келіспеушілігі, енгізу қатесі немесе жаңылысулар болады. Деректер қоймасын толтыру барысында деректердің сапасына әсер ететін қателердің пайда болуының себептерін былайша топтауға болады:

  • қарама-қайшылықты ақпарат;

  • деректердің қалып кетуі;

  • аномальды мәндер;

  • деректерді енгізу қателері.

Осыған байланысты деректер қоймасын құрудың әдебиеттерде [6-7] қарастырылған келесі мәселелерін атауға болады:





  • Ақпараттың қарама-қайшылықты болуы. Бұл мәселені шешу үшін ненің қарама-қайшылық деп саналатынын анықтап, қарама-қайшылығы бар жазбаларды түзету, кейде жою әрекеттері орындалады.

  • Деректердің қалып кетуі де, әсіресе болжам жасау әдістерін қолданған кезде – маңызды мәселенің бірі. Бұл мәселені шешу үшін реттелген деректерге аппроксимация (жоқ нүктенің айналасы қарастырылып, формуламен осы нүктедегі мән есептелінеді) және неғұрлым ұқсас мәнді анықтау (барлық дерек қарастырылады) әдістері қолданылады.

  • ^ Аномальды мәндер. Кейде деректер ішінде қалғандарынан аса қатты ауытқитын мәндері бар деректің болу оқиғасы орын алады, бұл мәселені робастты бағалау әдісімен шешеді. Шектен шыққан мәндер не жойылады, не жақын деген шекарлық мәнмен алмастырылады.

  • Шулар. Деректерді талдау кезінде шулар кезігеді, оларда ешқандай пайдалы ақпарат жоқ. Шуларды жою үшін спектральды талдау, авторегрессиялық әдістер қолданылады.

  • ^ Деректерді енгізу қателері. Бұл типтегі қателердің саны аса көп. Бұл мәселені шешу үшін де деректерді енгізу алдына форматын тексеру, тезаурус арқылы тексеру және т.б. сыналған әдістері баршылық.

Бұл мәселелердің әрқайсысын шешудің, сондай-ақ «лас» деректерден арылудың сыналған әдістері бар. «Лас» деректер деректер қоймасының үлкен мәселесі болып табылады. Сондықтан деректерді фильтрациялау механизмі деректер қоймасының маңызды атрибуты болуы тиіс. Қазіргі кезде деректерді тазалаудың құралдары (Vality/Ascential Software, Trillium Software, First Logic компанияларының өнімдері) автоматты түрде кейбір маңызды деректер типтерін, соның ішінде кісі аттары мен адрестерін ұлттық каталогтарды қолданып түзете алады.

  • ^ Деректер көздерін таңдау мәселесі. Деректер қоймасын құрғанға дейін онда сақталуы тиіс дерекер үшін мүмкін болатын барлық сұратуларды анықтау қиын есеп. Бұл мәселе жұмыс барысында біртіндеп түскен сұратуларды тіркеу арқылы шешіледі және қажет деректер ғана сақталуы тиіс.

  • Өнімділік пен масштабтылық мәселелері. Реляциялық деректер базаларындағы (РДБ) хэштеу негізіндегі индекстер мен B+-бұтақтар сияқты түрлі қатынау әдістері бүкіл кестені сканерлемей-ақ шағын термелеу жасауға мүмкіндік береді. Бұл әдістер нәтиже шағын кесте түрінде болса ғана аса тиімді. Ал баған мәндері жиі өзгерсе, қатынау әдістерін де жиі өзгертуге тура келеді. Бұдан басқа РДБ жүйелерінің қатынау әдістерінің агрегация (кесте жолдарын топтап, оларға агрегаттық функцияны қолдану) және файлдарды ауыстыру (файлдарды тұтас оқу/жазу) сияқты операциялардың екі тобына күші келмейді. Агрегация операцияларын орындау кезіндегі өнімділік пен масштабтылық мәселесін шешуге MaxScan и Ab Initio өнімдері арналған. Файлдарды ауыстыру операциясы деректер қоймасын жасағанда деректерді түрлендіру кезінде және деректерді дайындау кезеңінде деректер көзінен автоматты түрде деректерді алу үшін маңызды болып табылады.

Қорытынды

Деректер қоймасының технологиясы үлкен көлемді деректерді өңдеуге, талдауға және шешім жасауда сапалы нәтижелер алуға мүмкіндік береді.

Деректер қоймасын құру кезінде басты көңіл бөлуді талап ететін үш мәселе бар: деректердің сапасы, деректер көздерін дұрыс таңдау және өнімділік пен масштабтылық.

Қазіргі заманғы деректер қоймасының көпшілігінде деректерді сақтау және басқару үшін реляциялық деректер жүйелері қолданылады, алайда сканерлеуге (бүкіл кестені не базаны қарау) бағытталған жазбаларды топтау, агрегатты есептеу, файлдарды ауыстыру сияқты сұратуларды өңдеуге олардың мүмкіндіктері шектеулі.

^ ПАЙДАЛАНҒАН ӘДЕБИЕТТЕР


  1. W. H. Inmon. Building The Data Warehouse (Second Edition). - NY, NY: John Wiley. - 1993.

  2. N. Raden. Данные, Данные и только данные // ComputerWeek-Москва. - 1996. - №8. - С. 28.

  3. Спирли Э. Корпоративные хранилища данных. Планирование, разработка и реализация. Т. 1: Пер. с англ. - М.: Вильямс, 2001. - 400 с.

  4. K. Parsaye. New Realms of Analysis: Surveying Decision Support // Database Programming & Design. - 1996. - N 4. - P. 26-33.

  5. Кадощук И.Т., Липчинский Е.А. Обзор технологии хранилищ данных. http://www.olap. ru/basic/genstore.asp

  6. Kim W. On Three Major Holes in Data Warehousing today // J. of Object Technology, 2002. - Vol. 1, N 4. - P. 39-47.

  7. Гула А.Ю., Игнатенко А.П., Перечинский И.А. Применение методов интеллектуальной обработки в задачах очистки хранилища данных. // Сб. тр. конф. Системы поддержки принятия решений. Теория и практика (7 июня, 2007). –Киев: 2007. - С. 145- 148.


^ Хранилище данных и их проблемы

В работе описаны концепция, основные понятия и компоненты хранилищ данных. Рассмотрены возможности, недостатки и проблемы хранилищ данных, пути их решения.
The date warehouse and its problems

The article decribes the сonception of date warehouses, the basic notions and components of date warehouses. The problems of date warehouses and the methods of solution are considered.
Таб
РИФА В.Н.

^ ОБ ОДНОЙ АЛЬТЕРНАТИВЕ НЕЙРОСЕТЯМ В РЕШЕНИИ ЗАДАЧИ БИОМЕТРИЧЕСКОЙ ИДЕНТИФИКАЦИИ

(Евразийский Национальный Университет им. Л.Н. Гумилева)

Рассматривается возможность применения метода динамических характеристик для решения задачи идентификации пользователя компьютера по управлению манипулятором "мышь". Численные эксперименты показывают сходимость собственных чисел ковариационных матриц к устойчивому индивидуальному набору для пользователя с ростом числа наблюдений.

Введение

В последнее время заметно возросло количество публикаций по биометрическим методам идентификации личности или биометрическим системам контроля доступа (БСКД). О преимуществах и недостатках таких систем написано очень много. Поэтому не буем повторять известные всем сравнения и остановим свое внимание только на динамических БСКД.

Наиболее просто получить биометрические данные пользователя компьютера можно через анализ управления манипулятором "мышь" тем же пользователем. Рассмотрим целенаправленные движения курсора под управлением пользователя компьютера. Авторам представляется, что именно целенаправленные движения несут более полную информацию о психофизических особенностях субъекта, нежели случайные блуждания курсора, что собственно и было подтверждено результатами многочисленных экспериментов.

В имеющейся литературе неоднократно встречаются попытки использовать нейронные сети (НС) совместно с параметрическими методами для создания классификатора решения задачи динамической БСКД через управление манипулятором. При этом надо учесть тот факт, что при дополнении еще одного пользователя к базе уже существующих, необходимо переобучение НС. Поскольку НС определяет принадлежность входных векторов измерений только тем классам, на которых происходило обучение, обучить НС на класс "всех остальных" не представляется возможным [1,2].

Естественно, возникает потребность и желание найти метод, который позволил бы строить классификатор не на относительных различиях между классами-субъектами, будь то параметрические или непараметрические статистики, а на некоторых абсолютных значениях вектора признаков. Эти абсолютные значения, или некоторые аттракторы в признаковом пространстве, неоспоримо существуют для каждого субъекта и являются присущими только ему, хотя и существование "двойников" вовсе не исключается. Последнее относится к задаче чувствительности метода, на основе которого строится признаковое пространство и классификатор.
1   ...   4   5   6   7   8   9   10   11   12

Похожие рефераты:

Алгоритмы распознавания казахского слова как целого
Об оптимальной абсолютно линейной дискретизации решений волнового уравнения с начальными условиями из классов Соболева
С. К. Коваленко о методике дифференцированных функциональных состояний...
Метод качественных структур, изложенный в [1], как способ рассмотрения целого, предполагает возможность исследования трех различных...
Учебное пособие для студентов
Образов по цветовому описанию, геометрическим параметрам, а также по принятию решений в интеллектуальных системах. Теоретические...
Процедуры распознавания зависят от понятия расстояния между двумя...
Методы классификации распознавания образов, использующие евклидовы пространства описаний
Процедуры распознавания зависят от понятия расстояния между двумя...
Методы классификации распознавания образов, использующие евклидовы пространства описаний
Создан первый в мире мультимедийный самоучитель казахского языка
«M. A. R. I. D. I» ведущий европейский производитель профессиональных it–решений для ускоренного изучения иностранных языков презентовала...
Сарсен аманжолов основоположник казахского языкознания
В XIX веке большую роль в создании казахского литературного языка сыграли Абай и Алтынсарин. У истоков казахского языкознания стоял...
Учебное пособие для студентов специальностей н. 02. 02 «Радиофизика»
Учебное пособие предназначено для студентов и аспирантов факультета радиофизики и электроники, включает принципы организации и алгоритмы...
Гу «Средняя общеобразовательная школа №5 г. Павлодара»
Как вы понимаете слова Н. Заболоцкого? Как вы думаете, почему именно эти слова я взяла в качестве эпиграфа нашего занятия?
Ш. Уалиханов – великий ученый и просветиель казахского народа
Цель урока: а образовательная: на основе дополнительного материала раскрыть роль Ш. Ш. Уалиханова как ученого, просветителя в истории...

Вы можете разместить ссылку на наш сайт:
Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
referatdb.ru
referatdb.ru
Рефераты ДатаБаза