Открытый информационный портал РБД |
На главную | В открытую библиотеку | ||
|
вологодский государственный технический университет Алёшин Виктор Сергеевич
АВТОМАТИЗИРОВАННЫЙ АНАЛИЗ ИНФОРМАЦИОННЫХ РЕСУРСОВ УПРАВЛЕНИЯ МАШИНОСТРОИТЕЛЬНЫМ ПРЕДПРИЯТИЕМ Специальность: 05.13.06 Автоматизация и управление технологическими процессами и производствами (промышленность) Научный руководитель к.т.н., доцент Швецов Анатолий Николаевич Диссертация на соискание учёной степени кандидата технических наук Вологда-2003 -2-СОДЕРЖАНИЕ ДИССЕРТАЦИИ Список используемых сокращений.....................................................................................4 ВВЕДЕНИЕ............................................................................................................................5 1. Современное состояние проблемы автоматизированного анализа информационных ресурсов управления машиностроительным предприятием...........................................12 1.1. Подходы и методы реорганизации системы управления производством и задача анализа информационных ресурсов машиностроительного предприятия....................13 1.1.1. Использование теории графов для описания информационных потоков...........20 1.1.2. Метод семиотического анализа................................................................................23 1.2. Методы и системы интеллектуального и семантического анализа текстовых документов в целях приобретения знаний........................................................................25 1.3. Постановка задач, решаемых в диссертации.............................................................36 ВЫВОДЫ.............................................................................................................................39 2. Модели информационных ресурсов управления машиностроительным предприятием.......................................................................................................................40 2.1. Классификация документальных ресурсов машиностроительного предприятия. 40 2.2. Структурно-синтаксическая модель обобщённого производственного документа машиностроительного предприятия..................................................................................46 2.3. Модель информационных ресурсов управления машиностроительным предприятием.......................................................................................................................64 2.4. Метод автоматизированного построения технического тезауруса.........................72 ВЫВОДЫ.............................................................................................................................78 3. Метод построения концептуальной модели машиностроительного предприятия на основе автоматизированного анализа документальных ресурсов.................................79 3.1. Теоретические основы метода............'........................................................................82 3.2. Построение неоднородной семантической сети понятий предметной области предприятия.........................................................................................................................92 3.3. Метод построения концептуальной модели предприятия па основе неоднородной семантической сети.............................................................................................................97 ВЫВОДЫ...........................................................................................................................105 -3- 4. Алгоритмизация разработанных методов и моделей и разработка критерия адекватности построения концептуальной модели........................................................106 4.1. Модифицированные алгоритмы лексического разбора предложений.................106 . 4.2. Алгоритм структуризации и разбора текстового документа.................................112 4.3. Алгоритм построения неоднородной семантической сети....................................114 4.4. Алгоритм трансляции неоднородной семантической сети в концептуальную модель.................................................................................................................................116 4.5. Критерий адекватности построения концептуальной модели...............................117 ВЫВОДЫ...........................................................................................................................119 5, Результаты экспериментальных исследований разработанных моделей и методов .............................................................................................................................................120 5.1. Исследование структур документальных ресурсов................................................121 5.2. Построение тезауруса с помощью прикладной программной системы «Thesaurus Builden>...............................................................................................................................125 5.3. Экспериментальная проверка модели информационных ресурсов......................131 ВЫВОДЫ...........................................................................................................................138 ЗАКЛЮЧЕНИЕ..................................................................................................................139 Литература..................,.......................................................................................................142 Список авторских работ....................................................................................................151 ПРИЛОЖЕНИЯ.................................................................................................................153 ПРИЛОЖЕНИЕ 1 Описание основных реквизитов документа..................................153 ПРИЛОЖЕНИЕ 2 Список используемых терминов....................................................176 ПРИЛОЖЕНИЕ 3 Акт о внедрении результатов работы............................................180 ПРИЛОЖЕНИЕ 4 Пример трансляции ИСС в приближённую КМ на примере отдела реализации ГОТОВОЙ Продукции......................................................::.....;................;..:»::.; 181 -4-Список используемых сокращений АСОД - автоматизированная система обработки данных АСУП - автоматизированная система управления предприятием БД - база данных ДМТС - документация материально-технического снабжения и сбыта ИСС - интенсиональная семантическая сеть КИС - корпоративная информационная система КМ - концептуальная модель КСГ - контекстно-свободная грамматика НСС - неоднородная семантическая сеть ОИ - объект исследования ОРД - организационно-распорядительные документы ПрО - предметная область ПО - программное обеспечение САПР - система атоматизированного проектрования САР - система автоматического реферирования СКАД - система комплексной автоматизации документооборота СС - семантическая связь СУБД - система управления базами данных СЯИН - системный язык экономической информации ТЕЯ - тексты на естественном языке ЭС - экспертная система -5-ВВЕДЕНИЕ Актуальность работы: Упрочнение рыночной экономики в нашей стране постоянно обостряет конкурентную борьбу, выдвигая в качестве приоритетной задачи менеджмента обеспечение конкурентоспособности компании [1]. Уменьшение издержек по-прежнему рассматривается многими руководителями компаний как главный путь повышения конкурентоспособности [2]. Однако, во-первых, на себестоимость продукции влияют и трансакционные издержки, т.е. затраты связанные со взаимодействием подразделений компании в ходе осуществления производственно-коммерческой деятельности. Во-вторых, сегодня конкурируют между собой уже не товары и даже не компании, а группы компаний, нацеленные на полное и качественное удовлетворение потребностей заказчика за счет интеграции совместных усилий. В-третьих, в настоящее время конкуренция все больше становится борьбой идей, а не борьбой ресурсов. На рынке побеждают компании, постоянно предлагающие новые инновационные решения. Результаты такого подхода к ведению бизнеса российскими участниками рынка неоднократно освещались в научных трудах российских ученых [3]. При этом чрезвычайное значение приобретает скорость практического воплощения идей в конкретные продукты и услуги [4]. Обеспечить радикальное повышение эффективности бизнеса возможно только за счёт реорганизации управления предприятием на основе пересмотра базовых постулатов организации управления под воздействием технологических прорывов [5], в том числе, в области информационных технологий. Различные аспекты реорганизации управления подробно рассмотрены в трудах российских учёных, таких как В.А. Виттих, В.Ф. Горнев, В.В. Емельянов, С.Д. Коровкин, Е.Г. Ойхман, Э.В. Попов, А.В. Смирнов, В,Б. Тарасов, С.А. Яковлев, СИ. Ясиновский и др. Среди зарубежных ученых вопросам реорганизации управления посвящены работы Г. Буча, М. Робсона, Ф. Уллаха, М. Хаммера, Дж.Чампи, А. Шеера и др. Традиционно реализуется следующий подход [8]: выполняется обследование существующей структуры подразделений предприятия и соответствующих процес- -6- сов. В результате формируется модель фактических процессов «как есть». На основе этой модели, методами реинжиниринга, формируется модель-эталон «как надо» -структуры подразделений и их процессов. После одобрения модели-эталона руководством предприятия, разрабатывается план мероприятий перехода на работу в соответствии с эталонной моделью. Таким образом, целью первого этапа реорганизации АСУП является разработка образа будущей компании (предпроектное обследование), т.е. получение и систематизация сведений о клиентах, конкурентах, партнерах, поставщиках, текущих трудностях и фазе жизненного цикла компании [9] для определения её стратегических целей и выработки спецификации целей реорганизации. Существует более 20 технологий проектирования [10], позволяющих моделировать деятельность предприятия на уровне бизнес-процессов и несколько сотен инструментов, предназначенных для автоматизации этого процесса. Большинство из них предоставляют богатый набор исходных данных и формализмов в виде набора заготовленных правил и системы интеллектуальных шаблонов. Однако в подобных системах уделяется недостаточное внимание анализу имеющихся информационных ресурсов, объективно описывающих моделируемую ПрО. Большинство систем моделирования деятельности предприятия позволяют анализировать модели, непосредственно построенные инженером-аналитиком на основе собственных знаний о предметной области. Поэтому возникает проблема устранения зависимости результатов исследования предприятия от привлечения человека-эксперта. Следует отметить, что деятельность любой организации тесно связана с потоками информационных ресурсов [11], которые являются неотъемлемой частью системы информационного обеспечения ЛСУП и представляются на практике в виде различных документов. Кроме того, структурный анализ сложных процессов на практике выполняется с помощью схем информационных потоков. Реорганизация управления предприятием неизбежно повлечёт за собой и перестроение существующих систем информационного обеспечения либо внедрение другой КИС, в большей степени соответствующей новой организационной структуре предприятия. Во многих организациях процесс доработки существующей КИС либо внедрения новой по-прежнему осуществляется традиционными методами на интуитивном -7- уровне с применением неформализованных методов, основанных на искусстве и практическом опыте людей-экспертов, экспертных оценках и дорогостоящих экспериментальных проверках качества их функционирования. Разработка образа будущей компании в рамках предпроектного обследования является необходимым условием для своевременного внедрения либо доработки существующей КИС, но представляет собой достаточно длительный и трудоёмкий процесс, связанный с привлечением большого количества материальных и человеческих ресурсов. Сложность обследования заключается в необходимости изучения разнообразных форм документации, а также в интервьюировании большого количества персонала из числа специалистов по тем или иным разделам ПрО. Первичное исследование необходимо при создания обобщённой схемы функционирования предприятия в целом, для того, чтобы можно было приблизительно оцепить объёмы циркулирующих данных, мощность документопотоков, сопутствующих различным процессам на производстве, структуру и функции хранилищ данных [16], перечень требуемых аппаратных средств для поддержания работы основной программной системы, количество обслуживающего персонала и состав инженерно-технических работников, выполняющих функции поддержания системы в работоспособном состоянии и некоторые другие параметры. Значительно облегчить труд проектировщиков может наглядная графо-аналитическая схема взаимосвязей объектов и субъектов производственной деятельности [17]. В настоящей работе предложен ряд методов и моделей, позволяющих выполнять автоматизированное построение концептуальной модели машиностроительного предприятия, путём семантического анализа документальных информационных ресурсов. Метод автоматизированного построения тезауруса реализован в виде прикладной программной системы. Применение разработанных в диссертации методов и моделей позволяет сократить привлечение людей-экспертов при построении КМ машиностроительного предприятия. Объектом исследования (ОИ) является множество информационных ресурсов, описывающих производственно-коммерческую деятельность машиностроительного предприятия, выступающих в документированном виде. -8- Предметом исследования являются основные вопросы автоматизации анализа информационных ресурсов и построения концептуальной модели машиностроительного предприятия в ходе реорганизации системы управления предприятием. Цель работы заключается в повышении эффективности анализа информационных ресурсов предприятия на этапе проведения предпроектноп стадии реорганизации системы управления предприятием. Задачи, решаемые в работе. 1. Разработка структурно-синтаксической модели обобщённого производственного документа. 2. Построение модели информационных ресурсов управления машиностроительным предприятием. 3. Разработка метода автоматизированного построения отраслевого словаря предметной области (технического тезауруса). 4. Разработка метода построения концептуальной модели машиностроительного предприятия на основе неоднородной семантической сети. 5. Разработка критериев оценки адекватности построения концептуальной модели машиностроительного предприятия. 6. Алгоритмизация разработанных методов, моделей и критериев. Методы исследования. В работе используются элементы теории систем управления и теории статистического анализа, методы синтаксического перевода и компиляции. Применяется теория графов и матричного исчисления. Используются теоретические основы математического аппарата неоднородных семантических сетей Г.С. Осипова. Научная новизна работы. Научная новизна исследования заключается в разработке и создании: 1. Структурно-синтаксической модели обобщённого производственного документа, отличающейся учётом составного характера документов, обеспечивающей эффективное проведение структурного анализа производственных документов и возможность выполнения сложных интеллектуальных запросов. 2. Модели информационных ресурсов предприятия, учитывающей многократное появление однотипных терминов в документах и позволяющей исследовать спе- -9- цифическис свойства информационных ресурсов при решении задачи реорганизации АСУП. 3. Метода автоматизированного построения отраслевого словаря ПрО (технического тезауруса) отличающегося использованием частотных свойств терминов в сочетании с разбивкой на непересекающиеся семантические классы, позволяющего снизить трудоёмкость создания модульных структур систем сбора и обработки данных в АСУП. 4. Метода построения концептуальной модели машиностроительного предприятия на основе неоднородной семантической сети и технического тезауруса, позволяющего строить модель в разрезах заданных семантических классов, что повышает наглядность и структурированность модели. Практическая значимость работы. Структурно-синтаксическая модель производственного документа обеспечивает проведение глубокого структурного анализа содержимого документов, даёт возможность группирования, классификации и определения принадлежности документов к соответствующему типу по составу реквизитов. Гибкость применяемых методов синтаксического перевода, трансляции и компиляции позволяет выполнять интеллектуальные структурные запросы значительной сложности. Благодаря использованию алгоритмов структурного разбора документа достигается повышение уровня техники заполнения документов пользователями при работе на клиентских местах, оперативный контроль правильности составления документов, возможность быстрой проверки соответствия ряда документов заданной эталонной модели. Приводимые в работе теоретические положения построения модели информационных ресурсов позволяют исследовать специфические частотные характеристики профиля информационного потока, выявить наиболее значимые термины информационных сообщений, сформировать основные словарные статьи отраслевого искусственного языка ПрО (технического тезауруса). Анализ данной модели позволяет вычислить приблизительный объём информационного потока в терминах. В качестве дополнительной возможности, модель позволяет сформировать множество документов, подобных заданному, по установленному набору терминов, на основе вычисления меры релевантности для документа-образца и искомого документа. -10- Метод трансляции НСС в концептуальную модель предприятия позволяет строить схему организации в виде множества фрейм-концептов и концептуальных отношений в разрезах заданных семантических классов, что повышает наглядность и струюурированность модели. Гибкость метода трансляции обеспечивает формирование модели по различным критериям. Разработанные модели и методы построения концептуальной модели предприятия, позволят повысить эффективность решения задачи первичного обследования организационной структуры предприятия на предпроектном этапе подготовки технического задания и общих требований на разработку КИС. Использование разработанных подходов, методов и алгоритмов позволяет получить автоматизированным способом обобщённую информационную картину в виде наглядной графо-аналитической схемы взаимосвязей объектов и субъектов производственной деятельности, с минимальными затратами материально-технических ресурсов и привлечением интеллектуального труда людей-экспертов. Реализация результатов работы. Модели и методы, полученные в работе, нашли применение в виде программно-алгоритмического комплекса для анализа информационных ресурсов предприятия. Разработана система автоматизированного построения технического тезауруса, внедрение которой выполнено на машиностроительном предприятии ОАО «ЭЛЕКТРОТЕХМАШ» г.Вологда. Исполнимые модули и библиотеки программы оформлены в виде составной части системы информационного обеспечения завода. В качестве результатов внедрения программно-алгоритмического комплекса можно выделить следующие: - методика анализа документации на машиностроительнОхМ предприятии; - программно-алгоритмический комплекс автоматизированного построения словаря производственных терминов (тезауруса); '- результаты построения технического тезауруса на основе применения разработанной методики; - рекомендации по практическому применению программно-алгоритмического комплекса для решения задач автоматизации документооборота предприятия. Результаты работы позволили повысить эффективность труда разработчиков КИС, снизить затраты на обработку информации и сократить избыточность произ- -11- водственной документации. Программно-алгоритмические средства были использованы при разработке концептуальной модели предприятия в процессе подготовки стратегического плана комплексной автоматизации. Внедрение результатов диссертации подтверждается соответствующими актами. Апробация работы. Основные научные и практические результаты работы докладывались на первой областной межвузовской научно-практической конференции «Вузовская наука региону» (Россия, Вологда, 2000 г.), второй региональной межвузовской научно-технической конференции «Вузовская наука региону» (Вологда, 2001 г.), международной научно-технической конференции «Моделирование, оптимизация и интенсификация производственных процессов и систем» (Вологда, 2001 г.), III региональной межвузовской научно-технической конференции «Вузовская наука региону» (Вологда, 2002 г.), международной научно-технической конференции «Информатизация процессов формирования открытых систем на основе СУБД, САПР, АСНИ и искусственного интеллекта» (Вологда, 2001 г.), IX Международной научно-технической конференции «Информационная среда ВУЗА» (Иваново, ЦНИТ, ИГАСА, 2002 г.), VIII Санкт-Петербургской международной конференции «Региональная информати-ка-2002» («РИ-2002») (Санкт-Петербург, 2002 г.), первой общероссийской научно-технической конференции «Вузовская наука региону» (Вологда, 2003 г.), десятой международной конференции «МАТЕМАТИКА, КОМПЬЮТЕР, ОБРАЗОВАНИЕ» (г. Пущине, 2003 г.), Всероссийской научной конференции «Управление и информационные технологии УИТ-2003» (Санкт-Петербург, 2003 г.), 5-й международной научно-практической конференции «Пилотируемые полёты в космос», (Москва, 2003 г.), IX Международной конференции «Современные технологии обучения (СТО-2003)» (Санкт-Петербург, 2003 г.), VI международной конференции по мягким вычислениям и измерениям SCM’2003 (Санкт-Петербург, 2003 г.), научно-технической конференции «Тренажёрные технологии и симуляторы» (Санкт-Петербург, 2003 г.), первой общероссийской научно-технической конференции «Вузовская наука региону» (Вологда, 2003 г.). Публикации. Основные положения и научные результаты диссертации опубликованы в 14 печатных работах. -12- 1. Современное состояние проблемы автоматизированного анализа информационных ресурсов управления машиностроительным предприятием В условиях постоянного роста конкуренции, когда руководители предприятий сталкиваются с большими сложностями, пытаясь оптимизировать затраты, сделать продукцию и прибыльной, и конкурентоспособной, четко обозначилась необходимость иметь модель деятельности предприятия, отражающую все механизмы и принципы взаимосвязи различных подсистем в рамках одного бизнеса. Потребность в моделировании деятельности предприятий послужила причиной активного появления на рынке сложных программных продуктов, предназначенных для комплексной автоматизации управления предприятием [18]. Внедрение подобных систем всегда подразумевает проведение глубокого предпроектного исследования деятельности компании. Результатом такого исследования становится экспертное заключение, где отдельно даются рекомендации по устранению «узких мест» в управлении деятельностью организации, на основании которого, непосредственно перед началом проекта, проводится реорганизация системы управления, часто достаточно серьезная и болезненная для компании. Несмотря на обилие предлагаемых на рынке систем комплексной автоматизации, все операции по подготовке исходной информации, предпроектное обследование организации, подготовка технического задания, и собственно внедрение самой системы, включая ее* доработку под нужды предприятия, выполняются по-прежнему за счёт интеллектуального труда людей-специалистов. Квалификация персонала, выполняющего подготовительную работу, как правило, должна быть достаточно высока, а имеющиеся автоматизированные средства анализа документации позволяют лишь частично облегчить труд человека. В основном усилия направленные на реализацию смысловой оценки информации, чаще всего применяются для исследования всевозможной документации, что приводит в свою очередь к осознанию необходимости поиска и разработки механизмов логико-семантического анализа, позволяющих создавать аргументно-предикатную структуру высказываний [19] или какой-либо другой вид семантического представления текстов [20], [21]. -13- 1.1. Подходы и методы реорганизации системы управления производством и задача анализа информационных ресурсов машиностроительного пред' приятия Одним из первых этапов при реорганизации системы управления любого предприятия является детальный анализ работы организации [22]. К анализу будем относить изучение существующей организационной структуры предприятия, описание действующих бизнес-процессов и выделение участков, подлежащих автоматизации. Важной задачей предпроектного обследования является разработка образа будущей компании. Не сделав корректного описания существующей системы управления, бессмысленно переходить к следующим стадиям анализа деятельности предприятия и тем более к его автоматизации. Существует более 20 технологий проектирования (IDEF, Petri-net (CPN), Yourdon (DFD), UML, Booch, SSADM, Bachman, Gantt, Object Oriented, Soft Systems, Meta Modelling, Flow Chart, ABC, Workflow, Simulation и др.), позволяющих моделировать деятельность предприятия на уровне бизнес-процессов и несколько сотен ин-струмигтов (AllFusion Data Modelling, AIlFusion Process Modelling, Class Designer, Process Flow, System Architect, Power Designer, ARIS, Designer2000, IBS Workflow Manager), предназначенных для автоматизации этого процесса, поэтому сравнительный анализ был ограничен продуктами, наиболее популярными на российском рынке. Общая информация о системах. AIlFusion Data Modeler (ранее: ERwin) — средство концептуального моделирования БД, поддерживающее нотации проектирования данных IDEF I x, IE и Dimensional. ERwin реализует проектирование схемы БД, генерацию ее описания на языке целевой СУБД (ORACLE, Informix, Ingres, Sybase, DB/2, Microsoft SQL Server, Progress и др.) и реинжиниринг существующей БД. ERwin Data Modeler облегчает управление моделями больших предприятий за счет использования предметных областей (Subject Areas) и хранимых отображений (Stored Displays). Предметные области предоставляют индивидуальным проектировщикам возможность сфокусированного взгляда, разделяя модель на более мелкие и за счет этого легче управляемые подмножества. Хранимые отображения предоставляют множественные графические представления модели или ее предметных областей, тем самым, облегчая обмен ин- -14- формацией между специализированными группами пользователей. Для ряда средств разработки приложений (PowerBuilder, SQLWindows, Delphi, Visual Basic и др,) вы-. полняется генерация форм и прототипов приложений. Возможности ERwin Data Modeler дополняет линейка продуктов для поддержки всех стадий разработки ИС -AHFusion от Computer Associates. AIlFusion Process Modeler (ранее Bpwin) - инструмент визуального моделирования, реализующий методологию IDEFO, IDEF3 и DFD [28]. Методология IDEF может использоваться для моделирования широкого круга систем и определения требований и функций, а затем для разработки системы, которая удовлетворяет этим требованиям и реализует эти функции. Для уже существующих систем IDEF может быть использована для анализа функций, выполняемых системой, а также для указания механизмов, посредством которых они осуществляются. Дает возможность наглядно представить любую деятельность или структуру в виде модели, что позволяет оптимизировать работу организации, проверить ее на соответствие стандартам ISO9000, спроектировать оргструктуру, снизить издержки, исключить ненужные операции, повысить гибкость и эффективность. BPwin тесно интегрируется с рядом известных продуктов других компаний, например инструментом стоимостного анализа EasyABC (ABC Technologies), инструментом моделирования данных ERwin (CA/Logic Works). В BPwin 4.0 стал возможен экспорт модели в систему имитационного моделирования Arena (Systems Modeling Corp.). Rational Rose - предназначено для автоматизации этапов анализа и проектирования ПО, а также для генерации кодов на различных языках и выпуска проектной документации. Rational Rose использует синтез-методологию объектно-ориентироваипого анализа и проектирования, основанную на подходах трех ведущих специалистов в данной области: Буча, Рамбо и Джекобсона. Разработанная ими универсальная нотация для моделирования объектов (UML - Unified Modeling Language) претендует на роль стандарта в области объектно-ориентированного анализа и проектирования. Основной вариант - Rational Rose/C++ - позволяет разрабатывать проектную документацию в виде диаграмм и спецификаций, а также генерировать программные коды на C++. Кроме того, Rational Rose содержит средства реинжиниринга программ, обеспечивающие повторное использование программных компонент в новых проектах. -15- Методология ARIS рассматривает предприятие как совокупность четырех взглядов: взгляд на организационную структуру, взгляд на структуру функций, взгляд на структуру данных, взгляд на структуру процессов. При этом каждый из этих взглядов разделяется еще на при подуровня: описание требований, описание спецификации, описание внедрения. Таким образом, ARIS предлагает рассматривать организацию с позиции 12 аспектов, отображающих разные взгляды на предприятие, а также разную глубину этих взглядов. Для описания бизнес-процессов предлагается использовать 85 типов моделей, каждая из которых принадлежит тому или иному аспекту. Среди большого количества возможных методов описания можно выделить следующие: ЕРС (event-driven process chain) - метод описания процессов, нашедший применение для описания процессов системы SAP R/3; ERM (Entity Relationship Model) -модель сущностей-связей для описания структуры данных; UML (Unified Modeling Language) - объектно-ориентированный язык моделирования. ARIS Toolset (ARIS Easy Design) - единая среда моделирования, которая представляет собой совокупность четырех основных компонентов - Explorer (Проводник), Designer (средство для графического описания моделей), Таблиц (для ввода различных параметров и атрибутов) и Мастеров (Wizards). ARIS Toolset позволяет создавать скрипты (шаблоны) для отчетов, анализа и семантических проверок. ARIS Simulation - модуль системы ARIS Toolset, применяемый для динамического (во времени) моделирования бизнес-процессов. Цель имитационного моделирования - определение узких мест, таких как несогласованность параллельно выполняемых подпроцессов, нехватка ресурсов для эффективного их выполнения, информационные разрывы. Средство позволяет задавать различные характеристики бизнес-процессов. Имитационное моделирование позволяет выявлять преимущества и недостатки предлагаемых решений. Анализируя альтернативные варианты реализации бизнес-процессов, определяя их количественные характеристики, например общее время выполнения процесса или коэффициенты использования трудовых ресурсов, можно отобрать вариант, наиболее эффективный с точки зрения выделенных критериев. Основные результаты имитационного моделирования отражаются в характеристиках объектов, участвующих в моделировании: для функций — затраты денег и времени на реализацию, время ожидания освобождения ресурсов; для точек разветвления в -16- процессах — время ожидания завершения параллельных подпроцессов; для организационных единиц — коэффициенты использования. Система имитационного моделирования Arena, разработанная компанией Systems Modeling Corporation, позволяет создавать подвижные компьютерные модели, используя которые можно адекватно представить многие реальные системы. Основа технологий Arena - язык моделирования SIMAN и анимационная система отображения результатов моделирования - Cinema Animation В процессе моделирования пользователь шаг за шагом строит модель в визуальном редакторе системы Arena. Затем система генерирует по ней соответствующий код на SIMAN, после чего автоматически запускается Cinema animation. Имитационное моделирование позволяет проверять гипотезы о причинах возникновения тех или иных наблюдаемых феноменов. SIMAN позволяет рассматривать процессы в различных масштабах времени. SIMAN позволяет выделить переменные, наиболее важные для успешного функционирования моделируемой системы, и проанализировать имеющиеся между ними связи, SIMAN позволяет выявлять «узкие места» в материальных, информационных и других потоках. Моделирование помогает изучать объекты, о поведении которых имеется недостаточно информации. Для моделирования сложных систем существуют хорошо обкатанные методологии и стандарты. К ним относятся, в частности, методологии семейства IDEF, с помощью которых можно эффективно отображать и анализировать модели деятельности широкого спектра сложных систем в различных разрезах. При этом глубина исследования процессов в системе определяется самим разработчиком, что позволяет не перегружать создаваемую модель излишними данными. Как известно, Rational Rose не поддерживает ни одну из известных методологий моделирования и анализа бизнес-процессов. Методика построения «бизнес-моделей», содержащаяся в дополнительном наборе рекомендаций RUP, которая сопровождает пакет Rational Rose, предлагает диаграммы «Use Case» и «Activity» для описания бизнес-процессов. Однако с помощью этих диаграмм невозможно описать всю массу сведений, необходимых для моделирования бизнес-процессов. Дуги Use Case и Activity диаграмм не имеют тех смысловых типов, которые указываются для дуг IDEF0. Синтаксические соглашения, диктуемые системой при разработке Use Case и Activity-диаграмм, не объединены в законченную и понятную систему. Используемым диаграммам не дается никакой ин- -17- терпретации, объясняющей, как их применять при моделировании. Так, например, соединение двух процессов стрелкой означает лишь их логическую условную взаимосвязь, но не оговаривает последовательность их исполнения, или например, передачу результатов деятельности первого процесса второму. Интерпретация связей «процесс-состояние», «состояние-состояние» и других также является прерогативой пользователя системы. Таким образом в системе Rational Rose возможно построение Activity-диаграмм, не имеющих смысла с точки зрения моделируемого объекта, однако полностью корректных с точки зрения синтаксиса. Пример такой диаграммы приведен на рисунке 1.1.
Конец Рис.1.1. Пример Activity-диаграммыПо этим причинам пользователям Rational Rose при разработке Use Case и Activity-диаграмм приходится придумывать свои оригинальные синтаксические соглашения и давать свою интерпретацию имеющимся, чтобы отразить всю существенную для анализируемого процесса информацию. Например, чтобы имитировать три вида характерных для IDEF0 входящих в процесс стрелок — input, mechanism, control, - можно каждую из них подкрашивать своим цветом, а чтобы отличить входящие документы от исходящих, можно использовать пунктирные и сплошные стрелки. Пользователь Rational Rose вынужден разрабатывать свои формализмы для получения методики построения моделей и анализа бизнес-процессов. При этом, возможно, придется не только разрабатывать свою методику, но и отклоняться от стандартов UML. Ещё одним существенным недостатком Rational Rose является отсутствие поддержки и контроля синтаксиса для разработанной пользователем методологии, и, следовательно, возможности проверки корректности разработанной модели. -18- Следует отметить, что система Rational Rose обладает весьма слабыми средствами обработки и анализа проектируемых моделей, поэтому задача «чтения» моделей, разработки процедур выдачи отчетов, целиком ложится на плечи аналитика. Использование средств моделирования и методологии IDEF0, по сравнению с Rational Rose дает гораздо больше возможностей для проектировщика. Модель IDEF0 можно представить в виде древовидной структуры диаграмм, где верхняя диаграмма является наиболее общей, а самые нижние наиболее детализированы. При рисовании IDEFO-диаграмм используют следующие основные элементы и соглашения. · Процесс (Activity) изображается прямоугольником. · Стрелки слева (Input) отображают необходимые для исполнения процесса входы. · Стрелки справа (Output) отображают результаты исполнения процесса (выходы). · Стрелки снизу (Mechanism) отображают необходимые для исполнения процесса механизмы, то есть те объекты, которые собственно и исполняют данный процесс. Например: оператор, рабочий, автоматизированная система предприятия и т. п. · Стрелки сверху (Control) отображают объекты, диктующие правила исполнения процесса, но непосредственно для исполнения процесса не необходимые. Это могут быть статьи КЗОТ и/или инструкция по технике безопасности для процесса изготовления детали рабочим, работающим на станке. Стрелки могут разветвляться и сливаться, тем самым образуя иерархию данных. При декомпозиции процесса все стрелки, входящие или исходящие из него, должны быть перенесены на диаграмму нижнего уровня и использованы при ее построении. При этом запрещены всякие новые стрелки, выходящие за пределы новой диаграммы, кроме специальных, так называемых «туннельных» стрелок. Указанные выше соглашения реализуются в продуктах, основанных на методологии IDEF0. При выборе такого продукта аналитик берет на себя обязательства по выполнению соглашений выбранной методологии, но при этом он получает автоматизированную систему, умеющую «читать» разработанные модели. Под умением системы «читать» модели здесь понимается а) способность системы контролировать синтаксис разработки модели, поддерживающий в том числе соглашения для методологии IDEF0, и б) на основании этого наличие в системе возможности формировать отчеты, представляющие в понятном и удобном для человека -19- виде осмысленную информацию, содержащуюся в модели, в том числе благодаря поддержанию указанных выше синтаксических соглашений. Благодаря умению «читать» разработанные аналитиком схемы - средства моделирования, основанные на IDEF0, позволяют выдавать: · перечень ролей, необходимых для функционирования предприятия при использовании будущей системы автоматизации; · заготовки для проектирования оргштатной структуры предприятия; · заготовки для написания инструкций по выполнению какой-то работы и отчасти для составления должностных инструкций для сотрудника, исполняющего ту или иную роль, и др. Если же IDEFO-модель разработана в системе, не поддерживающей формализмы оговоренного методологией синтаксиса и потому не умеющей «читать» модели (например, модель просто «нарисована» в MS Word), то все подобные отчеты можно получить только «вручную», что для больших моделей является очень трудоемкой работой, при исполнении которой практически невозможно избежать ошибок. Кроме того, нет никаких гарантий, что разработанная модель будет внутренне непротиворечива и корректна, так как отсутствует контроль синтаксиса. Среди современных методологий IDEF0 выделяется своим широким применением [32]. В заключение можно сделать следующий вывод: CASE-средства, реализованные на основе методологии IDEF0 и поддерживающие ее соглашения, имеют преимущества перед Rational Rose. Перечисленные выше системы моделирования бизнес-процессов представляют собой инструментальные средства, т.е. средства которые содержат в себе богатый арсенал средств, прежде всего, для визуализации бизнес-процессов, но позволяют построить бизнес-модель в заданном формате только за счёт труда человека-эксперта. Системы наподобие ARIS, BPWin и Rational Rose позволяют анализировать лишь уже построенные модели и не содержат средств для анализа документальных ресурсов, описывающих бизнес-процессы предприятия. Так называемый «анализ» бизнес-моделей сводится к формированию всевозможных отчётов, получаемых на основе критериев, заданных пользователем. Таким образом, результаты построения модели бизнес-процессов и её' последующего анализа всецело зависят от профессионального уровня специалиста-эксперта. -20- 1.1.1. Использование теории графов для описания информационных потоков Описание потоков информации (ПИ) процесса управления с помощью графов является одним из наиболее разработанных методов [29]. С его помощью достигается наглядное функционирование системы управления и движения ПИ; применение математического аппарата теории графов позволяет оптимизировать работу управления и каналов связи; имеется возможность также представить динамику управления и движения информации, которая ускользает при пользовании других методов. В настоящее время имеется много примеров использования теории графов в описании данных процессов. Они различаются характеру описания объектов, но видам графов. Рассмотрим наиболее типовые примеры.
Рис. 1.2. Схема движения данных в системе оперативного управленияИсследование информационных потоков на основе сетевой модели. Метод основан на применении сетевого графика и традиционных методов его анализа и оптимизации [30]. Понятия работы и события принимают характер, соответствующий процессу управления, а именно: под работой понимается определённая задача управления; под событием понимается определённый документ, который был составлен в ходе выполнении работ (конечное событие) либо будет использоваться в ходе выполнении работ (начальное событие). Анализ сетевой модели управления производится традиционными методами. Находятся критический путь, резервы времени (каждая работа, производимая управленческим аппаратом, характеризуется своей длительностью, определённым време- -21- нем наступления каждого события), определяются узкие места, производится перераспределение ресурсов и т.д. Описание потоков информации с помощью графа типа <Дерево». Источник потоков информации может быть описан с помощью комплекса графов [31]. Для этого строятся центральный граф — «дерево» взаимосвязи показателей и граф расчетов, показывающие потоки и преобразование информации при расчете отдельных показателей. Дерево взаимосвязей показателей формируется с учётом иерархии, рёбра ориентируются от исходных показателей к результирующим, для которых, в свою очередь, имеется более высокая ступень укрупнения (уровень). Описание системы в виде «Дерева» возможно в тех случаях, когда имеются результирующий или главный показатель на каждом уровне, так как некоторые исходные показатели могут служить при образовании нескольких результирующих, не исключая срастания дерева. Дерево расчёта может объединяться путём подстановки в дерево вместо значения какого-либо исходного показателя дерева расчёта этого показателя. Такая процедура может повторяться до тех пор, пока среди исходных показателей не будет вторичных, то есть имеющих свои деревья расчёта. Описание потоков информации графом типа «Дерево» используется в заводоуправлении промышленного предприятия при организации системы плановых расчётов. Граф определяет логические связи между элементами системы, например, с помощью дерева можно преобразовать движение информации в заводоуправлении при разработке перспективного плана (рис. 1.З.).
Рис.1.3. Граф, упорядоченный по тактам движения потоков информации -22- Начальная вершина дерева, соответствующая работе собственно заводоуправления, заключается в выработке принципиальных положений для разработки плана, в анализе вариантов раздела плана, разрабатываемых отделами, их увязке, принятии решения, представление проекта плана. Вершины следующего уровня соответствуют работам подразделений заводоуправления. Совокупность вершин первого уровня отражает работы, проводимые отделами по разработке разделов плана, вершины второго уровня отражают работы групп. Работы групп делятся на расчёты соответственных участков плана. Каждый расчёт образует своё дерево, в котором отражены взаимосвязи потоков информации более низкого уровня (см. например рис. 1.4.). Информационная модель в виде графа типа «Дерево» содержит в себе следующие сведения: · наименование и характеристику блоков преобразования информации; · последовательность преобразования информации в процессе планирования; · источники входящих сообщений; · источники выходящих сообщений. Движение информации при расчёте объёма производства Рис. 1.4.
-23- Схема даёт обобщённую характеристику функционирования планового органа, указывает тип преобразований информации, их последовательность, направления и адреса потоков информации. Схема может являться первым звеном при разработке сетевой модели организационного проекта. 1.1.2, Метод семиотического анализа В семиотическом анализе передача сообщений — коммуникация, рассматривается как язык, т.е. как определённая знаковая система [32], обеспечивающая общение функциональных подразделений друг с другом и с внешней средой. Основное в семиотике — понятие знака. Наиболее общее определение знака — носитель информации. Главная функция языка — коммуникация, сообщение информирование о чём-либо. Информация как знаковая система изучается в трёх аспектах — семантическом, прагматическом и синтаксическом [33, 34]. Рассмотрение документации как знаковой системы позволяет изучать и формализовать язык документа на разных уровнях и с разных точек зрения. Уровень синтаксического анализа. На этом уровне устанавливаются правила формирования и переформирования языковых единиц. Для языка документов это будет установлением правил, по которым одни документы строятся из других (документ строится из набора высказываний), изучением правил построения показателей, иными словами, формализация процедур составления и обработки документов. Все задачи, которые связаны с описанием знаков и выражений языка, с исследованием правил образования таких выражений из более простых знаков, с анализом отношений между этими знаками, а также правилами преобразования этих выражений, относятся к области синтаксического анализа. Синтаксический анализ делится на описательный синтаксис, проблематика которого близка к проблематике синтаксиса в грамматическом понимании, и на чистый синтаксис, проблематика которого носит формальный характер. Практическое значение чистого синтаксиса, который трактует язык как своеобразное исчисление, состоит прежде всего в том, что появляется возможность перевести обычный язык на язык машин. Используя, например, исчисление предикатов, можно задать формы документов, т.е. указать способ упорядочивания показателей, из которых они строятся, и тем самым формализовать содержательные связи между показателями. Предикат в двоич- -24- ной логике —■ это логическая функция, относящаяся к п предметам рассматриваемой области с истинными значениями — «истина» или «ложь». Предикат считается заданным, если указывается, к каким предметам он относит «истину». Придав наборам показателей, соответствующих определённой форме документа, значение «истина», мы зададим все формы данной системы. Семантический анализ. На семантическом уровне рассматривается смысловое значение элементов языка. Одна из основных проблем семантики — проблема однозначной передачи и уточнения смысла языковых выражений, связанная с устранением многозначности, нестрогости и эмоциональной окрашенности слов. Здесь оценивается количество смысловой информации, которую несёт определённый документ, выявление и устранение такого недостатка, как наличие одинаковой формы у разных документов, показателей и, наоборот, разное оформление одинаковых содержаний. В качестве средства семантического исследования информационной системы можно предложить проблемно-ориентированный системный язык экономической информации (СЯИН), Этот неалгоритмический выступает в роли посредника между языком экономиста (общепринятым) и специализированным языком вычислительной машины. Сравнивая (вручную или с помощью ЭВМ) фразы СЯИН, описывающих содержание показателей, можно выявить показатели или их составные части, которые относятся к одним и тем же информационным совокупностям. Эти сведения являются предпосылкой унификации и потоков и алгоритмов автоматизированной системы обработки данных (АСОД). Прагматический уровень исследования. Рассматриваются отношения документа к его производителям и потребителям. Характер исследования здесь может быть самым различным. Документы строятся для решения определённых задач, но уже функционирующая система документов во многом определяет качество и скорость их решения. Решаемые в ходе производственной деятельности задачи оказывают непосредственное влияние на язык документов. Как содержание, так и конкретная форма документа определяется экономическими задачами и уровнем системы управления, на которой решаются. Важно выяснить, при решении каких задач необходим данный документ, определить информативность документа для данной задачи и на этой основе предложить оптимальную форму документа. -25- 1.2. Методы и системы интеллектуального и семантического анализа текстовых документов в целях приобретения знаний Наиболее распространенными стратегиями получения знаний [35] являются приобретение, извлечение и формирование (рис. 1.6). Рис. 1.6. Три стратегии получения знаний Под приобретением знаний [36] понимается способ автоматизированного построения базы знаний посредством диалога эксперта и специальной программы (при этом структура знаний заранее закладывается в программу). Эта стратегия требует существенной предварительной проработки ПрО. Системы приобретения знаний действительно приобретают готовые фрагменты знаний в соответствии со структурами, заложенными разработчиками. Большинство этих инструментальных средств специально ориентировано па конкретные экспертные системы с жестко обозначенной предметной областью и моделью представления знаний, т.е. не являются универсальными. Термин извлечение знаний касается непосредственного живого контакта инженера по знаниям и источника знаний [36]. Как правило, этот термин используют как более емкий и более точно выражающий смысл процедуры переноса компетентности эксперта через инженера по знаниям в базу знаний экспертной системы. Термин формирование знаний традиционно закрепился за чрезвычайно перспективной и активно развивающейся областью инженерии знаний, которая занимается разработкой моделей, методов и алгоритмов анализа данных для получения зиа-
-26- ний и обучения. Эта область включает индуктивные модели формирования гипотез на основе обучающих выборок, обучение по аналогии и другие методы. Извлечение знаний - это процедура взаимодействия эксперта с источником знаний, в результате которой становятся явными процесс рассуждений специалистов при принятии решения и структура их представлений о предметной области. Процесс извлечения знаний - это длительная и трудоемкая процедура, в которой инженеру по знаниям необходимо воссоздать модель предметной области, которой пользуются эксперты для принятия решения. Во-первых, большая часть знаний эксперта - это результат многочисленных наслоений, ступеней опыта. Во-вторых, мышление диалогично. И поэтому диалог инженера по знаниям и эксперта - наиболее естественная форма «раскручивания» лабиринтов памяти эксперта, в которых хранятся знания, частью носящие невербальный характер, т.е. выраженные не в форме слов, в форме наглядных образов, например. Задача инженера по знаниям - вербализовать эти знания в процессе объяснения эксперта. В-третьих, эксперту гораздо труднее создать модель ПрО вследствие той глубины и необозримости информации, которой он обладает. Многочисленные причинно-следственные связи реальной ПрО образуют сложную систему, из которой выделить «скелет», или главную структуру, иногда доступнее аналитику, владеющему к тому же системной методологией. На современном этапе разработки экспертных систем в нашей стране стратегия извлечения знаний, по-видимому, является наиболее актуальной, поскольку промышленных систем приобретения и формирования знаний на отечественном рынке программных средств практически нет. Аспекты извлечения знаний весьма разнообразны, и поэтому взаимодействие инженера по знаниям и эксперта в форме живого общения не является единственной формой извлечения знаний [37], хотя она довольно распространенная. Предлагается схема классификации, в которой основной принцип деления связан с источником знаний (рис.1.7.). Коммуникативные методы охватывают все виды контактов с живым источником знаний - экспертом, а текстологические касаются методов извлечения знаний из документов (методик, пособий, руководств, полнотекстовых БД) и специальной литературы (статей, монографий, учебников). -27- экспертные игры Рис. 1.7. Классификация методов извлечения знаний Разделение этих групп методов на верхнем уровне классификации не означает их антагонистичности, обычно инженер по знаниям комбинирует различные методы [38], например, сначала изучает литературу, затем беседует с экспертами, или наоборот. В свою очередь, коммуникативные методы [39] можно также разделить на две группы: активные и пассивные. Пассивные методы подразумевают, что ведущая роль в процедуре извлечения знаний как бы передается эксперту, а инженер по знаниям только протоколирует рассуждения эксперта во время его реальной работы по принятию решений или записывает то, что эксперт считает нужным самостоятельно рассказать в форме лекции. В активных методах, напротив, инициатива полностью в руках инженера по знаниям, который активно контактирует с экспертом различными способами - в играх, диалогах, беседах за «круглым столом» и т.д. Пассивные методы на первый взгляд достаточно просты, но на самом деле требуют от инженера по знаниям умения четко анализировать «поток сознания» эксперта и выявлять в нем значимые фрагменты знаний. Отсутствие обратной связи (пассив-
-28- иость инженера по знаниям) значительно ослабляет эффективность этих методов, чем и объясняется их обычно вспомогательная роль при активных методах. Активные методы можно разделить на две группы в зависимости от числа экспертов, отдающих свои знания. Если их число больше одного, то целесообразно помимо серии индивидуальных контактов с каждым применять и методы групповых обсуждений ПрО. Такие методы активизируют мышление участников дискуссий и позволяют выявлять весьма нетривиальные аспекты их знаний. В свою очередь, индивидуальные методы на сегодняшний день остаются ведущими, поскольку столь деликатная процедура, как «отъем знаний», не терпит лишних свидетелей. Игровые методы широко используются и социологии, экономике, менеджменте, педагогике для подготовки руководителей, учителей, врачей и других специалистов. Игра - это особая форма деятельности и творчества, где человек раскрепощается и чувствует себя намного свободнее, чем в обычной трудовой деятельности. Многие из приведённых методов нашли применение в конкретных системах получения знаний и успешно используются в различных областях человеческого знания. Рассмотрим в качестве примера ряд наиболее известных систем, применяющие методы инженерии знаний. Наиболее ранней считается система TEIRESIAS, ставшая прародительницей всех инструментариев для приобретения знаний, которая предназначена для пополнения базы знаний системы MYCIN или ее дочерних ветвей, построенных на «оболочке» EMYCIN в области медицинской диагностики с использованием продукционной модели представления знаний. Одно из первых рассмотрений интервью как метода инженерии знаний проведено в [Newel, 1972]. Проблемы, возникающие при извлечении экспертных знаний, некоторые психологи связывают с так называемой когнитивной защитой. В [Kelly, 1985] была развита теория человеческого познания, основанная на понятии «персональных конструктов», которые человек создает и пытается приспособить к реалиям мира. В [Bose, 1984] теория персональных конструктов использована для создания системы извлечения экспертных знаний и показала свою способность успешно преодолевать когнитивную защиту, т.е. нежелание экспертов достичь четкого и осознанного ими истолкования основных понятий, отношений между понятиями и приемов решения задач в интересующей инженера по знаниям проблемной области. -29- Методы интервьюирования эксперта предметной области знаний с использованием нескольких различных стратегий применены при создании системы TEIRESIAS [Davis, 1982]. В [Kahn et aL, 1984] выделено восемь различных стратегий интервью, в [Kahn et aL, 1985] на основе этих стратегий исследуется возможность автоматического интервьюирования. Автоматизации метода протокольного анализа посвящены работы [Waterman, 1971,1973; Krippendorf, 1980]. В [Kahn et al. 1985] на примере диагностической системы MORE; описана техника интервьюирования, направленная на выяснение следующих сущностей, гипотез, симптомов, условий, связей и путей. Гипотеза — событие идентификация которого имеет своим результатом диагноз. Симптом-событие, являющееся следствием существования гипотезы, наблюдение которого приближает последующее принятие гипотезы. Условие - событие или некоторое множество событий, которое не является непосредственно симптоматическим для какой-либо гипотезы, но которое может иметь диагностическое значение для некоторых других событий. Связи-соединения сущностей (в том числе, других связей). Путь - выделенный тип связи, который соединяет гипотезы с симптомами. В соответствии с этим используются следующие стратегии интервью: дифференциация гипотез, различение симптомов, симптомная обусловленность, деление пути и др. Дифференциация гипотез направлена на поиск симптомов, которые обеспечивают более точное различение гипотез. Наиболее мощными в этом смысле являются те симптомы, которые происходят из одного диагностируемого события, Различение симптомов выявляет специфические характеристики симптома, которые, с одной стороны, идентифицируют его как следствие некоторой гипотезы, с другой-противопоставляют другим. Симптомная обусловленность направлена на выявление негативных симптомов, т.е. симптомов, отсутствие которых имеет больший диагностический вес, чем их присутствие. Деление пути обеспечивает нахождение симптоматических событий, которые лежат на пути к уже найденному симптому. Если такой симптом существует, то он имеет большое диагностическое значение, чем уже найденный. Аналогичные стратегии интервьюирования эксперта использованы при создании инструментальной диагностической системы ИДИС [Голубев и др., 1987]. -30- В системе KRITON [Diederich et aL, 1987] для приобретения знаний используются два источника: эксперт с его знаниями, полученными на практике (эти знания, как правило, неполны, отрывочны, плохо структурированы); книжные знания, документы, описания инструкции (эти знания хорошо структурированы и фиксированы традиционными средствами). Для извлечения знаний из первого источника в KRITON применена техника интервью, использующая стратегии репертуарной решетки и разбиения на ступени. При этом применяется прием переключения стратегий: если при предъявлении тройки семантически связанных понятий эксперт не в состоянии назвать признак, отличающий два из них от третьего, система запускает стратегию разбиения на ступени и предпринимает попытку выяснения таксономической структуры этих понятий с целью выявления признаков, их различающих. Для выявления процедурных знаний эксперта в KR1TON применен метод протокольного анализа. Он осуществляется в пять шагов. На первом шаге протокол делится на сегменты на основании пауз, которые делает эксперт в процессе записи. Второй шаг-семантический анализ сегментов, формирование высказываний для каждого сегмента. На третьем шаге из текста выделяются операторы и аргументы. Далее делается попытка поиска по образцу в базе знаний для обнаружения переменных в высказываниях (переменная вставляется в высказывание, если соответствующая ссылка в тексте не обнаружена). На последнем шаге утверждения упорядочиваются в соответствии с их появлением в протоколе. Анализ текста используется в KRITON для выявления хорошо структурированных знаний из книг, документов, описаний, инструкций. В [Morik, 1987] описан метод выявления модели предметной области. Первая фаза-формирование инженером знаний грубой модели предметной области путем определения предикатов и сортов их возможных аргументов и сообщения системе фактов об области, выразимых этими предикатами. Система выявляет свойства предикатов и устанавливает отношения между ними, структурируя таким образом предметную область. На второй фазе с помощью метазнаний (общих структур), отражающих особенности человеческого мышления, осуществляется проверка соответствия фактов предикатам, индуктивный вывод правил из фактов, вывод правил из других правил. В системах SIMER и ДИЛПС [Осипов. 1987; Osipov et aL, 1987] основным методом приобретения знаний является автоматизированное интервьюирование экспер- -31- та [40], которое управляется знаниями, приобретенными системой. В системах SIMER и ДИАПС не выявляется предварительная модель области. Все объекты (события) и их атрибуты определяются в режиме прямого интервьюирования эксперта. Предполагается только, что на множестве объектов могут быть заданы ряд отношений из известного (конечного) множества: «элемент-множество», «часть-целое», «пример-прототип», отношения структурного сходства объектов, структурной иерархии и некоторые другие. Все отношения попарно различаются формальными свойствами. Так, отношений структурного сходства не обладает транзитивностью, но симметрично. Отношение структурной иерархии, напротив, не обладает симметричностью, однако транзитивно. Па выяснение этих и ряда других свойств отношений и объектов направлено интервью. В частности, для установления структурного сходства на первой фазе интервью для каждого вновь вводимого понятия эксперту предлагается указать (с помощью меню) те понятия предметной области, с которыми может был» связано данное (без спецификации отношения). Затем в процессе интервью для каждой пары понятий (из выделенных на первой фазе) связь специфицируется, устанавливаются свойства и тип отношения, в число элементов которого включается исследуемая пара. Так, для включения некоторой пары понятий ^иУ.о которых эксперт сообщил, что Xвлияет на У (например ЛГ увеличивает возможность У), в число элементов некоторого отношения Я, обладающего среди прочих свойств симметричностью, необходимо задать эксперту вопрос: «Увеличивает ли У возможность ?», При положительном ответе на этот вопрос (и если прочие свойства уже установлены и удовлетворяют определению отношения Я) пара (X, У) включается в R, Для установления структурного сходства и структурной иерархии понятий используются стратегии подтверждения сходства и разбиения на ступени. В модели имеются метапроцедуры и метаправила, которые проверяют корректность модели, используют формальные свойства отношений для пополнения модели и генерируют правила. Основные этапы реализации системы приобретения знаний [41] можно сформулировать в виде следующих положений: 1. И1гтервыо для определения актуальной области, в которой происходит процесс решения интересующей проблемы, и расчленение ее на автономные области. -32- 2. Автоматизированное интервью для выявления и формирования декларативной модели предметной области. 3. Протокольный анализ к выявленным па предыдущем этапе понятиям и отношениям предметной области для пополнения модели процедурными знаниями. (этапы 2 и 3 можно использовать попеременно до тех пор, пока модель не достигнет нужной полноты). 4. Протокольный анализ для попонения декларативных знаний модели, 5. Проверка полноты модели. Обычно протокольный анализ выявляет пустоты в модели. Имеется в виду случай, когда понятия, использованные в «мыслях вслух», недостаточно описаны. В этом случае интервью и протокольный анализ повторяются. К современным методам инженерии знаний относятся методы интеллектуальной обработки полнотекстовых баз данных [42] такие как автоматическое реферирование и аннотирование, тематическая навигация, автоматическая текстовая декомпозиция и автоматическое структурирование текстов. Применение компьютеров не только ускоряет создание и обработку документов, но и чрезвычайно увеличивает их количество и объем. Очень многие пользователи регулярно сталкиваются с необходимостью быстро просматривать большой объём документов и выбирать из них действительно 1гужные. Эта задача возникает и при работе с текстовыми базами данных [43], и при разборке электронной почты, и при поиске в Интернет [44]. Часто бывает, что в крупных организациях, особенно государственных, правила делопроизводства предписывают сопровождать каждый важный документ кратким описанием. Во всех этих случаях весьма полезна возможность автоматически составлять сжатые описания содержания документов - аннотации. На рынке программных систем представлены различные системы автоматического реферирования (САР), поставляющиеся в составе какой-либо другой программной системы либо в виде самостоятельного продукта. Количество традиционных программ реферирования [45], то есть таких, которые выделяют наиболее весомые предложения из текста используя статистические алгоритмы, либо слова-подсказки очень небольшое. Inxight Summarizer [Kupiec, Pedersen and Chen, 1995] - одна из наиболее известных коммерчески распространяемых систем реферирования. Inxight Summarizer был создан в Исследовательском центре Ксерокса в Пало Альто, Причин успеха данной системы несколько; -33- 1. Наличие одного из наиболее совершенных алгоритмов оценки качества реферата. 2. Параллельное использование нескольких широко известных алгоритмов реферирования [46]; непосредственная связь между алгоритмами реферирования и алгоритмом оценки качества реферата. 3. Продажа не готовых программных продуктов, а модулей реферирования (динамических библиотек для Win32 и Solaris платформ). Среди коммерческих систем также можно отметить Prosum - систему реферирования, разработанную British Telecommunications Laboratories в рамках экспериментальной коммерческой он-лайн платформы TranSend и представляет собой cgi-скрипт, встроенный в веб-страницу [47]. Следует отметить, что описанные выше зарубежные системы [48],[49], приведены здесь лишь в качестве примера использования наиболее общих принципов извлечения знаний из текстов. Как показывает проведённый анализ САР за рубежом разработано много подобных систем [50],[51], которые широко внедрены и пользуются коммерческим спросом. Следует особо подчергагуть, что большинство зарубежных САР являются англоязычными, поэтому заложенные в них методы и алгоритмы, разработаны с учётом семантики и синтаксиса английского языка и, следовательно, не могут быть применены для обработки русскоязычных текстов. Так как интерес к традиционным системам автоматического реферирования неуклонно снижается, многие компании предлагают другие подходы. Одним из нетрадиционных решений является использование именных групп, выделенных с помощью частичных синтаксических анализаторов. Подобные алгоритмы используются в программных продуктах Extractor и TextAnalyst. Extractor создан в Институте Информационных Технологий Национального исследовательского Совета Канады. Он представляет собой модуль, выделяющий из представленного ему на вход текста наиболее информативные именные группы. По умолчанию количество таких групп - 7 вне зависимости от длины текста. Extractor используется в программных продуктах фирм ThinkTank Technologies и Tetranet, и в поисковой системе Журнала Исследований в Области Искусственного Интеллекта. Программа TextAnalyst создана в московском Научно-производственном инновационном центре «Микросистемы». TextAnalyst работает только с русским языком, -34- выделяя именные группы и строя па их основе семантическую сеть - структуру взаимозависимостей между именными группами. Широко распространённой является программа «Аннататор», предназначенная для автоматического реферирования русских и английских текстов, входящая в состав среды Microsoft Word™ из популярного офисного пакета Microsoft Office. В основе программы лежит технология, разработанная компанией «МедиаЛингва». «Аниататор» составляет связный реферат документа. Относительный размер реферата («коэффициент сжатия») задаётся пользователем. Система имеет два режима работы: собственно реферирование и выделение ключевых слов. В режиме реферирования из текста отбираются предложения, в наибольшей степени характеризующие его содержание. В режиме выделения ключевых слов производится выборка из текста наиболее информативных слов. Программа выделяет в тексте значимые и шумовые слова, самостоятельные и зависимые предложения, определяет семантический вес предложений и удаляет незначащие фрагменты. Отобранные предложения при необходимости слегка перефразируются. Используются специальные вероятностные модели, машинная морфология русского языка и другие интеллектуальные алгоритмы. Вследствие постоянного роста количества «электронных» полнотекстовых документов, появляется все больше новых методов навигации в информационных массивах. Соответственно другой разновидностью систем интеллектуального анализа являются системы тематической навигации в полнотекстовых базах данных. Технология тематического анализа позволяет автоматически выявлять ключевые темы текста. Они выражаются словами, входящими в него и определяемыми словосочетаниями, которые отражают основное содержание. По каждой из этих тем формируется резюме, составленное из наиболее представительных фрагментов текста, а также общее резюме — реферат. В ходе тематического анализа устанавливаются ассоциативные связи между темами с использованием критерия совместного появления слов в предложениях. Совокупность тем со связями образует ассоциативную семантическую сеть, работающую аналогично правополушарной модели предметной области обработанных текстов. В системе TopNet [52] тематическая навигация осуществляется на основе семантических сетей. Семантическая сеть главных тем текстов дает основу для навига- -35- ции по ассоциативным связям между темами. Одна из ее особенностей состоит в дифференциации связей по весам — численным характеристикам, отражающим относительную степень связности тем [53]. При этом большее значение веса связи одной темы по отношению к другой указывает на то, что первая тема в тексте почти всегда излагалась в контексте второй. Меньшее значение веса связи отражает тот факт, что относительно небольшая часть информации, касающаяся первой темы, касается в то же время и второй. Связь между нарой тем в сети всегда двусторонняя, однако ее веса в разные стороны могут отличаться, ведь известно, что «каждая селедка — рыба, но не каждая рыба - селедка». Подобное упорядочение позволяет визуализировать информацию в сети «по слоям связности», отображая более или менее сильные связи. При этом обрыв слабых связей разбивает сеть на ряд подсетей, представляющих отдельные тематические кластеры. Различие в весах прямой и обратной связей позволяет определить степень общности и частности тем, а также представить сеть в форме леса деревьев, разложив по уровням иерархии «рыб» и «селедок». Вследствие описанных выше особенностей визуальные формы представления сети могут быть самыми разными, и многие из них ещё до конца не исследованы. При работе навигатором на подобной сети пользователь имеет возможность перемещаться от темы к теме и получать тексты по отдельным из них и по выбранным связям [54]. Например, возможно извлечение документов, связанных по теме с заданной темой. В заключение следует отметить, что приведённые методы и системы интеллектуального и семантического анализа текстовых документов предназначены для решения отдельных задач приобретения знаний. Для решения задачи, поставленной в данной работе требуется комплексный подход, поскольку для построения КМ предприятия необходимы не только методы извлечения знаний из текстов, но и методы последующего анализа и интерпретации полученной информации. -36-1.3. Постановка задач, решаемых в диссертации В настоящей работе решается задача автоматизации семантического анализа информационных ресурсов в рамках проведения реорганизации управления машиностроительным предприятием. Для достижения поставленной цели разрабатывается ряд взаимосвязанных моделей и методов, позволяющих строить КМ машиностроительного предприятия автоматизированным способом на основе смыслового анализа документальных информационных ресурсов. Реализация метода автоматизированного построения тезауруса осуществляется в виде прикладной программной системы. Применение разработанных методов и моделей позволяет снизить трудоёмкость решения аналогичной задачи экспертами-аналитиками. Поскольку объектом исследования является множество информационных ресурсов, в его структуре можно выделить следующие составляющие: · документированные и недокументированные сообщения; · процессы формирования показателей и документов; · маршруты движения документов; · основания и процессы принятия решений; · информационные процессы (методы накопления, получения знаний, движение, возникновение, трансформация информации, вывод новых знаний на основе существующих фактов); · модели управления организацией; · структуры документальных информационных ресурсов. Объект автоматизации (ОА) можно определить как совокупность всех информационных потоков предприятия, а также информационных ресурсов организации, принадлежащих данной предметной области и имеющих отношение к производственно-коммерческой деятельности предприятия. В качестве составляющих предмета исследования можно выделить следующие: - предварительная работа с анализируемыми документами, - выявление всевозможных форм документации, техники их заполнения и обработки. - анализ потребностей пользователей по ведению делопроизводства; -37- - обоснование состава и структуры объекта исследования, - исследование специфических особенностей развития ОИ; - модели, методы и алгоритмы решения отдельных задач. Цель работы. За счёт применения разработанных моделей и методов предполагается снизить зависимость результатов исследования информационных ресурсов предприятия от субъективного человеческого фактора, и повысить уровень техники заполнения документов пользователями при работе на клиентских местах. Задачи, решаемые в работе. 1. Разработка структурно-синтаксической модели обобщённого производственного документа. Классификация типов применяемых документов на основе анализа состава реквизитов. Разработка обобщённой структуры производственного документа, выделение основных видов реквизитов и исследование способов представления информации в документах. Разработка алгоритмов и методов структурного анализа, разбора и трансляции документов. 2. Построение специализированной модели информационных ресурсов машиностроительного предприятия. Вывод основных свойств и характеристик профиля информационного потока. Поиск методов для вычисления специфических характеристик терминов документа в информационном потоке. Выявление на основе модели автоматизированным способом списка наиболее информативных терминов документов. Подготовка информационной базы для последующего формирования отраслевого словаря (технического тезауруса). 3. Разработка метода автоматизированного построения отраслевого словаря предметной области (технического тезауруса). Создание словаря производственных терминов исследуемой предметной области. Снижение требований к квалификации персонала, привлекаемого для построения тезауруса в качестве экспертов по предметной области. Уменьшение избыточности информации в документах. Повышение эффективности составления отраслевого словаря терминов. 4. Разработка метода трансляции неоднородной семантической сети в концептуальную модель машиностроительного предприятия. -38- Выявление из текстов документов множества понятий предметной области соответствующих конкретным объектам действительности - производственным объектам и процессам на основе составленного ранее тезауруса. Определение семантических связей понятий и построение неоднородной семантической сети. Разработка математического метода преобразования семантической сети понятий предметной области в информационную модель предприятия в виде фрейм-концептной структуры на основе модифицированной методики проф. Г.С.Осипова. 5. Разработка критериев оценки адекватности построения концептуальной модели машиностроительного предприятия. Поиск мер качественной и количественной оценки проведённого анализа документооборота предприятия. Разработка метода определения соответствия построенной концептуальной модели реально существующей организационной структуре производственного предприятия. 6. Алгоритмизация разработанных методов, моделей и критериев. Разработка алгоритмов, блок-схем и описаний для реализации разработанных в диссертации методов, моделей и критериев. В результате проведённого аналитического обзора, можно отметить, что большинство существующих технологий реорганизации систем управления предприятиями используют инструментальный подход для разработки образа будущей компании в рамках предпроектного обследования, причём методы интеллектуального анализа и извлечения знаний из существующих информационных ресурсов практически не используются. Специальный компьютерный инструментарий, необходимый для построения реальной бизнес-модели организации крайне дорог и требует значительных временных затрат на обучение персонала. Поэтому, разработка методов анализа информационных ресурсов при реорганизации управления предприятием на этапе предпроектного обследования является актуальной, а создание эффективных методов интеллектуального анализа знаний позволит снизить трудоемкость решения подобных задач. -39- выводы Организация эффективного управления предприятием под воздействием смены рыночной конъюнктуры является залогом поддержания конкурентоспособности компании. Обеспечить радикальное повышение эффективности бизнеса в современных условиях возможно только за счёт реорганизации системы управления предприятием, первоначальным этапом которой является построение образа будущей компании. Сложность первичного обследования заключается в необходимости изучения разнообразных форм документации, а также в интервьюировании большого количества специалистов по ПрО. Традиционные средства моделирования деятельности организации используют инструментальный подход, причём исследованию имеющихся информационных ресурсов, представляющих объективное описание работы предприятия, отводится незначительное место. На сегодняшний день накоплен значительный арсенал всевозможных средств для автоматизированного получения знаний. Разработаны не только методы описания, но и эффективного анализа и извлечения знаний из текстовых источников, такие как теория графов, метод семиотического анализа, различные методы автоматизированного интервьюирования специалистов по предметной области. Поэтому автором предлагается метод построения информационного образа компании в виде концептуальной модели на основе данных, полученных из документальных ресурсов предприятия, при помощи интеллектуальных методов извлечения знаний из текстов. Предлагаемый подход для решения поставленной задачи, легко реализуются на программ и о-алгоритмическом уровне, что позволит, в отличие от использования дорогих инструментальных средств, наподобие популярных систем моделирования и анализа бизнес-процессов предприятия, таких как BPWin, Rational Rose и Aris, существенно снизить затраты на предпроектное обследование, сократить объём людского труда и уменьшить необходимость привлечения высококвалифицированных экспертов-аналитиков. -40- 2. Модели информационных ресурсов управления машиностроительным предприятием 2.1. Классификация документальных ресурсов машиностроительного предприятия Документы, отражающие деятельность предприятия, весьма разнообразны [55]. Их можно классифицировать по назначению и содержанию, месту формирования, способу использования, периодичности разработки и т. д. Группировка документов по назначению позволяет выделить перечень различных видов документов и показателей внутри информационных потоков, т. е. раскрыть их содержание. Существует несколько признаков классификации документов по видам: Классификация документов по видам Таблица 2.1.
-41- РОСГ.ИЙСХЛЯ ГОСУДАРСТВЕННАЯ БИБЛИОТЕКА В зависимости от особенностей ведения и учёта хозяйственной деятельности какая-либо группа документов может преобладать или быть незначительной. Организационно-распорядительными документами (ОРД) называют документы, функционирующие в сфере управления. С этой документацией работают сотрудники всех структурных подразделений предприятия. С помощью этих документов определяются функции и права органа управления, устанавливается структура и штаты подразделений, контролируются подведомственные объекты, фиксируются кадровые решения и т.д. Можно выделить следующие группы ОРД: · организационные (уставы, учредительные договоры, структура и штатная численность, штатное расписание, должностные инструкции, правила внутреннего трудового распорядка), · распорядительные (приказы по основной деятельности, распоряжения, решения); · справочно-ипформационные (акты, письма, факсы, докладные записки, справки, телефонограммы); · документы по личному составу предприятия (приказы по личному составу, трудовые контракты, личные дела, личные карточки по форме Т-2, лицевые счета по зарплате, трудовые книжки); документы предпринимательской деятельности (контракты, договоры). Финансово-расчетная документация обеспечивает точное и своевременное выполнение финансовых, банковских и других операций, способствует рациональному использованию денежных средств. Отличительной чертой этого вида документов является строгая стандартизация, использование типовых форм документов. Для стандартных документов устанавливается состав реквизитов, место их расположения, формат, цвет и качество бумаги. Правила составления этой документации тесно связаны со знанием бухгалтерского учета. Документация материально-технического снабжения и сбыта (ДМТС) занимает значительное место в общем объеме. Её особенность состоит в том, что многие документы этого вида можно отнести также к другим видам документации, например, к плановой, статистической, бухгалтерской и др. Можно выделить следующие группы ДМТС: -42- · Договорные (хозяйственные договоры по снабжению и сбыту продукции); · Переписка между коммерческими службами и органами снабжения и сбыта (запросы, извещения, ответы, напоминания, коммерческие письма); · Сопроводительная по отгрузке и транспортировке (сертификаты, спецификации, накладные, коммерческие акты, доверенности на получение материальных ценностей); · Претензионные (претензионные письма, рекламации, исковые заявления, кассационные жалобы); · Рекламные (рекламные объявления, листки, брошюры, презентации). В разовом документе записывают одну или несколько операций одновременно, причем этот документ непосредственно после его составления и оформления поступает в бухгалтерию для отражения в системе учетных регистров. К ним относятся накладные, кассовые ордера, авансовые отчеты, приемные и сдаточные акты и т. д. Накопительные документы применяются для многократной записи ряда однородных операций постепенно в течение определенного периода. Внутренние документы создаются данным учреждением и обеспечивают его потребности. Оформление внутренних документов регулируется Bir/греиними нормами данного учреждения. К внутренним относятся, например, поступающие на склад из цехов требования на отпуск материалов в производство, платежные ведомости на выплату заработной платы сотрудникам и т.п. К внешним документам относятся документы, полученные извне или направленные в адрес других организаций. Данный вид документов характеризует производственно-хозяйственные взаимоотношения с другими предприятиями и организациями. Так, при покупке материалов от поставщиков поступают счет — платежные требования, при реализации ■— денежные переводы, подтверждения, рекламации и т. п. Отдельную группу составляют нормативные документы вышестоящих органов, которые поступают от государственных и муниципальных органов власти и регулируют деятельность предприятия, например, положения о налогах, об охране окружающей среды и т.п. Индивидуальные документы создаются в произвольной форме, например, документы личного характера. -43- Типовые документы представляют собой текст - образец, на основе которого строятся тексты аналогичного содержания с сохранением основных конструкций и формулировок, например, типовые номенклатуры дел предприятия. Трафаретные документы содержат часть текста, отпечатанного заранее, а часть текста вписывается при его составлении. Как правило, такие документы создаются на бланках. Рукописно-печатные документы изготавливаются на бумаге рукописным, машинописным, типографским способом или на множительных аппаратах. Фотокинодокументы фиксируют информацию на фото- и кинопленке и позволяют запечатлеть процессы, которые невозможно или затруднительно фиксировать другим путем. Электронные документы применяют для записи информации на магнитные и оптические носители, а для воспроизведения используют компьютер, магнитофон, видео-магнитофои, при этом содержание документа может быть любым: текст, графика, речь, фотография или кино. Текстовый документ содержит в основном текст с небольшим включением иллюстраций. Гипертекстом называется документ, включающий в себя интерактивные ссылки на другие документы. С их помощью читатель, указав на какое-либо слово или фразу, немедленно получает дополнительную информацию по соответствующему предмету. К графическим документам относятся чертежи, схемы, карты, рисунки. Звуковые документы позволяют фиксировать живую речь: заседания коллегиальных органов, протокол допроса и др. Документы мультимедиа наряду с текстом и графикой включают в себя звук и видеоизображения. И, наконец, гипермедиа документы объединяют в себе гипертекст и мультимедиа, то есть, информация представлена в них в любой форме (в виде текста, рисунков, звука и кино) и встречаются ссылки на другие документы. Особо широкое распространение гипермедиа документы получили в последнее время в связи с использованием компьютерных сетей в качестве средств связи. -44- Оригиналом называется документ, созданный в первый раз индивидуальным или коллективным автором. Если оригинал составлен по определенной форме и подписан должностными лицами, то его называют подлинником. Оригиналы, составленные в нескольких экземплярах, называются умноженными и имеют каждый одинаковую юридическую силу. Копия - это повторное, абсолютно точное воспроизведение оригинала, засвидетельствованное в установленном порядке. Различают несколько видов копий: · дубликат - это копия, выдаваемая взамен утерянного подлинного документа, она имеет одинаковую юридическую силу с подлинником; · выписка - это копия, воспроизводящая часть текста документа; · отпуск - это полная копия отосланного документа, подшиваемая в дела отправителя. Правильность выписки подтверждается подписями должностных лиц и печатью. Правильность отпуска удостоверяется пометкой «верно» и подписью лица, ответственного за делопроизводство. При формировании различных документов необходимо различать два типа процессов: расчет показателей и формирование документа. Расчеты показателей представляют собой набор действий и правил с исходными данными, а также последовательность их обработки для получения необходимого показателя. Формирование документа представляет набор исходных показателей и последовательность записи в форме документа. Набор документов и процессы их формирования, а также расчет показателей в определенной степени отражают существующую систему планирования и управления. Однако эти сведения не дают представления о характере работ каждого конкретного подразделения управляющей системы. Поэтому в дальнейшем изучаются маршруты движения документации, которые отражают определенную последовательность ее прохождения по подразделениям от момента формирования до сдачи на хранение или передачи за пределы предприятия. Маршруты движения документации выявляются по каждой форме или любому письменному сообщению. Они могут быть получены в результате прослеживания пути каждого отдельного документа или же в процессе изучения работы подразделений и последующего обобщения сведений по всему предприятию. Выбор конкретного метода определяется особенностями организации обследования. -45- Приведённая выше классификация документальных ресурсов по различным критериям служит для более чёткого определения объекта исследования. Автором считается, что деятельность большинства предприятий на уровне бизнес-процессов достаточно полно описывается организационно-распорядительной документацией, представленной в текстовом виде, т.е. совокупность производственной документации рассматривается как объективный источник информации о ПрО. Многочисленные мультимедийные информационные ресурсы, такие как аудио-и видеозаписи, интсрпет-докумситы, а также конструкторская документация, чертежи и прочие графические документы, на которые не распространяются обычные методы формализации [56], в подавляющем большинстве случаев являются лишь основанием либо параметром для какого-либо управленческого решения и, как правило, содержат текстовый сопроводительный документ, который определяет способ применения нетекстового документа. Гипермедиа документы, такие как например аудиозапись заседания управленческого аппарата либо видеозапись конференции коллегиальных органов и т.п., обязательно содержат текстовую расшифровку и сопровождаются текстовым документом, подтверждающим юридическую силу гипермедиа документа. Таким образом, можно сделать вывод о том, что на основе анализа производственной документации, представляющей объективный источник информации о деятельности предприятия, можно построить объективную модель данного предприятия. -46- 2.2. Структурно-синтаксическая модель обобщённого производственного документа машиностроительного предприятия Согласно статьи №2 Федерального закона от 04.07.1996 7.N 85-ФЗ «Об участии в международном информационном обмене», документированная информация (документ) - зафиксированная на материальном носителе информация с реквизитами, позволяющими ее идентифицировать. При исследовании документации промышленного предприятия очень важным этапом является предварительная работа с анализируемыми документами, которую можно охарактеризовать как всестороннее выявление всевозможных форм документации, техники их заполнения и обработки. Значительно упростить задачу создания универсальной структуры документа можно путём проведения классификации и стандартизации документов по ряду критериев. Любой документ состоит из ряда составляющих его элементов (даты, тела документа, подписи и т.д.), которые называются реквизитами. Автором предлагается представить обобщённую модель документа в виде мнолсества компонентов. Правила их составления и оформления, а также место расположения на документах фирмы должны соответствовать ГОСТу Р 6.30-97 [57]. В соответствии с этим стандартом максимальный набор реквизитов устанавливается равным 29: · rj- Государственный герб Российской Федерации · rj-герб субъекта Российской Федерации · rj-эмблема организации или товарный знак (знак обслуживания) • /у-код организации · 1»5-код формы документа · Гй-наименоваиие организации · Гт-справочные данные об организации • /у-наименование вида документа • /у-дата документа • /70-регистрационный номер документа · r/r-ссылка на регистрационный номер и дату документа составления или издания -47- · Г13~ГРИФ ограничения доступа к документу • /-/^-адресат · rls- гриф утверждения документа · г/й-резолюция · г/т-заголовок к тексту • /»/^-отметка о контроле · r/jr-текст документа • ^(готметка о наличии приложения · ог-подпись · Гг^-гриф согласования документа · r^j-визы согласования документа • ^/-печать · г^г-отметка об исполнении документа и направлении его в дело • /^j-OTMCTKa о заверении копии • /•дг-отметка об исполнителе · г^г-отметка о поступлении документа в организацию · о^-отмстка для автоматического поиска документа Однако, как показывает анализ структур документов, на практике в конкретном документе реквизитов будет гораздо меньше по двум причинам: 1. Каждый вид документа имеет определенный набор реквизитов. 2. В практике работы фирм не используются следующие реквизиты: Г( - Государственный герб Российской Федерации (используется на бланках высших органов власти и управления РФ). Помешают на бланках документов в соответствии с Положением о Государственном гербе РФ. г2 - герб субъекта Российской Федерации (используется на бланках органов власти и управления субъектов РФ). Помещают на бланках документов в соответствии с правовыми актами субъектов РФ. Кроме того, некоторые реквизиты, хотя и являются обязательными, не применяются в документах фирм из-за отсутствия справочников и классификаторов. Например: г4 - код организации (по ОКПО - общероссийскому классификатору предприятий и организаций) -48- r5 - код формы документа (по ОКУД - общероссийскому классификатору управленческой документации) Реквизит rj2 - место составления или издания документа указывают в том случае, если затруднено его определение по реквизитам «наименование организации» и «справочные данные об организации». Место составления или издания указывают с учетом принятого административно-территориального деления, и оно включает только общепринятые сокращения. Состав и расположение основных реквизитов есть формуляр-образец документа или его шаблон (рис.2.1.):
Рис. 2.1. Расположение основных реквизитов (формуляр-образец документа) -49- Исходя из логической организации реквизитов в документе, любой производственный документ Dj может быть представлен в виде следующей модели: (2.1) где у- заголовочная часть (в нее входят реквизиты, расположенные до текста); fi- основная часть (реквизиты «текст» и «отметка о наличии приложения»); S- оформляющая часть (реквизиты, расположенные ниже текста и приложения). В обобщённом виде модель документа можно представить в виде граф-схемы (рис. 2.2.): Рис.2.2. Общая структура документаНазначение реквизитов и логическое расположение на формуляре документа позволяет территориально объединить их в соответствующие группы реквизитов, как показано на рис.2.3. Представим структурную схему документа в виде ряда сообщающихся реквизитных областей А{...Лтгде п=11 -количество реквизитных групп.
-50- Рис. 2.3. Расположение областей реквизитов в документе
-55- Грамматика для реквизита г6 (наименование организации). Список обозначений: А0-полпое наименование организации, Aj-форма собственности, В-имя организации по учредительным документам, С-наименование филиала (территориального отделения, представительства, структурного подразделения организации, W-слово, L-любая буква, N-число без знака; К-любая цифра;). №={А,,В,С}; Т={«ООО», «ОАО», «ЗЛО», «ТОО», «ПО», «МП», «ГАЗПРОМ», «ЛЕНЭНЕРГО», «СЕВЕРСИНТЕЗ», «МОСГОРТРАНС», «О», «1», «2», „., «9», «А», «Б», «В», ..., «Э», «Ю», «Я» }; P={A0->AiB|A0-»ABC, А,~>«00О», Ai->«OAO», Ai-»«3A0», Ai->«TOO», Ai->«nO», (В-»«ГАЗПРОМ», В-»«ЛЕНЭНЕРГО», ... В-»«СЕВЕРСИНТЕЗ», В->«МОСГОРТРАНС») | (B-»WB, W->LW, Грамматика для реквизита г? (справочные данные об организации). Список обозначений: А-наимснование; В-адрес получателя; С-телефои, D-e-mail, E-web-aflpec(URL); Ar форма собственности, Аг-имя; Вгрегиои, В2-город, Вз-населённый пункт, В4-улица, В5-дом, Вб-корпус, В7-примсчанис; Сркод города, Сг-число без знака, С3-разделитель; Di-имя, 02-собачка, Оз-домен, W-слово, L-любая буква, N-число без знака; К-любая цифра; N={A,AljA2,B,Bi3233,B4,B536)C,CI,C2,C3ADi,D2,D3,E}; Т={«000»,«ОАО»,«ЗАО»,«ТОО»,«ПО», «самарская обл», «вологодская обл», «кировская обл», «московская обл», «дер паприха», «пос шуйское», «пгт молочное», «Калинина», «яшина», «герцена», 1, 2, 3,4, 5,6, 7, 8, 9, О, А, Б, В, Г, Д,..., Э, Ю, Я}; , А,-»«ООО», Ai->«OAO», Ai->«3AO», , W-»LW, L->«A», L-^«B» , L->«B» , Ь-^«Г 5B6B7, В]->«самарская обл», В!->«вологодская обл», В1-»«кировская обл», Bi—> «московская обл», В2-»«астрахань», В2->«белгород», В2—>«вологда», В2->«гомель», Вз->«дер паприха», В3->«пос шуйское», Вз—>«пгт молочное», В4^«калинина», В4-> «яшина», В4->«герцепа», B5->N, N^KN, K->0, K->1, К->2, К->3, К->4, К->5, К->6} К->7, К->8, К^-9, B6->L, -59-В2-»«Омск», В3->«Невский пр.», Вз-»«ул. проф. Попова», ..., Вз—>«Чехова», B4->N, Грамматика для реквизита г!5 (гриф утверждения). Список обозначений: R-текст реквизита, Трслово «УТВЕРЖДАЮ», А-полное название фирмы, Арформа собственности, Аг-имя фирмы; В-наименование должности лица, утвердившего документ, В[-личная подпись, В2-шшциалы, Вз-фамилия, Е-дата утверждения документа, D-день, М-мссяц, Y-год, L-любая буква, N-число без знака; К-любая цифра; S-разделитель. Т=г{«УТВЕРЖДАЮ)>, «Генеральный директор», «Главный бухгалтер», «Начальник отдела»,..., «Старший менеджер», «ООО», «ОАО», «ЗАО», «ТОО», «ПО», «ГАЗПРОМ», «ЛЕНЭНЕРГО», «СЕВЕРСИНТЕЗ»,..., «МОСГОРТРАНС», «Иванов», «Петров»,..., «Сидоров», 1, 2, 3, 4, 5, 6, 7, 8, 9, О, «А», «Б»,..., «Я», «.»}; P={R->T]BABiB2B3E, Т!->«УТВЕРЖДАЮ», В^«Генеральный директор», В—^«Главный бухгалтер», В—>«Начальиик отдела»,..., В—^«Старший менеджер», А!->«000», A|->«OAO», Ai-»«3AO», Ai^«TOO», Ai-»«Mn», А2->«ГАЗПРОМ», А2->«ЛЕНЭНЕРГО», А2->«СЕВЕРСИНТЕЗ»,..., А2->«МОСГОРТРАНС», Bi->/>0, B2^LSLS, , E-J-DSMSY, D->N, M->N, Y->N, Грамматика для реквизита г18 (отметка о контроле). Список обозначений: R-текст реквизита. N={R}; Грамматика для реквизита гго (отметка о наличии приложения). Список обозначений: -60- R-текст реквизита, Ti-слово «Приложение», А-порядковый номер приложения, В- название документа-приложения, Т2-слово «на», Т3-слово «л.», Т4-слово «в», Т5-слово «экз», Срколичество листов, С2-количество экземпляров, N-число без знака; К-любая цифра; S-разделитель. N={R,TbA,B,T2,T3,T4AB,C,,C2}; Т={ «Приложение», «на», «л.», «в», <окз», «.»}; iT3T4C2T5, Т1->«Приложение», A~>N, N-»KN, ???, Т2->«на», Т3-»«л.», Т4->«в», Т5-»«экз», Ci-*N, Грамматика для реквизита г^ (подпись). Список обозначений: R-текст реквизита, А-полное название фирмы, Агформа собственности, А2-имя фирмы; В-наименованис должности лица, подписавшего документ, Bj-личная подпись, В2-инициалы, Вз-фамилия, L-любая буква, N-число без знака; К-любая цифра; S-разделитель. N={R,A,AbA2,B,B,,B2,B3,S}; Т={«Генеральный директор», «Главный бухгалтер», «Начальник отдела»,..., «Старший менеджер», «ООО», «ОАО», «ЗАО», «ТОО», «ПО», «ГАЗПРОМ», «ЛЕНЭНЕРГО», «СЕВЕРСИНТЕЗ»,..., «МОСГОРТРАНС», «Иванов», «Петров», ..., «Сидоров», I, 2, 3,4, 5, б, 7, 8, 9, 0, «.»}; P={R-»BABiB2B3, В->«Гснеральный директор», В->«Главный бухгалтер», В^«Началышк отдела»,..., В->«Старший менеджер», Ai—>«000», А]—и<ОАО», Ai->«3AO», A,->«TOO», Ai^-«Mn»} А2^-«ГАЗПРОМ», А2->«ЛЕНЭНЕРГО», А2->«СЕВЕРСИНТЕЗ»,..., А2->«МОСГОРТРАНС», В{->рь B2->LSLS, В3-»«Иванов», D2->«neTp0B»,,.., 02->«Сидоров», Грамматика для реквизита г2г (гриф согласования документа). Список обозначений: R-текст реквизита, Tj-слово «СОГЛАСОВАНО», А-полное название фирмы, Ар форма собственности, А2-имя фирмы; В-наименование должности лица, с которым согласовывается документ, Bj-личная подпись, В2-инициалы, Вз-фамилия, Е-дата со- -64- 2.3. Модель информационных ресурсов управления машиностроительным предприятием Описание документов основывается на представлении их в виде информационных единиц (сообщений). Каждый документ представляет из себя объект, содержащий множество полей, свойств и атрибутов (лексических единиц). Информационные потоки представляются в виде множества документов (сообщений). Описание информационных потоков, базирующееся на матричном представлении документов [64], [65], [66], приводится в исследованиях многих ученых, таких как Д.О. Аветисян, В.В. Емельянов, И.И. Попов, Дж.Солтон, СИ. Ясииовский и др. В работе [67] Поповым И.И. разработана модель описания информационных потоков с целью описания процессов и систем, оценки и оптимизации как абстрактных систем, так и конкретных БД. В модели рассматриваются наиболее общие вопросы описания, оценки и оптимизации документальных информационных ресурсов и систем. Предлагаемая автором модель, предназначена для описания документальных ресурсов машиностроительного предприятия. Целью создания модели является построение математического аппарата для определения специфических частотных свойств терминов в документах с возможностью выявление терминов, наиболее значимых для ПрО с возможностью формирования отраслевого словаря терминов ПрО. Под термином понимается слово либо устойчивое словосочетание со строго определенным лексическим значением используемое для описания объектов в бизнес-процессах. Для построения данной модели наибольший интерес вызывают термины, представляющие имена объектов и субпроцессов входящих в каждый конкретный бизнес-процесс. Например, для процесса реализации готовой продукции наиболее значимыми будут являться термины, такие как «сбыт», «продажа», «отгрузка», «доставка», «менеджер по продажам», «реклама», «товар», «клиент», «заказ» и т.п. Каждый документ в системе представляет собой отдельное информационное сообщение, поэтому понятия «документ» и «информационное сообщение» будем считать эквивалентными. Общие обозначения и величины, используемые в модели: MD - общее количество документов в системе, -65- Nr — общее количество видов терминов, q\ - количество видов терминов в i'-м документе, UT - общее количество терминов (с учётом повторений) по всем документам, уг[ - количество терминов к-то вида (с учётом повторений) в /-м документе. Пусть v* - некоторый документ, принадлежащий множеству документов из рассматриваемой предметной области F. Тогда для любого документа системы будет выполняться условие: v, a F i = I M (2 91 где Мо - количество зарегистрированных документов в системе. Отдельный поток информации (например структурного подразделения) будет состоять из множества информационных сообщений: K = {v1,...,vJ,v/eF,/ = u (2.10) Введем определение проекции предметной области (ППО) как универсальный массив всевозможных информационных сообщений, возникающих за определённое время ^жизненного цикла описываемой системы: Ур={у,.....v,.....v,,T} (2.11) Причем Vvf € Vp для всех к, причем \Vp\ = ip — мощность множества Vp. Определения (2.9), (2.10), (2.11) представляют собой базовое описание п-мерноп модели информационных потоков. Любой документ формально представляется в виде одномерного массива-вектора: [1, если в к —ом документе v/= vie ••• hm ••- ‘*,J» Где '*, = “j встретился п-итермин (2.12) [0, иначе Величина // определяет появление терминов из всего информационного потока Vp в k-м документе без учета повторяемости терминов в данном документе. Представим введённое ранее понятие прообраза предметной области (ППО) в виде линейного матричного представления с учётом (2.12), как совокупность всех терминов всех имеющихся в системе документов: -72-2.4. Метод автоматизированного построения технического тезауруса В качестве немаловажной особенности существующих систем анализа текстов следует выделить необходимость использования словаря предметной области [71] как компонента системы для выполнения ряда фаз выявления знаний из текста, а именно, морфологического анализа, выделение имён и словосочетаний и т.д. Однако требование предварительного создания словаря предметной области сильно осложняет задачу и, вместе с тем, уменьшает степень универсальности получаемой системы. Поэтому, задача построения словаря предметной области решается наравне с задачей приобретения знаний [72]. Методы построения тезауруса рассматривались уже достаточно давно, с появлением интереса в области построения экспертных систем. Наиболее полно теоретическими вопросами построения тезауруса именно для производственных предприятий занимались Садовников В.И. и Эпштсйи П.Л. при разработке систем управления. В работе [30] описай тезаурус, предназначенный для формализованного описания структурных компонент потоков информации. Построение тезауруса основывается на использовании искусственного языка (ИЯ) с полужесткой структурой. ИЯ определяется форматом структурной компоненты. Структура словарей представляет собой объединение таблиц и списков, с использованием индексных ссылок. Тезаурус строится на основе текстов естественного языка (ТЕЯ), используемого в данной отрасли производства, для описания сообщений об исходных объектах. Разработка тезауруса требует предварительного редактирования текстов, вследствие стихийности ТЕЯ. Заполнение словарных статей осуществляется вручную специалистом-экспертом на основе собственных знаний о предметной области. В представлении компонентов-дескрипторов не используется чёткая формализация, поскольку элементы словарей представляют собой произвольное множество слов языка. В процессе пополнения тезауруса появляются неудобства, связанные с необходимостью контролирования кодировки и упорядочения дескрипторов. Многие методы построения и пополнения тезауруса [73,74], опираются на принцип эксплицитного кодирования сложных семантических отношений между словами для представления их значений. -73- В рамках дистрибутивного подхода [75] семантические особенности слова выявляются посредством статистической обработки данных о его дистрибуции, т.е. данных корпуса о частотности его сочетания с другими словами. В работах [76],[77],[78] продемонстрировано, что сочетаемостиые характеристики слова, извлеченные из корпуса, могут быть основанием для успешной автоматической классификации этого слова к одному из многочисленных семантических классов, таких как синонимические группы WordNet или тезауруса Роже. Дистрибутивный подход, однако, плохо применим к редким словам, т.е. таким словам, о которых используемый корпус содержит недостаточно данных для того, чтобы можно было судить об их значении. Как известно, компиляция лексических ресурсов требует чрезвычайно больших затрат от разработчиков. Поэтому в последнее время в области ОЕЯ особое внимание уделяется изучению способов автоматизированного вычленения лексического знания из корпусных данных [79]. Следует отметить, что различные варианты тезауруса широко применяются во многих солидных поисковых интернет-системах [80]. Особенностью реализации тезауруса в данных системах является, как правило, наличие сильно разветвлённой иерархической структуры, системы тематических каталогов и сложных механизмов индексации терминов в словарных статьях, вследствие обширности информационного поиска [81]. Решение данной задачи предлагается путём автоматизированного интерактивного построения специализированного технического тезауруса при минимальном участии человека-эксперта» с помощью разработанной методики. Наличие словаря предметной области является обязательным условием для построения модели предприятия в виде семантической сети по методике Г.С. Осипова. Предлагаемый метод помогает также решить ряд важных задач первоначального этапа анализа документо-потоков. Во-первых, позволяет сформировать ограниченное подмножество естественного языка, что может использоваться как для анализа вновь получаемых документов, так и для проверки соответствия структуры анализируемого документа универсальному шаблону производственного документа. -74- Во-вторых, дает возможность снизить затраты дорогостоящих человеческих ресурсов, в частности, допускается снижение значимости оценочных суждений человека-эксперта, что в свою очередь, делает систему более автономной и мобильной. Проектируемый тезаурус имеет простую структуру линейного списка. Вес термины, составляющие тезаурус разбиваются на ряд семантических классов. При разработке тезауруса предполагается, что семантические классы, к которым следует приписать новое слово, независимы друг от друга, т.е. различные семантические отношения между классами, такие как таксономические отношения, отношения части и целого и т.д. отсутствуют. В общем случае - тезаурус это словарь задающий преобразование одного множества терминов в другое Do —> D, такое, что каждому термину из множества Do однозначно соответствует один или несколько терминов из множества D. Разрабатываемый тезаурус используется в методике построения НСС в качестве информационного языка и служит для извлечения понятий предметной области. По структуре тезаурус состоит из двух взаимозависимых множеств терминов Do и D|. Каждому термину в Do соответствует понятие, определяющее группу терминов, соответствующих синонимичным понятиям в Dj. Представителя группы синонимов из Di будем называть дескриптором, а представителя из Do ключевым термином (КлТ). Множество Do представляет собой непересекающийся набор терминов со строго разграниченными лексическими значениями, каждый из которых представляет класс, охватывающий синонимы в данной предметной области. Множество Do представляет собой кортеж: Do = <NT, С, М, 1Т> (3.20) где NT - наименование термина, содержит слово или словосочетание; С - определённый семантический класс; М - множество морфологических признаков; 1Т _ уникальный индекс термина. Множество Di представляет собой набор дескрипторов, каждый из которых однозначно соответствует термину из множества Do. В D] можно выделить группы дескрипторов-сшюнимов, определяемые КлТ из Do. Множество D[ представляет собой кортеж: -75- C,M,Io> (3.21) где NT - имя термина; С - семантический класс, соответствующий данному термину; М - множество морфологических признаков; 10 - индекс термина, соответствующий ЦЛТ из Do. Каждому КлТ присваивается уникальный индекс 1Т- числовое значение, благодаря которому осуществляется поиск термина в словаре, а каждому дескриптору из словаря синонимов ставится в соответствие значение индекса, определяющего КлТ. Все термины снабжаются морфологическими признаками, необходимыми для идентификации семантических представителей в процессе построения НСС. Исходя из потребностей методики построения НСС выделены наиболее подходящие из них. В результате множество морфологических признаков будет определяться кортежем: M = <L,Q,P,S> (3.22) где L - Часть речи; Q - Число; Р — Одушевлённое/неодушевлённое; S - род (мужской/женский/средний). Структура словарей допускает размещение терминов и их характеристик, являющихся любыми частями речи. Однако, нас, преимущественно, интересуют существительные, имена собственные и имена нарицательные, поскольку в дальнейшем именно среди них отбираются кандидаты на роль понятий ПрО. Источником информации для отбора терминов служит производственная документация, поэтому в целях логического разграничения терминов введён перечень основных классов понятий, который может быть отредактирован составителем тезауруса при необходимости. С = {cls c2, с3, с4, с5, с6, с7} (3.23) где cj - трудовая единица (по названию должности); с2 - имя юридического лица; Сз -имя подразделения предприятия; С4 - средство труда (станок, агрегат, механизм, орудие труда); с5- предмет труда (материал, заготовка, сборочная единица); eg— информационный ресурс (документ, программа, нематериальный актив); с7- прочее; Все отобранные словосочетания и слова заносятся в словари в канонической форме, согласно правилам морфологии русского языка. Для определения логической принадлежности понятий ПрО к конкретным бизнес-процессам введено множество основных бизнес-процессов, неизменно присутст- -76- вующих на любом промышленном предприятии, который при необходимости может быть дополнен и уточнён аналитиком. В = {bh Ь2, Ь3} (3.24) где bi — «снабжение»; Сз- «производство»; Сз- «сбыт». Ранее, в модели информационных ресурсов, в главе №2, были сформулированы основные свойства терминов в информационном потоке в виде математических соотношений, которые в дальнейшем будут использоваться для определения частотных свойств терминов при заполнении словарей тезауруса. Формирование тезауруса осуществляется в несколько этапов. 1) Представленные к анализу документы группируются по подразделениям, сортируются по названию, получают уникальные числовые идентификаторы; формируется список документов. 2) Содержимое каждого документа разбивается на отдельные слова; каждому слову присваивается временный индекс, формируется список найденных слов. 3) Выполняется морфологическое преобразование всех слов к канонической форме. 4) Формируется перечень классов допустимых понятий. 5) Из списка слов исключаются слова, не соответствующие по морфологическим признакам существительным, именам собственным и именам нарицательным. 6) Список слов переформировывается, оставшимся словам присваиваются новые идентификаторы. 7) Для каждого слова вычисляются его весовые характеристики и частотные свойства согласно выражений 2.12-2.28. 8) Термины группируются в порядке убывания их абсолютного веса, наиболее весомые термины помещаются в начало общего списка, как наиболее вероятные кандидаты на роль КлТ. 9) Специалист-эксперт визуально просматривает список и удаляет ошибочно введённые термины, корректирует список при необходимости. 10) Экспертом выполняется разбивка множества терминов по основным классам понятий ПрО и предварительно определяется принадлежность каждого к одному из заданных бизнес-процессов. 11) Эксперт выбирает очередной термин из общего исходного списка, руководствуясь его весовыми характеристиками и переносит его в словарь Do, при этом система ав- -77- томатичсски отображает подмножество терминов из класса понятий соответствующего выбранному термину, 12) Эксперт находит из предлагаемого подмножества термины синонимичные выбранному, и/или вводит недостающие. 13) Выделенным терминам-синонимам присваивается индекс соответствующего КлТ, осуществляется их перенос в словарь синонимов Db выполняется удаление всех вхождений данных терминов из общего списка. 14) Выполняется работа по выделению малочастотных, но значимых для ПрО терминов: вычисляются относительные веса согласно (2.хх), определяются наиболее значимые термины и заносятся в соответствующий список. 15) Повторяются этапы 11-14 до полного опустошения общего списка терминов. Работа над составлением тезауруса завершается. Приведённый метод автоматизированного построения тезауруса в целом обладает рядом преимуществ, по сравнению с другими методами: · удобство: при составлении тезауруса первоначально в словарь заносятся все термины, таким образом всё множество потенциальных терминов находится «на виду» у составителя, что уменьшает вероятность потери важного понятия; · простота: структура словарей представляет линейные списки, что позволяет ускорить заполнение тезауруса (за счёт игнорирования иерархических связей) и повысить скорость работы с тезаурусом; · универсальность: отсутствуют ограничения на предметную область, поскольку методы определения частотных свойств терминов опираются лишь на языковые особенности текста; · возможность заполнения тезауруса «с нуля», поскольку не требуется базовое наполнение тезауруса для вычисления дистрибутивных мер схожести, применяемых в дистрибутивном методе для заполнения соответствующих словарей; -78- выводы Документ — это зафиксированная на материальном носителе информация с реквизитами, позволяющими ее идентифицировать. Как правило, на машиностроительном предприятии используется большое количество форм всевозможной документации и правил по их составлению и оформлению, поэтому классификация документов по различным критериям позволяет повысить эффективность обработки больших массивов информации и чётче ограничить виды исследуемых документов. Автором предложена структурно-синтаксическая модель документа, представляемая в виде кортежа реквизитов. За образец составления производственного документа принят ГОСТу Р 6.30-97. В модели описана декомпозиция документа на ряд сообщающихся реквизитных областей, каждя из которых представляется набором связанных реквизитов. Содержимое документа аналитически выражается в виде замещающего графа и матрицы смежности. Для представления каждого реквизита в документе разработана локальная КСГ. Применение модели позволяет повысить эффективность структурного анализа содержимого документации, увеличить результативность сложных поисковых запросов по нахождению специфической информации в документах. Разработанная модель информационных ресурсов основывается на представлении документов в виде матрицы терминов. Под термином в модели понимается слово либо устойчивое словосочетание со строго определенным лексическим значением, используемое для описания подпроцессов и объектов в бизнес-процессах. Модель определяет частотные свойства терминов в документах и позволяет выявить наиболее значимые термины с возможностью формирования словаря ПрО. На основе модели информационных ресурсов предложен метод автоматизированного построения технического тезауруса, отличающийся использованием частотных свойств терминов в сочетании с разбивкой на непересекающиеся семантические классы, который позволяет сформировать отраслевой словарь производственных терминов. Основные результаты изложены в работах [А5], [А6]. -79- 3. Метод построения концептуальной модели машиностроительного пред' приятия на основе автоматизированного анализа документальных ресурсов Одна из наиболее трудоёмких операций при построении образа будущей компании [83] в ходе проведения реинжиниринга бизнес-процессов - процедура концептуального анализа полученных знаний или структурирование. Структурирование - это процесс создания полуформализованного описания предметной области [84]. Такое полуформализованное описание называется полем знаний [85]. Обычно оно создается в графической форме [86], [87]. Поле знаний Ft можно описать следующим образом: Fk = <Sc,SF> (3.1) где Sc - концептуальная структура предметной области; SF - функциональная структура предметной области. Концептуальная структура, или модель предметной области [87], служит для описания ее объектов и отношений между ними, т.е. можно сказать, что концептуальная модель Sc представляет собой следующее: SC = <A,R> (3.2) где А - множество объектов предметной области; R - множество отношений, связывающих объекты. Множество отношений представляет собой связи между объектами. При помощи этих отношений инженер по знаниям фиксирует концептуальное устройство предметной области, иерархию понятий, свойства и структуру объектов. Разработка концептуальной структуры имеет самостоятельное значение, не зависимое от конечной цели - разработки экспертных систем. Эта структура может служить для целей обучения, повышения квалификации, для прогнозирования, объяснения, реструктурирования и т.п. Основными из них являются ЛКО, A-part-of, Has-attribute, Value и др. [90]. · АКО (A-Kind-OF) - иэто есть», например, [Macll] - > (АКО) - > [ПК]. ЛКО отражает родовидовые отношения и иерархию понятий предметной области. Обязательно присутствует в любой концептуальной структуре. -80- · A-part-of- «часть от», например, [процессор] - > (A-part-of) - > [компьютер]. Это отношение служит для отражения физической структуры и декомпозиции сложных объектов на составляющие. · Has-attribute - «имеет свойство», например, [память] - > (Has-attributc) - > [объем памяти]. · Value - «значение», например, [объем памяти] - > (Value) - > [16 Мбайт]. Поле знаний может напоминать семантическую сеть, по оно менее формализовано. Если в сети жестко оговорены возможные виды связей, то в поле знаний они произвольны. Общий алгоритм формирования концептуальной структуры состоит из следующих шагов: Шаг 1. Определить все результирующие понятия, или выходы системы. Это может быть набор диагнозов, рекомендаций, советов системы. Шаг 2. Определить все входные понятия, или факторы, от которых зависит результат работы системы. Шаг 3. Установить промежуточные понятия, участвующие в рассуждениях экспертов, если они есть. Шаг 4. Для всех понятий найти обобщающие и уточняющие понятия, т.е. установить иерархии объектов. Шаг 5. Для объектов, участвующих в рассуждениях, определить свойства и их значения. Шаг 6. Попытаться определить другие связи, и все в целом отразить графически. Шаг 7. Убрать лишние связи, объекты, обсудить структуру с экспертом, дополнить, если надо, с возвратом к шагам 1 - 6. Построение концептуальной модели (КМ) предприятия [91] является заключительной фазой предпроектного обследования предприятия. К началу проведения данного этапа уже проведена предварительная обработка анализируемой документации: в результате структурного анализа документации построена формальная модель производственного документа, проанализированы информационные потоки организации и построена модель информационных ресурсов предприятия. Таким образом, в результате предварительного структурного несмыслового анализа производственной документации информация логически структурирована и упорядочена. За счёт ком- -81- понентного представления содержимого документов выделены фрагменты текста для последующего смыслового анализа. Концептуальная модель воссоздает смысловую организацию бизнес-процессов предприятия на уровне статического отображения объектов-участников, и семантических связей между ними. Для построения объектной модели действительности необходимо извлечение информации о субъектах бизнес-деятельности и их взаимосвязях. Приобретение знаний предлагается осуществлять с помощью семантического анализа чётко структурированных текстовых фрагментов. Существуют разные методики для решения этой задачи. В качестве базовой выбрана методика построения неоднородной семантической сети Г.С. Осипова [92]. В результате анализа пригодности данной методики для решения поставленной задачи были разработаны дополнения, позволяющие использовать возможности методики для анализа производственной документации. Для построения сети требуется наличие словаря терминов предметной области (технического тезауруса) как компонеггга системы для выполнения ряда фаз выявления знаний из текста. Эта задача решается путём автоматизированного построения тезауруса с привлечением людей-экспертов по предметной области, на основе предварительно построенной модели информационных ресурсов. -82- 3.1. Теоретические основы методаОбъектную модель бизнес-процессов, описываемую производственной документацией [93], можно представить посредством неоднородной семантической сети (НСС). Объектами такой модели, как правило, являются индивиды и отношения. Основной единицей любого описания является имя. В лексике любого языка различают индивидные имена, общие имена и метаимена. Индивидные имена обозначают конкретные объекты действительности. Общие имена соотносят предложение с множеством понятий. Общее имя, являясь именем множества, определяет объём понятия. В отличие от этого совокупность признаков характеризует вторую сторону понятия — его содержание. Имена участвуют в образовании семантических связей. Среди предикатов понятия могут присутствовать [94]: Таблица 3.1. Свойства предикатов
Фиксация проблемной области может внести коррективы в этот список. Признак понятия можно трактовать как атрибуты объекта. После соотнесения множества имен с множеством понятий возможно выделение семантических связей понятий и построение семантической сети понятий. Для этого вводится понятие семантической связи (СС)9 под которым понимается отношение понятий в понятийной системе предметной области [92]. Отталкиваясь от типологии систем [95] выделяют следующие виды СС: -83- Таблица 3.2. Виды семантических связей
Представителями СС в лексике являются предикаторы, т.е. лексемы, представляющие предикаты. Именно они обеспечивают строение основных высказываний. Типичные предикаторы — такие лексеммы как «больше», «меньше», «равно», «иметь значение», «иметь свойство», «если ... то...», и т.д. Кроме выявления предикаторов необходимо выявление нелексических свойств СС. Для этого выполняется их классификация с точки зрения свойств, полезных при построении модели предметной области. Такими свойствами оказались их «свойства симметрии», такие как симметричность, антисимметричность, рефлексивность и другие. Эта классификация привела к выделению типов СС. В результате свойства СС сведены в таблицу 3.3., по вертикали которой указаны виды связей, а по горизонтали — их свойства. В последнем столбце указан вид «обращенной» связи. -84- Таблица 3.3. Свойства семантических связей
В таблице 3.3 значения свойств связей обозначают следующее: транзитивность-Тг; нетранзитивность-Ntr; антитранзитивность-Atr; симметрич-ность-Sm; антисимметричность-Ans; асимметричность-As; несимметричность-Ns; рефлексивность-Rf; антирефлсксивность-Arf; нерефлексивность-ЫгГ. Далее к таблице свойств семантических связей применяется процедура факторизации — исходная таблица 3.1 расщепляется на таблицы, строки которых имеют одинаковые значения свойств (без учёта значения последнего столбца). Получаются таблицы 3.4-3.12. Таблица 3.4
-85- ТаблицаЗ.5
Таблица 3.6
Таблица 3.7
Таблица 3.8
Таблица 3.9
Таблица ЗЛО
Таблица 3.11
Таблица 3.12
-86- Получается девять фактор-таблиц, каждая из которых содержит связи, определяемые одной комбинацией значений свойств симметричности, рефлексивности и транзитивности. Множество видов СС, характеризуемых одинаковой совокупностью значений свойств симметричности, рефлексивности и транзитивности называются типом семантической связи. В результате получается девять типов семантических связей, которые обозначаются следующими каноническими формами: 1) Генеративная связь - X является элементом У : Gen(X,Y); 2) Инструментальная связь - X является средством У : Ins(X,Y); 3) Казуально-трансгрессивная связь - X вызывает У : Caus(X,Y); 4) Комитативная связь - X сопровождается У : Com(X,Y); 5) Коррелятивная связь - X иногда увеличивает возможность возникновения У : Cor(X,Y); 6) Ситуативная связь - X находится в ситуации У : Sit(X,Y); 7) Потеисивная связь - X увеличивает возможность развития У : Pot(X,Y); 8) Финитивная связь - X является целью У : Fin(X,Y); 9) Негативная связь - X отрицает У : Neg(X,Y); Множество «канонических форм»: {«X является элементом У», «X является средством У»,..., «X является отрицает У»} обозначается через Сап. Возможны и модальные формы семантических связей, которые образуются из приведённых использованием лексических модальностей «может» или «иногда». Например модальная форма комитативной связи, модалыю-комитативная связь с канонической формой «X может сопровождаться У», является нетранзитивной, рефлексивной и несимметричной, В качестве практического исследования было проанализировано множество примеров из различных областей человеческого знания: физики, медицины, экологии, политики, социологии и т.д. В результате оказалось, что большинство форм высказываний, описывающих действительность, имеют устройство и интуитивную семантику, соответствующую так называемому принципу наименьшей сложности экспертизы. Суть данного заключения состоит в том, что во-первых, при описании действительности человек часто использует высказывания, имеющие не более двух субъектов (или объектов) и, во-вторых, в том, что человек практически не употребляет сложных кванторных приставок. Таким образом, принцип наименьшей сложности экспертизы, -87- можно сформулировать в виде следующего эмпирического заключения: достаточно большой класс высказываний устроен следующим образом: <квантор> <переменная по примерам первого объекта>, <кваитор> <переменная по примерам второго объекта>, <квантор> <переменная по именам признаков>, <условие на именах и/или значениях признаков примеров>. Соответствешю далее имеет смысл рассматривать лишь высказывания, соответствующие данному принципу. Концептуальные элементы модели предметной области, такие как имена и предикаты, описанные выше, представляются в виде неоднородной семантической сети (НСС), НСС рассматриваются [40] как ориентированные графы с помеченными вершинами и рёбрами. НСС - это алгебраическая система: MI = (D,t,A,F,R)где D - семейство произвольных множеств Di,..., Dn; klfk2i...,k, - упорядоченные подмножества индексов из множества {1,...,п} - множества таких наборов будем называть типами; г- множество типов rj,..., ге. Для каждого типа к, =(п1,...,пА ) из г строится декартово произведение множеств из D: Dr=D^...xD%(ni(<n) (зз) Индекс к( назван типом декартова произведения. Для каждого D- указывается совокупность его подмножеств Дг. Всякое r названо событием типа к,. Д - множество событий Д=1 )д, :F-семейство функций /}, f2t ... , fj,..,, действующих из некоторых декартовых произведений Dk x...xDk в Dn . На множестве событий задано семейство отношений совместности событий: R = [Rl,Rl,R3iR4iR5,R6tR1 ,Л2,Л3 ,Л4 ,Л5 >^в) (3.4) Rf обратно к R, для / = 1,6. Rt и R? и специально сконструированы под определённые свойства модели НСС: -88- Л,-частичный порядок; R2-нстраизитивно, рефлексивно, симметрично; R3- нетранзи-тивио, иррефлексивно, симметрично; R4 -транзитивно, иррефлексивио, антисимметрично; Д5-нетранзитивно, рефлексивно, асимметрично; R6- нетранзитивно, иррефлексивно, ассимметрично; В [40] установлена связь между отношениями R и типами сообщений и определены правила перевода и подстановки. Для моделирования рассуждений на неоднородных семантических сетях реализованы алгоритмы, основанные на использовании свойств отношений совместности и следования. Доказаны теоремы, устанавливающие связь между отношениями совместности и выполнимостью событий в различных состояниях IICC. Выражение семантических связей возможно синтаксическими средствами. Во многих случаях типы сема1ггических связей можно определить на основе анализа их представления в лексике: каждому типу семантической связи соответствует своё множество синтаксических единиц - синтаксемм, элементарных семантико-синтаксических компонент любых конструкций. Таблица 3.13. Виды синтаксемм
-89-
Метод выявления семантических связей основывается на том, что СС в языке выразимы посредством основных типов высказываний, рассмотренных ранее. Поэтому структурные схемы СС представляют собой высказывательные формы, которые описываются несколькими именными группами, связанными между собой предика-торами. Первая по порядку именная группа называется субъектом высказывания. Если высказывание содержит несколько имён, то различие между именами, с точки зрения того, какое из них будет субъектом, а какое - объектом, лежит только в мере их индивидуальности: субъектом будет наиболее индивидное имя или наиболее индивидное из нескольких имён. Если же меры индивидуальности у всех имён одинаковы, то различие вообще не принципиально. Следующий источник о наличии СС - предикатор. К предикаторам можно отнести глаголы, имеющие семантику движения конкретного действия или каузативного воздействия, со значением казуации превращения, с семантикой соответствия (несоответствия), глаголы, выражающие отношения принадлежности и т.д. Таким образом, общая схема алгоритма выявления СС включает обнаружение в тексте предика-торов и/или синтаксемм, выделение именных групп, выделение предикативных структур и попытку отнесения выделенной структуры к тому или иному типу семантической связи. В случае успеха процесс считается законченным, иначе ищется решение затруднения при помощи эксперта. Конструкции текста, содержащие СС, могут представлять собой последовательности простых предложений различной структуры, сложные предложения, а также сверхфразовые единства. В тексте содержатся языковые средства, позволяющие обнаруживать такие конструкции, находить их границы и выделять компоненты. Этими языковыми средствами являются: 1) союзы и союзные слова («потому что», «поэтому» и др.); 2) син-таксемы, приведенные в табл.3.13., 3) существительные в связочной функции («влияние на», «причина», «ситуация» и др.) и 4) предикаторы. Будем называть их семантическими представителями. При выделении именных групп используются алгоритмы -90- морфологического и терминологического анализа. Общая схема анализа имеет следующий вид. 1) Анализируемый текст проходит предварительную обработку: разбивается на предикативные и непредикативные (презентативные) единицы (простые предложения, части сложных предложений, причастные и деепричастные обороты), удаляются лишние компоненты. 2) Выделяются предложения, содержащие слова, которые могут быть проинтерпретированы как семантические представители. 3) Происходит проверка на «истинность» семантических представителей. Для этого используются соответствующие словари. (В словаре предикаторов указываются глагольные сочетания, т.е. показывается связь от глаголов к синтаксемам из табл.3.13.) В случае, если в предложении содержится несколько семантических представителей, то они представляются на обработку в определённом порядке. Этот порядок определяется их грамматической характеристикой и является следующим (в порядке убывания ранга): союз, глагол, существительное, прилагательное (причастие), деепричастие, предлог. Если проверка отрицательна, то выполняется п.2. 4) С помощью словарей семантических представителей происходит выделение компонент семантической конструкции. 5) С помощью алгоритма прикладного морфологического анализа [5] происходит выделение именных групп субъекта и объекта. 6) С использованием найденных в анализируемой структуре семантических представителей и таблицы 3.13. выполняется поиск поиск подходящих типов семантических связей. 7) Если такой поиск завершён однозначно, из множества Сап канонических высказы-вательных форм выполняется выбор соответствующей высказывательной формы и строится одна из следующих конструкций Сап(А,В) или <предикатор>Сап(А,В); если нет, то строится формула <предикатор>?(А,В) и происходит обращение к п.9. 8) Выделенная семащ-ическая конструкция и соответствующая ей модифицированная каноническая высказывательная форма из п.7. предъявляются эксперту с предложением о подтверждении. Переход к п.11. -91- 9) Выделенные в п.7. возможные типы связей подставляются в формулу <предика-тор>?(А,В) вместо знака «?». Для каждой подстановки строится копия этой формулы. 10)Среди правил 13-21 из стратегии SAS выполняется поиск таких правил, что типы связей, указанные в их правых частях, совпадают с возможными типами связей, подставляемыми в формулу <предикатор>?(А,В) вместо знака «?» в п.9. Выполняется «обратный» вывод в системе правил из SAS с целью определения признаков, различающих типы высказываний. После определения таковых вызывается соответствующий критерий, подтверждающий один из признаков и тем самым уточняющий тип высказывания (например, Rj). 11)Выполняется компиляция формулы <предикатор>Л,{А,В) в интесиональную семантическую сеть. 12)В случае отказа эксперта дать положительный ответ в п.4. или 8 происходит перс-ход к анализу следующей семантической конструкции. Если таковых нет, переход к следующему предложению (п.2.)* Таким образом «машинный» этап приобретения знаний становится делом самой системы, благодаря чему исчезает зависимость качества построенной системы от посредника - инженера по знаниям. Интервью эксперта выполняется интерактивным интерпретатором, работа которого управляется элементами модели знаний, что обеспечивает идеологическое и теоретическое единство всех фаз приобретения знаний. Взаимодействие программы выявления знаний из текстов и автоматизированного интервью эксперта позволяет определить характеристики элементов текста, эксплицитно в нём не содержащиеся (такие, как, например, свойства отношений). В результате уменьшаются «пробелы» в знаниях системы, увеличивается скорость её» создания и повышается комфортность работы эксперта. -92- 3.2. Построение неоднородной семантической сети понятий предметной области предприятияПостроение НСС описывающей ПрО машиностроительного предприятия выполняется путём анализа текстов производственных документов на основе теоретических положений метода извлечения знаний из текстов разболтанного Г.С. Осиповым, описанного ранее в п.3.1. Метод является сравнительно новым и не имеет аналогов среди зарубежных разработок. Была проведена его апробация на примерах из различных областей человеческого знания: физики, медицины, экологии, политики, социологии и т.д. Немаловажным фактором в пользу выбора метода является его ориентированность на семантику русского языка. Достоинством метода является простота и возможность машинной реализации. Для достижения поставленной цели используется дополненная с учётом формальной модели производственного документа модифицированная стратегия извлечения понятий ПрО и связей между ними из текстов. Выбор методики построения НСС проводился исходя из принципа наибольшей простоты метода, наименьшего привлечения инженера по знаниям (предпочтение отдавалось интерактивным методам) и возможности наилучшей машинной реализации с использованием стандартных алгоритмов лексического анализа. Применяемая стратегия опирается на наличие в тексте языковых средств [96], позволяющих обнаруживать конструкции содержащие СС, находить их границы и выделять компоненты. Поэтому построение НСС — это результат тесного взаимодействия алгоритмов синтаксического, морфологического и семантического анализа текстовых материалов. При выделении именных групп используются специализированные морфологический и терминологический анализы [97], описанные в теоретических основах метода. Для проверки на истинность семантических представителей [98] используется словарь терминов предметной области (технический тезаурус), который строится заранее автоматизированным способом. Базовый метод построения НСС, опирающийся на стратегию извлечения знаний, разработан для анализа произвольных текстов. В данной работе в этот метод -93- предлагается внести дополнение, учитывающее структурированный характер производственных докумеггтов, с целью повышения эффективности выделения понятий ПрО и связей между ними из текстов производственных документов. Исходя из разработанной в гл.2, формальной модели производственного документа, каждый документ может быть представлен в виде множества реквизитов. Непосредственным текстом документа является содержимое реквизита «/*;?-текст документа», семантический анализ которого и выделяет содержащиеся в тексте предложений понятия и предикаты. Однако во многих документах лексеммы, являющиеся именами понятий содержатся в реквизитах, которые исключаются из анализа. Кроме того, изучение структур производственных документов показало, что даже при полнотекстовом разборе ряд ключевых понятий могут быть утеряны, а стратегия извлечения знаний будет вынуждена гораздо чаще обращаться к эксперту для разрешения затруднения. Это связано с тем, что ввиду стилистических особенностей оформления документации, реквизиты, потенциально содержащие имена понятий, как правило, располагаются в заголовочной части и поэтому территориально отделены от основного текста и не связаны с ним лексически. Структура многих высказываний в данном случае носит безличный характер, а объект высказывания лишь подразумевается, как упомянутый ранее в заголовочной части в одном из реквизитов. Зачастую в подобных документах объект высказывания вообще не содержится в основном тексте, а лишь фигурирует в реквизитах заголовочной части, поэтому не может быть извлечён средствами метода. В качестве дополнения к методу используется предварительный разбор заголовочных реквизитов, средствами грамматического разбора, разработанными в формальной модели производственного документа. Таким образом, ввиду особенностей структурного размещения реквизитов на формуляре производственного документа, автором делается вывод о нецелесообразности семантического анализа всего текста документа, поскольку основное содержание документа располагается непосредственно в реквизите г^— «текст документа». Автором предлагается анализировать непосредственно текст документа в сочетании с предварительным выделением понятий из заголовочных реквизитов. Это позволит: · уменьшить объём анализируемого текста; -94- · снизить нагрузку на синтаксический анализатор; · уменьшить количество затруднений анализатора, и, следовательно количество привлечений эксперта; · повысить эффективность семантического анализа; · увеличить скорость анализа документа. Для предварительного выделения понятий необходимо разобрать содержимое следующих реквизитов: 1) г^-наименование организации; 2) /■/^-адресат. В результате грамматической трансляции содержимое реквизитов из цепочки нетерминальных символов преобразуется в множество терминальных символов. В итоге нас будут интересовать следующие терминальные символы из приведённых выше реквизитов: 1) Из Гц — Ао-полное наименование организации, С-полное наименование филиала (территориального отделения, представительства, структурного подразделения организации; 2) Из Г]4 — Ао-полное наименование организации, С-структурное подразделение, D-должность руководителя. Дополнительно можно выполнить грамматический разбор реквизита «г?-~ справочные данные об организации», с целью извлечения атрибутов понятия ПрО. Далее выполняется стандартный алгоритм выделения понятий ПрО и связей и компиляция их в НСС. При выделении именных групп используются морфологический и терминологический анализы, описанные ранее в теоретических основах метода. Поскольку нас, преимущественно, интересует множество понятий ПрО, соответствующих бизнес-объектам и процессам, и их взаимосвязи друг с другом, то в целях повышения эффективности дальнейшей трансляции сети в концептуальную модель, исходную НСС удобнее будет представить в виде алгебраической системы: N = <T,R,F> (3.5) где Т - множество вершин НСС, каждой из которых соответствует имя понятия ПрО; R- множество семантических связей; F - отображение TxR. Таким образом, с учётом приведённого выше дополнения, общая схема построения НСС приобретает следующий вид: -95- 1) Выбирается очередной документ, выполняется декомпозиция его структуры во множество реквизитов, с помощью формальной модели обобщённого производственного документа. 2) Из анализируемого документа выделяются при наличии реквизиты rg и гн> выполняется их грамматический разбор, осуществляется поиск терминальных символов, соответствующих понятиям ПрО. 3) Выделяется и представляется к анализу основное содержимое документа - реквизит «r/jr-текст документа». 4) Анализируемый текст проходит предварительную обработку: разбивается на предикативные и непредикативные (презентативные) единицы (простые предложения, части сложных предложений, причастные и деепричастные обороты), удаляются лишние компоненты. 5) Выделяются предложения, содержащие слова, которые могут быть проинтерпретированы как семантические представители. 6) Происходит проверка на «истинность» семантических представителей при помощи соответствующих словарей [99, 100]. Для проверки имён существительных используется технический тезаурус. Порядок обработки нескольких семантических представителей определяется их грамматической характеристикой (порядком убывания ранга). Если проверка отрицательна, то выполняется п.5. 7) С помощью словарей семантических представителей происходит выделение компонент семантической конструкции. Среди имей существительных выполняется поиск по словарю синонимов в техническом тезаурусе, в случае успеха, найденный семантический представитель замещается соответствующим ключевым понятием. 8) В случае, если не удалось выделить субъект или объект, но выделены понятия из заголовочных реквизитов, производится замена недостающего компонента высказывания найденным в заголовочном реквизите понятием. 9) С помощью алгоритма прикладного морфологического анализа [101] происходит выделение именных групп субъекта и объекта. 10) С использованием найденных в анализируемой структуре семантических представителей и таблицы 3.13 выполняется поиск поиск подходящих типов семантических связей. -96- 11) Если такой поиск завершен однозначно, из множества Сап канонических выска-зывательных форм выполняется выбор соответствующей высказывательной формы и строится одна из следующих конструкций Сап(А,В) или <предикатор>Сап(А,В); если нет, то строится формула <предикатор>?(А,В) и происходит обращение к п.13. 12) Выделенная семантическая конструкция и соответствующая ей модифицированная каноническая высказывательная форма из п.11. предъявляются эксперту с предложением о подтверждении. Переход к п.15. 13) Выделенные в п.7. возможные типы связей подставляются в формулу <предика-тор>?(А,В) вместо знака «?». Для каждой подстановки строится копия этой формулы. 14) Среди правил 13-21 из стратегии SAS выполняется поиск таких правил, что типы связей, указанные в их правых частях, совпадают с возможными типами связей, подставляемыми в формулу <предикатор>?(А,В) вместо знака «?» в п.13. Выполняется «обратный» вывод в системе правил из SAS с целью определения признаков, различающих типы высказываний. После определения таковых вызывается соответствующий критерий, подтверждающий один из признаков и тем самым уточняющий тип высказывания (например, R{). 15) Выполняется компиляция формулы <предикатор>/?,(А,В) в НСС. 16) В случае отказа эксперта дать положительный ответ в п,7. или п. 12 происходит переход к анализу следующей семантической конструкции. Если таковых нет, переход к следующему предложению (п.5.). 17) Если имеются еще» документы для анализа переход к п.1., иначе строится окончательный вариант НСС. В результате получается НСС, описываемая (3.5). Таким образом, для построения НСС в качестве базового применяется метод построения сети использующий стратегию извлечения знаний из текстов разработанный Г.С. Осиновым. Поскольку изначально метод строился для анализа произвольных текстовых материалов, было разработано дополнение, учитывающее структурированный характер текстов производственных документов, позволяющее повысить эффективность выделения понятий и связей, а также сократить объём анализируемой информации. -97- 3.3. Метод построения концептуальной модели предприятия на основе неоднородной семантической сетиКонцептуальная модель предприятия в общем виде представляет собой граф-схему, определяющую состав объектов бизнес-процессов на машиностроительном предприятии и взаимосвязи между ними. Анализируя данную модель можно наглядно представить приблизительное наполнение предметной области, некоторые ключевые понятия, наиболее важные объекты, их обобщенные характеристики и отношения, определить запас сведений, потребующийся для решения последующих задач и сформулировать возможные пути решения основных задач автоматизации. На этапе построения концептуальной модели выполняется извлечение и структурирование знаний, тем самым ограничивается круг используемой терминологии, выделяются ключевые понятия, отношения и характеристики, виды отношений между понятиями, особенности задания входных и выходных данных, отдельные подзадачи общей задачи, применяемые стратегии и гипотезы; виды взаимосвязей между объектами предметной области; процессы, происходящие в исследуемой области и ограничения, накладываемые на них; стратегии принятия решений и граничные условия этих стратегий. Построение концептуальной модели объекта предполагает изучение системных свойств объекта, взаимосвязей между его элементами и средой, структуризацию и выделение подсистем. Концептуальная модель очень важна для исследовательских задач, в ней должно содержаться гипотетическое представление о природе взаимосвязей в объекте, которое должно быть либо подтверждено, либо опровергнуто с четким разграничением бесспорных моментов и исследовательских гипотез, которые могут быть уточнены в процессе экспериментов. Наиболее подходят для построения концептуальной модели так называемые фреймовые модели/структуры. В отличие от моделей других типов во фреймовых моделях фиксируется жесткая структура информационных единиц, которая называется протофреймом. В настоящей работе для построения концептуальной модели предметной области предлагается использовать фрейм-ориентированный подход , с применением аппарата концептуальных графов, в соответствии с научными материалами, изложенными в трудах А.Н. Швецова и С.А. Яковлева [102]. -98- В общем виде текстовая запись структуры фрейма выглядит следующим образом: (Имя фрейма: Имя слота 1 (значение слота 1) Имя слота 2 (значение слота 2) Имя слота к (значение слота к)). Значением слота может быть практически что угодно (числа или математические соотношения, тексты на естественном языке или программы, правила вывода или ссылки на другие слоты данного фрейма или других фреймов). В качестве значения слота может выступать набор слотов более низкого уровня, что позволяет во фреймовых представлениях реализовать «принцип матрешки». При конкретизации фрейма ему и слотам присваиваются конкретные имена и происходит заполнение слотов. Таким образом, из протофреймов получаются фреймы - экземпляры. Переход от исходного протофрейма к фрейму - экземпляру может быть многошаговым, за счет постепенного уточнения значений слотов. Связи между фреймами задаются значениями специального слота с именем «Связь». Следует отметить, что пет необходимости специально выделять фреймовые модели в представлении знаний, так как в них объединены все основные особенности моделей остальных типов. Для построения концептуальной модели (КМ) мы будем использовать расширенную и модифицированную конструкцию фреймоподобного объекта, называемую далее фрейм-концептом (ФК) [102]. Основная конструкция (ФК) выглядит как показано на рис. 3.1. Элемент (ФК) «Назначение фрейма» для разрабатываемой модели в общем случае представляет из себя произвольное словесное описание допустимых условий использования ФК, сценариев поведения и тому подобного. В дальнейшем, при более углубленном анализе информационной системы, эти сведения можно использовать в качестве неформальной базы знаний для задач комплексной автоматизации, а также для накопления знаний людей-экспертов по данной предметной области к инженерам по знаниям и выполнять функции комментария. Структура сценариев поведения (ССП) описывает динамическое поведение компонентов или агентов предметной области, в которой предусматривается блок -99- выбора сценария (БВСЦ), позволяющей формировать альтернативные пути поведения данного фрейма. Фрейм-концепт Имя фрейма (ИФ) Тип фрейма (ТФ) Назначение фрейма (НФ) <3начение> <3начеиие> <3начеиие> Структура сценариев поведения
Структура слотов (ССл) Слот 1 (Сл.) Слот 2 (Сл?) Рис. 3.1. Конструкция фрейм-концепта Структура слотов (ССЛ) представляет из себя совокупность двух структур: структуру концептов (СК) и структуры атрибутов (СА) (рис.3.2.). Структура слотов (ССЛ) Структура концептов (СК)
Структура атрибутов (СЛ) Имя атрибута ИА, ИА. Множество определения МО МО, Значение атрибута ЗА,ЗА, Рис. 3.2. Структура слотов в модели фрейм-концептов Ранее (в пункте 3.2.) нами была построена неоднородная сематпческая сеть (НСС) представленная определением (3.5). Основными составляющими сети являют- -100- ся множество вершим НСС - Т, каждой из которых соответствует имя понятия ПрО и множество семантических связей — R между ними на TxR. В графическом представлении каждый элемент множества имён объектов Т будет соответствовать вершине сети, а элементы множества R - станут рёбрами НСС. Концептуальная модель предприятия согласно [102], изображаемая в виде фреймовой структуры, представляет собой следующее множество: КМ=(Е, X, R, П, Y) (3.7) где Е = {FK} множество фрейм-концептов в концептуальной модели предметной области; X = {М}- множество модулей концептуальных графов; R = {КО} множество концептуальных отношений, участвующих в концептуальной модели предметной области; П - отображение ExR:-»E; Y - отображение F:->X, такое что каждому фрейм-концепту F^ij может быть подставлено в соответствие некоторое подмножество из множества^, т.е. ]l Vc\ (3.8) Для построения простейшей концептуальной схемы используются пассивные ФК, лишённые блока выбора сценария (БВСЦ), поэтому варианты поведения ФК является жестко заданным. При проектировании мы принимаем во внимание только структурный аспект предметной области, т.е. полагаем X = 0, Y = 0, и, следовательно запись для модели предметной области - КМ упрощается: KM=(E,R,O) (3.9) Для перехода от неоднородной семантической сети к концептуальной модели автором предлагается алгоритм, этапы которого обобщённо можно привести в виде следующих положений: 1) Устранение несущественной информации из базы знаний: 1.1. Определение и устранение недостижимых, слабо- и/или несвязанных вершин семантической сети, при помощи поиска цепей с максимально допустимой длиной q, 1.2. Выявление принадлежности объектов к классам модели знаний. Поиск вершин сети принадлежащих уровням / соответствующим классам объектов в модели знаний, заданных аналитиком. 1.3. Вычисление/нахождение силы отношений между вершинами сети - с выбрасыванием рёбер не удовлетворяющих отношению имён объектов. -101- 1.4. Установление принадлежности типа отношения ребра (НСС) одному из типовых отношений в модели знаний. 2) Сегментация/слияние вершин-объектов (НСС) с последующим преобразованием их во фрейм-концепты. 3) Формирование и заполнение слотов фрейм-концептов из множества атрибутов вершин-объектов (НСС). 4) Образование вспомогательных фрейм-концептов, описывающих связи основных фрейм-концептов. 5) Структуризация, укрупнение/разукрупнение, сегментация и упорядочение фрейм-концептов концептуальной структуры. Распишем подробно предлагаемый алгоритм. 1) Устранение несущественной информации из базы знаний: 1.1. Определение и устранение недостижимых, слабосвязанных и несвязанных вершин семантической сети. Представим полученную семантическую сеть в линейном виде, для этого составим матрицу связности вершин семантической сети, которая одновременно является матрицей смежности узлов (вершин) семантической сети (3.44): А А А Хц Хц 2 ^21 *12
Х\п Х2п „1 А А (3.10) А А ...* АЛ ...... 1 ... D х , х , 1 Матрица Lo является двоичной квадратной матрицей размерности ихи, имеющей единичную главную диагональ, где п - количество узлов (вершин) семантической сети. хц — двоичная величина, такая, что {1, если вершины i uj связаны отношением с силой х (3.11) О, если вершины г uj не связаны При анализе текстов документов возможно выделение имён объектов, являющихся несущественными и малоинформативными для концептуальной модели, что выражается в появлении обособленных узлов в сети несвязанными с другими узлами. Это означает присутствие в матрице L& нулевых строк и столбцов. Поэтому для выполнения данного этапа необходимо выполнить ряд операций: -104- Рис. 3.3. Слияние вершин НСС На приведённом фрагменте семантической сети видно, что имеет смысл объединить группы вершин, обозначенных как области I и 2 и сформировать для каждой группы вершин один замещающий фрейм-концепт с именем по одной из исходных вершин во множественном числе. Этапы 3,4 и 5 являются вспомогательными и выполняются в случае необходимости более строгой организации фрейм-концептов модели ПрО. В завершение трансляции НСС в КМ модель уточняется и корректируется нужным образом аналитиком. В итоге трансляции ИСС получается концептуальная модель в форме концептуального графа. Разработанный метод трансляции позволяет очень гибко строить КМ предприятия, благодаря возможности использования множества различных параметров. Строя КМ по различным критериям, аналитик приобретает возможность получения детальной карты бизнес-процессов. Пример тарансляции ИСС в КМ, выполненный для ОАО «ЭЛЕКТРОТЕХМАШ», приведён в приложении № 4.
-105-ВЫВОДЫ Концептуальная модель (КМ) воспроизводит смысловую организацию бизнес-процессов предприятия на уровне статического отображения объектов-участников, и семантических связей между ними. Автором предлагается метод перехода от модели предметной области в виде неоднородной семантический сети к концептуальной модели предприятия в терминах концептов и концептуальных отношений. Предлагаемый метод основывается на использовании теории НСС Г.С.Осипова, для которого сформулирован ряд дополнений, позволяющих извлекать информацию из текстов производственных документов, учитывающих их структуру. Требуемый для построения сети отраслевой словарь терминов, заменяется техническим тезаурусом, который строится автоматизированным способом на основе модели информационных ресурсов. Центральной идеей базового метода Г.С. Осипова является использование содержащихся в тексте языковых средств, позволяющих обнаруживать конструкции, содержащие семантические связи, находить их границы и выделять компоненты, называемые семантическими представителями. Разработан метод трансляции семантической сети во фреймовую модель за счёт устранения несущественной информации из базы знаний и структурирования знаний. При необходимости с целью повышения наглядности модели выполняется сегментация либо слияние вершин НСС. Затем вершины сети преобразуются во фрейм-концепты, слоты фрейм-концептов заполняются атрибутами объектов, соответствующим вершинам НСС. Заполняются вспомогательные фрейм-концепты, описывающие связи основных фрейм-концептов, и в заключение, концептуальная модель уточняется экспертом. Метод позволяет получать концептуальную модель в разрезе заданных семантических классов, что повышает информативность и наглядность модели. Основные результаты изложены в работах [Л2], [A3], [А4]. -106- 4. Алгоритмизация разработанных методов и моделей и разработка критерия адекватности построения концептуальной модели 4.1. Модифицированные алгоритмы лексического разбора предложений Во второй и третьей главах разработана модель информационных ресурсов промышленного предприятия и метод построения концептуальной модели машиностроительного предприятия на основе автоматизированного анализа потоков документов предприятия. В данной главе предлагается ряд приёмов и алгоритмов для реализации комплексной автоматизированной системы построения концептуальной модели машиностроительного предприятия. В теоретической части работы разработан ряд математических методов анализа производственной документации, для которых необходимо представить описание алгоритмов реализации в рамках прикладной программной системы [ЮЗ]. Важным условием выполнения предлагаемых методов построения и анализа универсальной структуры производственного документа является наличие хорошо отлаженных процедур предварительной и промежуточной работы с исследуемыми производственными документами. Сюда следует отнести процедуры подбора документов по названиям и именам соответствующих отделов, дате поступления и возникновения, группировка документов по внешним атрибутам (секретность, срочность, важность и т.п.), алгоритмы разбора содержимого документа. Среди них можно выделить процедуры разбиения текста документа на отдельные слова и термины, извлечение предложений из текста, структуризация тела документа, локализация реквизитов в документе и определение типов и территориального местоположения отдельных реквизитов и групп реквизитов. Всевозможные поисковые функции: поиск по ключевым словам и по шаблонам, поиск заданных реквизитов, поиск документов по заданным реквизитам, а также различные процедуры сравнения документов. Обобщённую схему алгоритма построения обобщенной модели производственного документа можно представить в виде последовательности шагов (рис 4.1.) разбора и формализации содержимого документа. -107- Рис. 4.1. Алгоритм построения модели производственного документа
-108- Как уже было сказано ранее, система будет анализировать документы предприятия представленные в электронном виде на различных типах носителей. Предположительно, основная масса документов будет представляться в виде файлов операционной системы, представленных в формате популярных офисных приложений Microsoft Office для персональных компьютеров: Microsoft Word и Microsoft Exel. В случае, если документооборот предприятия представлен преимущественно на бумажных носителях, то выполняется стандартная процедура перевода бумажной документации в электронную форму общепринятыми способами. Сюда можно отнести распознавание текстово-графических материалов при помощи различных сканирующих устройств с последующей корректировкой электронных файлов, средств голосового ввода информации, а также банальный ручной перевод текстовых бумажных ресурсов в электронную форму. Предполагается что документы отсортированы по названиям и размещены по каталогам операционной системы, имена которых совпадают с названиями отделов. Согласно методике, разработанной во второй главе, для построения отраслевого технического словаря (тезауруса) необходимо представить анализируемое множество документов в виде массива терминов, для последующего проведения частотно-вероятностного анализа. Для выполнения этой задачи блоки используются разработанные блоки лексического, синтаксического и морфологического анализа. Общая схема алгоритма выглядит следующим образом: 1. Выполняется выборка анализируемых документов, имена, местоположение файла и наименование отдела-источника для всех документов заносятся в таблицу, каждому документу присваивается уникальный числовой индекс-идентификатор. 2. Считывается содержимое очередного документа и непосредственно выделяется текст документа (реквизит г 19). 3. При помощи лексического анализатора текст разбивается на лексемы (слова, числа, знаки препинания, идентификаторы). 4. Блок морфологического анализа выполняет разбор каждого слова и при наличии нескольких альтернативных вариантов разбора выбирает один наиболее подходящий, руководствуясь набором правил, заданных пользователем на этапе подготовки исходной информации. -109- 5. Для каждого слова, при необходимости, синтезируется начальная форма согласно правилам морфологии и словообразования анализируемого языка. 6. Полученные слова заносятся в таблицу или массив терминов, генерируется уникальный идентификатор-ключ, приписываются индексы документа-родителя, морфологические признаки и структурный тип компонента. 7. Выполняется переход к следующему документу и повторяются шаги 2-6. 8. Для каждого отдельного термина из полученного массива вычисляются характеристики описанные в главе 2, согласно выражений 2.10.-2.34. 9. Согласно ранее заданным границам изменения частотных характеристик выделяются наиболее значимые термины-слова и устойчивые словосочетания. 10. Полученные термины группируются в соответствующие словарные статьи при помощи стандартного тезауруса русского языка. Для выполнения предварительного разбора содержимого документа широко используются различные процедуры разбиения исходного текста на отдельные составляющие. Одной из основных является процедура разбивки анализируемого текста на отдельные лексемы: слова, числа, знаки препинания, идентификаторы. По умолчанию, словом будем считать любую последовательность любых непробельных буквен-но-числовых символов ASCI, разделённых символами конца строки, пробелами, символами табуляции, точками конца предложения, запятыми, точками с запятой и некоторыми другими разделителями, состав которых может варьироваться в зависимости от формата исследуемого текста. В соответствии с приведённым выше определением, любой текстовый фрагмент может быть описан и представлен в виде замещающей его контекстно-свободной грамматики (КСГ). Согласно определения Хомского, формальная грамматика представляет собой четверку: G = {N,T,P,a} (4.1.) где N - множество нетерминальных символов(или понятий) языка. Т - множество терминальных символов языка, т.е. тех символов из которых конструируются предложения языка; Р - множество правил подстановки. Каждое правило состоит из левой и правой частей, соединенных знаком секвенции «—>•». Каждая часть представляет собой цепочку нетерминальных и/или терминальных символов. -110- Правая часть правила определяет цепочку символов, которая может замещать цепочку из левой части; а - аксиома грамматики - множество нетерминальных символов (понятий) с которых начинается порождение или распознавание любого предложения языка. Обозначим нетерминальные символы заглавными буквами латинского (или греческого) алфавита. Представим правила вывода компонентов модели документа в канонической форме. Тогда грамматика, определяющая фрагмент текста получит следующий вид (запятая используется как разделитель): Z - любая последовательность символов; А - любой буквенный символ латинского или русского/национального алфавита; В - любая арабская цифра; С - любой непробельный небуквенно-цифровой символ, D -любой заданный ранее {пробельный} символ-разделитель слов (). G = {N,T,P,a} N={A,B,C,D}; I d ) о , с , ..., z , а , и , в , г , ..., я , и , 1 , z , ..., у , , т , т- ,
**•'* Р={ Z->CAB, Z->CBA, Z->CA, Z->CB, Z-»CAA, Z-»CBB , a={Z} В форме Бэкуса-Наура запись полученной грамматики примет вид: ::= <слово><разделитель><слово> ::==<слово><разделитель><слово><разделитель> ::= <слово> = <небуквенно-цифровой символ><слово> - <любая буква><слово> = <арабская цифра><слово> = <небуквенно-цифровой символ><любая буква><арабская цифра><слово> = <любая буква><арабская цифра><слово> = <небуквешю-цифровой символ><любая буква><слово> = <исбуквеиио-цифровой символ><арабская цифра><слово> = <любая букваХарабская цифра><слово> <слово> <слово> <слово> <слово> <слово> <слово> <слово> <слово> -111- <слово> ::=<арабская цифра><любая буква><слово> <небуквенно-цифровой символ> ::= «-«|»+»|»^»|»—»”|”V”|”^’T~” <арабская цифра> ::=»0»|»Г'|»2»|...|»9» <любая буква> ::- “a’”|”b”|”c”|...|”z”|”a”| «б»[»в»|»г»| «-|»я» Алгоритм процедуры выделения слов приведён на рис. 4.2.
Р Очиивсм буфер текуисго слова ^Читаем символ из потока Увеличиваем счётчик символа - пропускаем пробелы / cl=str[i] / Заносим в переменную wl очерелной символ Взводим флаг наличия слова
Записываем найденное слово в выходной массив Нет Конец ] Рис.4.2. -112-4.2. Алгоритм структуризации и разбора текстового документа При исследовании документооборота предприятия допускается положение о том, что все документы системы составляются и оформляются согласно ГОСТу Р 6.30-97 либо на основе единого стандарта, принятого в данной организации. Наилучшим вариантом для анализа является наличие у документов таблично-ячеистой структуры, когда формуляр документа представляет из себя таблицу (рис. 2.11.), а каждый реквизит занимает определённую ячейку. В данном случае структурный разбор документа сводится к чтению соответствующих ячеек таблицы и выделению реквизитов. К сожалению, документация большинства Российских предприятий оформляется не в соответствии с какими-либо правилами в произвольном формате и с использованием различных систем подготовки текстов. Поэтому анализ структуры документов значительно усложняется. Для решения этой проблемы предлагается алгоритм структуризации документов при помощи последовательной группировки абзацев текстовых файлов и выделение реквизитов по ключевым словам и порядку следования реквизитов в документах различных типов. Будем полагать, что реквизиты располагаются в теле документа последовательно, а в строке реквизиты разделяются пробельными символами. Последовательно считывая строки текстового ресурса, производим вертикальную и горизонтальную группировку текстовых фрагментов, выделяя области реквизитов, соответствующие аналогичным областям эталонного формуляр-образца документа. В результате схема алгоритма приобретает следующий вид: 1. Считываем очередной файл документа. 2. Преобразуем файл документа, имеющего сложную структуру к формату простого ASCII текста. 3. Изменяем кодировку текста в случае необходимости на СР-1251 (Windows). 4. Считываем к строк текста в динамический буфер. 5. Группируем слова в строках на вертикальные столбцы. 6. Производим поиск реквизитов по ключевым словам в каждом фрагменте. Осуществляем обратный вывод грамматики для найденного фрагмента. 7. Повторяем шаги 4-6 до тех пор, пока не будет прочитан весь файл. -113- 8. Заполняем матрицу смежности, соответствующую документу по найденным реквизитам. 9. Определяем тип документа по составу реквизитов. 10. Выводим реквизит г^ в выходной поток как содержимое документа. Необходимо отметить, что приведённый алгоритм является универсальным для документов линейной структуры. Принятый же нами за основу формуляр-образец имеет вложенные структуры, а именно схема документа представляется в виде трёх сообщающихся частей: у- заголовочной части (в нее входят реквизиты, расположенные до текста), р — основной части (реквизиты «текст» и «отметка о наличии приложения») и S— оформляющей части (реквизиты, расположенные ниже текста и приложения). Поэтому вначале выполняется разбивка текста документа на составные части, а затем к каждой из них применяется описанный выше алгоритм. В качестве процедур морфологического (и синтаксического) анализа решено использовать стандартные алгоритмы словообразования на основе широко известных морфологических словарей Зализняка. Модуль синтаксического анализа решено дополнить эвристической функцией определения начала и конца предложения. Общий принцип выделения предложений из текста можно представить виде последовательности следующих шагов: 1) Ищем хотя бы два последовательных слова, состоящих не только из прописных букв. Если такая пара слов найдена, она считается началом предложения. 2) Сканируем предложение дальше на предмет стоящих подряд два или более раз символов перевода строки. 3) Если найдено, предыдущее предложение - заголовок; полностью очищаем динамический массив лексем, и продолжаем анализ предложения заново с текущей позиции. 4) Просматриваем предложение до встречи символа конца предложения - точки, восклицательного или вопросительного знака. 5) Если найдена точка, просматриваем предложение от позиции точки справа налево, до нахождения слева от точки синтаксически правильной лсксеммы. Иначе выполняем п.4. заново с текущей позиции. -114-4.3. Алгоритм построения неоднородной семантической сети В общем случае семантическая сеть - это структура для представления знаний в виде узлов, соединенных дугами. Алгоритм построения НСС в целом повторяет методику построения сети предложенную в главе 3 и заключается в выполнении последовательности шагов; 1) Выбирается очередной документ, выполняется декомпозиция его структуры па множество реквизитов, с помощью формальной модели обобщённого производственного документа. 2) Из анализируемого документа выделяются при наличии реквизиты г6 и гцУ выполняется их грамматический разбор, осуществляется поиск терминальных символов, соответствующих понятиям ПрО. 3) Выделяется и представляется к анализу основное содержимое документа - реквизит «rjjr-текст документа». 4) Текст анализируемого документа проходит предварительную обработку: разбивается на предикативные и непредикативные (презентативные) единицы (простые предложения, части сложных предложений, причастные и деепричастные обороты), удаляются лишние компоненты. 5) Выделяются предложения, содержащие слова, которые могут быть проинтерпретированы как семантические представители. 6) При помощи соответствующих словарей происходит проверка на «истинность» семантических представителей. Для проверки имён существительных используется технический тезаурус. Порядок обработки нескольких семантических представителей определяется их грамматической характеристикой (порядком убывания ранга). 7) С помощью словарей семантических представителей происходит выделение компонент семантической конструкции. Среди имён существительных выполняется поиск по словарю синонимов в техническом тезаурусе. В случае успеха, найденный семантический представитель замещается соответствующим ключевым понятием. 8) В случае, если не удалось выделить субъект или объект, но выделены понятия из заголовочных реквизитов, производится замена недостающего компонента высказывания найденным в заголовочном реквизите понятием. -115- 9) С помощью алгоритма прикладного морфологического анализа [5] происходит выделение именных групп субъекта и объекта. 10) При помощи заданной таблицы семантических представителей выполняется поиск подходящих типов семантических связей субъекта и объекта высказывания. 11) Если такой поиск завершён однозначно, из множества Сап канонических выска-зывательных форм выполняется выбор соответствующей высказыватсльной формы и строится одна из следующих конструкций Сап(А,В) или <предикатор>Сап(А,В)- Иначе, строится формула <предикатор>?(А,В) и происходит переход к п.13. 12) Выделенная семантическая конструкция и соответствующая ей модифицирования каноническая высказывательная форма из п.П. предъявляются эксперту с предложением о подтверждении. Переход к п. 15. 13) Выделенные в п.10. возможные типы связей подставляются в формулу <предика-тор>?(А,В) вместо знака «?». Для каждой подстановки строится копия этой формулы. 14) В случае если для данного высказывания найдено несколько подходящих типов семантических связей, система интерактивно предлагает эксперту уточнить тип высказывания и выбрать соответствующий вид (например, Ri). 15) Выполняется компиляция формулы <предикатор>ДХА,В) в НСС. Субъект и объект высказывания, т.е. понятия А и В заносятся в соответствующие структуры либо массивы узлов НСС с присвоением каждому узлу ссылки на связанный узел и ссылку па строку в таблице семантических связей. 16) В случае отказа эксперта дать положительный ответ в п.7. или п.12 происходит переход к анализу следующей семантической конструкции в предложении. Если таковых нет, переход к следующему предложению (п.5.). 17) Если имеются ещё документы для анализа переход кп.1., иначе строится окончательный вариант НСС. Когда определены связи между всеми вершинами строится матрица смежности семантической сети. Логическая организация НСС на машинном уровне отображается в физическую модель конкретной СУБД в виде таблиц и отношений. -116-4.4. Алгоритм трансляции неоднородной семантической сети в концептуальную модельНаиболее близкими к семантическим сетям являются фреймовые модели. Поэтому именно они выбраны в качестве средства для представления и визуализации полученных знаний о предметной области. Алгоритм заключается в преобразовании структуры вершин и рёбер НСС в форму концептов и концептуальных отношений и состоит в выполнении ряда шагов: 1) Устраняется малоинформативная информация из базы знаний, для чего определяются и устраняются недостижимые и несвязанные вершины сети. 2) Исходя их множества классов модели знаний выявляется тип каждого объекта. 3) Вычисляется сила отношения между вершинами сети и выбрасываются рёбра, не удовлетворяющие отношению объектов. Переход к п.1. в случае если образовались обособленные вершины. 4) Устанавливается принадлежность типа отношения ребра (НСС) одному из типовых концептуальных отношений в модели знаний. 5) Выполняется слияние вершин (НСС) с последующим преобразованием их во фрейм-концепты. 6) Формируются и заполняются слоты фрейм-концептов из множества атрибутов вершин-объектов (НСС). 7) Образуются вспомогательные фрейм-концепты, описывающие связи основных фрейм-концептов. 8) Выполняется дополнительная структуризация, укрупнение, сегментация и упорядочение фрейм-концептов концептуальной модели. Далее с помощью прикладных программных средств компьютерной графики выполняется графическая визуализация модели. Поскольку для каждого концепта определен класс понятия при необходимости выполняется группировка концептов по соответствующим классам понятий ПрО. -117-4.5. Критерий адекватности построения концептуальной моделиМодель предметной области представляется в виде НСС, которая описывается алгебраической системой: N = <T,R,F> (4.1) где Т - множество вершин НСС, каждой из которых соответствует имя понятия ПрО; R - множество семантических связей; F — отображение TxR-»T. Введём понятие веса узла НСС как величину, определяющую значимость данной вершины по отношению к другим вершинам НСС: wT=\9...,n (4.2) Присвоение и определение весов вершин НСС выполняется на этапе построения сети. Пусть сеть имеет k вершин. Тогда суммарный вес отдельной ветви сети будет равен: к Qjv=Zwrf- (4-3) i=\ l Введём понятие значимости узла НСС 1ъ которое будем определять как величину смежности данной вершины. Смежность узла будет определяться по общему количеству дуг, соединяющих данную вершину Т с другими вершинами, исключая петлевые связи. Величину 1т можно вычислить как максимальную сумму элементов строки(столбца) матрицы смежности семантической сети (ЗЛО): fj (4.4) где к — количество вершин семантической сети; / - индекс вершины; хц - двоичная величина, такая, что (1, если вершины! uj связаны отношением с силой х (4.5) О, если вершины i uj не связаны Назовём минимальное значение смежности узла min(/r) критерием входимости вершины Сгг. Границу критерия входимости определяет аналитик в момент трансляции, исходя из средней арифметической величины значимости узла между наиболее и наименее значимой вершинами либо эмпирическим путём. -118- При выводе критерия адекватности будем исходить из положения о том, что вершины, имеющие наибольшее значение величины смежности являются самыми значимыми понятиями для данной предметной области и представляют собой основные элементы концептуальной модели предприятия. При адекватной трансляции НСС в КМ должны остаться наиболее значимые вершины, количество которых определяется границей адекватности. Граница адекватности задаётся в процентном отношении. Из вершин исходной сети (4.1) сформируем множество наиболее значимых вершин м: М° ={рх,р2,...,р„} (4.6) где п - общее количество наиболее значимых вершин в исходной сети. Условием отбора для каждой исходной вершины является условие: It^Ct (4.7) В ходе трансляции из исходной сети исключается ряд вершин и в результате образуется множество оставшихся значимых вершин F0: ^° = {/>,>-..> Pj,~.,P*} (4.8) где ij - индексы оставшихся значимых вершин из Л/; m - количество оставшихся наиболее значимых вершин в результирующей сети. Таким образом, критерий адекватности будет определяться как отношение общего количества наиболее значимых вершин в исходной сети к количеству оставшихся наиболее значимых вершин в результирующей сети, выраженное в процентах: Ew=—-100 (4.9) п Результатом применения методики трансляции НСС в концептуальную модель является устранение несущественной и малозначимой информации, при этом полученный концептуальный граф является эквивалентным исходной НСС и полностью передаёт смысловое содержание концептуальной модели. -119-выводы Необходимым условием практического использования методов, разработанных в теоретической части является наличие грамотно построенных алгоритмов и чётко отлаженных процедур реализации. В качестве способов реализации процедур морфологического и синтаксического анализа выбраны стандартные алгоритмы лексического разбора и анализа, дополненные модифицированными алгоритмами разбивки текста на отдельные лексеммы и определения границ предложения. Предложен алгоритм компонентного разбора и структуризации для различных видов информационных текстовых ресурсов: документов с таблично ячеечной структурой, документов, имеющих формат сплошного текста и документов смешанного типа, при помощи последовательной группировки текстовых абзацев и выделения реквизитов по ключевым словам и порядку их следования в документах. Алгоритмы построения НСС и трансляции её во фреймовую модель в целом повторяют последовательность шагов, изложенных в теоретической части работы. Нахождение весовых коэффициентов вершин НСС осуществляется на этапе построения сети. Значения мощности соответствующих семантических связей задаются на этапе подготовки исходных данных. Значимость вершин НСС определяется как величина смежности данной вершины по общему количество дуг, соединяющих данную вершину с другими вершинами НСС. Вывод критерия адекватности построения концептуальной модели предприятия основан на идее сохранения наиболее значимых вершин НСС в результате выполнения процедуры трансляции. Сформулировано условие эквивалентности результирующего концептуального графа модели предприятия исходной НСС как результат поимённого совпадения множества значимых вершин в исходной НСС, с множеством значимых вершин в результирующей НСС. Полученные результаты опубликованы в работах [А10], [А11]. -120-5. Результаты экспериментальных исследований разработанных моделей и методов В настоящей работе при разработке формальной модели производственного документа, с целью выявления особенностей оформления документов на отечественных предприятиях и закономерностей в структурах документальных ресурсов, а также, для.проверки работоспособности прикладной программной системы «Thesaurus Buildeo> была проведена определённая исследовательская работа. При-содействии кафедры-«Автоматизации технологических-процессов и производств» Вологодского государственного технического университета в рамках научно-исследовательской (учебной) программы в 2002 году было проведено исследование действующей документации на ряде предприятий различных отраслей и организаций Вологодской области, таких как СБЕРЕГАТЕЛЬНЫЙ БАНК РФ (Вологодское отделение №7867), УПРАВЛЕНИЕ ИНФОРМАТИЗАЦИИ ГЛАВНОГО УПРАВЛЕНИЯ ЦЕНТРОБАНКА РФ ПО ВОЛОГОДСКОЙ ОБЛАСТИ, «ВОЛОГОДСКОЕ ПРЕДПРИЯТИЕ ПО ПРОИЗВОДСТВУ МОНТАЖНЫХ ЗАГОТОВОК» №1 ФИЛИАЛ ОАО «ВОЛОГДАМОНТАЖПРОЕКТ», ГУКО ОБЛАСТНОЙ НАУЧНО-МЕТОДИЧЕСКИЙ ЦЕНТР КУЛЬТУРЫ И ПОВЫШЕНИЯ КВАЛИФИКАЦИИ, ШЕКСНИНСКИЙ КОМБИНАТ ДРЕВЕСНОЙ ПЛИТЫ (шкдп), АДМИНИСТРАЦИЯ ВОЛОГОДСКОЙ ОБЛАСТИ, ОАО «ЭЛЕКТРОТЕХМАШ». Образцы проанализированных документов приведены в приложении 2. Объём исследованной документации составил приблизительно 300 экземпляров. Исследование проводилось потрём основным направлениям: 1) Исследование структур документальных ресурсов, с целью выявления закономерностей в оформлении и составлении документов. 2) Построение отраслевого словаря терминов, соответствующего предметной области исследуемого предприятия при помощи программной системы «Thesaurus Builder». 3) Экспериментальная проверка соотношений, полученных в модели информационных ресурсов. -121-5.1. Исследование структур документальных ресурсов В процессе анализа документации на предприятиях и организациях были рассмотрены различные виды документов, среди которых были представлены следующие типы информации: 1. Счёт-накладная. 2. Счёт-фактура. 3. Накладная на внутреннее перемещение. 4. Заказ клиента. 5. Требование, требование-поручение, поручение. 6. Предоплата. 7. Приходно-кассовый ордер. 8. Приход денег на счёт (на основании выписки из банка через ФО). 9. Взаимозачёт (требование). 10. Акт/накладная о/на возврате товара. 11. Нормы времени и расценки на изделия. 12. Ведомость трудоёмкости изделия по цехам. 13. Ведомости зарплаты и трудоемкости изделий по видам работ. 14. Ведомости трудоёмкости изделия по операциям и цехам. 15. Доплаты, присутствующие в накопительном наряде. 16. Сводка по выполненной трудоёмкости и расходы фонда зарплаты. 17. Плановая трудоёмкость по видам работ и разрядам. 18. Ежемесячное изменение СПНЦ по изделиям в разрезе цехов. 19. Изменение комплектующих по изделиям. 20. Разовые запросы по материалам на узлы и детали основных изделий. 21. Протокол согласования свободной оптовой цены на продукцию и услуги производственно-технического назначения. 22. Плановая калькуляция, расшифровка материальных затрат к калькуляции. 23. Наряд-заказ. 24. Внутренний заказ, требование-накладная. 25. Сведения о наличие рабочих по профессиям и разрядам по цеху. 26. Отчёт о среднесписочной численности и неявкам работающих. -122- 27. Ведомость укомплектованности производства основными материалами, остатки материалов. 28. Табель рабочего времени. 29. Заявка для ФО. 30. Ведомость укомплектованности производства основными материалами. 31. Ведомость остатков материалов:. 32. Отслеживание соблюдения договоров поставщиками. 33. НЦП по деталям. 34. Производственный план (уточнённый). 35. Поправки к уточнённому плану. 36. НЦП в стоимостном выражении. 37. Отчет по заработной плате в разрезе цехов. 38. Отчёт по производству. 39. Изменение нормативов. 40. Сводная величина затрат вспомогательных цехов, 41. Обсчёт ПХД. 42. Нормативы трудовые и материальные. 43. Лимиты по цеховым расходам. 44. Консультации. 45. Лимитно-затратные карты на заказы, не прошедшие в уточнённом плане. 46. Распределение з/п для с/с. 47. Приработок. 48. Материальные отчеты. 49. Бухгалтерский расчет. 50. Инвентаризация. 51. Нормирование. 52. Анализ отклонений по материальному отчёту. 53. Сводная ведомость по браку. 54. Средняя з/п по категориям, профессиям. 55. % выработки за месяц по видам работ и в целом по цеху. 56. Отчёт по выполнению производственного плана цехом. 57. Затраты на планируемые и выполненные работы. -123- 58. Выдача ордеров по з/п. 59. Приказ ОК (приём, перевод, упольнение). 60. Распоряжение руководства. Некоторые образцы рассмотренных документов приведены в приложении 2. Сравнение проводилось с целью выявления общего стандарта оформления документации для каждого предприятия, а также сходств и отличий от правил оформления, установленных государственным стандартом. В целом, сравнительный анализ структур документов показал наличие определённых сходств в оформлении и заполнении формуляров документов: 1) Большинство документов располагаются па стандартном прямоугольном формуляре формата А4, либо на нескольких листах формата А4, в случае наличия приложений. 2) В теле документов отчётливо просматриваются отдельные реквизиты. 3) Общий состав реквизитов соответствует установленному ГОСТ-ом Р 6.30-97 максимальному набору реквизитов. 4) Содержимое документов по структуре можно чётко разделить на составные части: заголовочную, основную и оформляющую. 5) Для каждого предприятия можно выделить свой, оригинальный набор правил оформления и заполнения документации. 6) Территориальное размещение реквизитов на формулярах документов в целом соответствует месту их расположения, установленному ГОСТ-ом Р 6.30-97. 7) Основные различия и несоответствия стандарту наблюдаются в заголовочной, и оформляющей частях, которые, в основном, выражаются в несоблюдении строгого горизонтального размещения и выравнивания реквизитов. 8) Обнаружены расхождения в записи самих реквизитов, которые заключаются в опускании части текста реквизита либо приписывании лишнего текста. . 9) В части документации заполнение реквизитов осуществляется с несоблюдением интервалов, что приводит к резкому ухудшению читабельности документа и затрудняет автоматизированную обработку. 10) Па некоторых предприятиях наблюдается постепенный отход от установленных даже па самом предприятии стандартов и правил оформления документации, очевидно, в связи с ослаблением контроля за соблюдением стандарта предприятия. -124- Исходпые документы были представлены в электронном виде в в различных форматах с использованием различных средств подготовки текстов. Наиболее распространёнными средствами подготовки документов являются популярные среды из пакета Microsoft Office такие как текстовый процессор Microsoft Word и электронная таблица Microsoft Exel, поскольку большинство документов представлены в форматах популярных офисных приложений Microsoft Word и Microsoft Exel. Ещё одним часто встречающимся форматом представления текстовой информации является форматированный текст с разметкой или RTF. Небольшое количество документов представлено в формате текстовых файлов MS-DOS, подготовленных с помощью таких приложений как, например, Lexikon, MS Word для MS-DOS, WordPerfect, WordStar и т.д. Несмотря на то, что текстовые файлы в формате MS-DOS весьма устарели, подобные документы, тем не менее, до сих пор используются во многих организациях. Например, некоторые виды отчётности, различные внешние документы, почтовые сообщения и т.п. Таким образом, результаты исследования структур документальных ресурсов на различных предприятиях, позволили сделать вывод о том, что закономерности оформления документации дают возможность принять за основу модели производственного документа структуру, определяемую ГОСТ-ом Р 6.30-97. -125-5.2. Построение тезауруса с помощью прикладной программной системы «Thesaurus Builder» В качестве апробации научных результатов в виде разработанного метода автоматизированного построения отраслевого словаря терминов ПрО, описанных в третьей главе, была спроектирована прикладная программная система интерактивного автоматизированного построения технического тезауруса. В систему заложены алгоритмы, реализующие теоретические положения разработанного метода. В качестве объекта исследования были выбраны документальные ресурсы, описывающие бизнес-деятельность различных предприятий и организаций. Функциональная структура системы наглядно отображает особенности работы программного комплекса, потоки информации между основными модулями, точки взаимодействия системы с обслуживающим персоналом. Функциональная структура системы Рис. 5.1.
-126- Функциональная структура программной системы состоит из двух основных подсистем: подсистемы предварительной обработки документации и подсистемы составления Отраслевого Информационного Языка (ОИЯ). Подсистему предварительной обработки документации составляют два основных модуля — это модуль ввода документации и модуль генерации промежуточных файлов-документов. Основное назначение данной подсистемы — подготовка исходных данных документооборота предприятия, т.е. документации представленной в виде файлов операционной системы. Поскольку на сегодняшний день не существует, как такового, единого стандарта на представление документов в виде файлов какого-либо определённого формата, то исходные формы документов могут быть представлены (переданы системе) в различных форматах. Наиболее простым и переносимым форматом следует считать формат ANSI-текст или текст MS-DOS. Документы представленные файлами данного типа наиболее просты в обработке, не требуют больших затрат ресурсов вычислительной машины, а также затрат персонала на их дополнительную подготовку. Несмотря на то, что документы в формате текста MS-DOS весьма устарели, всё-таки подобные документы до сих пор используются во многих организациях. Например, некоторые виды отчётности, различные внешние документы, почтовые сообщения и т.п. Документы в других совместимых форматах MS-DOS -приложений, таких как, например, Lexikon, MS Word для MS-DOS, WordPerfect, WordStar и т.д. практически вышли из употребления и поэтому в дальнейшем не рассматриваются. Далее следует отметить, что ещё одним из популярных и общепризнанных форматов хранения документов, на сегодняшний день, можно, пожалуй, считать документы Microsoft Office 95/97, такие как текстовые документы Microsoft Word 95/97, а также электронные таблицы Microsoft Exel 95/97. Базы данных Microsoft Access, no псей видимости, нельзя считать общепринятыми документами в данном случае. Ну и наверное самым «поддерживаемым» форматом представления текстовой информации является форматированный текст с разметкой или RTF. Поскольку заранее не известно в каком виде будет представлена исходная документация для анализа (файлы документов в различных форматах), а также в каком порядке она будет передана системе (в виде простого набора файлов либо в виде дерева каталогов, где документы будут размещены по подразделениям и т.п.) необхо- -127- димо провести сё предварительную сортировку и упорядочивание. Модуль ввода документации выполняет файловые операции ввода-вывода информации на уровне операционной системы и составляет некую внутреннюю (служебную) справочио-информационную структуру (совокупность таблиц базы данных) — список документов, отсортированный по подразделениям. В результате исходная документация представляется в виде, удобном для работы следующего модуля. Возможно также графическое представление результатов работы модуля и пользовательской корректировки полученных данных. В ходе проектирования программной системы было решено привести исходные документы к единому универсальному формату, с целью упрощения процедур дальнейшей обработки информации. Модуль генерации промежуточных файлов-документов выполняет некую формализацию структуры документов, для устранения зависимости операций обработки от типа (формата) документа. Для каждого исходного документа генерируется промежуточный файл-документ с расширением, задаваемым пользователем (по умолчанию *.txf) и помещается в каталог файловой системы (по умолчанию — ConvertedDocs). Промежуточный файл будет иметь тэгообразную структуру, напоминающую HTML (формат разметки гипертекстовых документов). То есть каждый элемент исходного документа в промежуточном будет выделен (заключён в) специальными символами — тэгами, для упрощения дальнейшей работы с документами и приведения их к единообразному виду (формату). Промежуточный файл-документ будет иметь текстовый вид — т.е. вид текста MS-DOS для обеспечения переносимости (независимости от редактора), и, кроме того, для осуществления контроля за выполнением операции генерирования промежуточных файлов-документов. Пример составления промежуточного файла-документа приведён ниже. Подсистема составления Отраслевого Информационного Языка (ОИЯ) представлена следующими модулями: модуль составления списка показателей, модуль частотного анализа показателей и модуль построения (ОИЯ). Первый модуль составляет полный список всех имеющихся показателей в исходной документации. Для этого производится анализ промежуточных файлов-документов на предмет выявления в них показателей документов и занесение всех найденных показателей в некую таблицу базы данных. В списке также может присут- -128- ствовать такая информация, как наименование документа или группы документов, в которых встретился данный показатель, среднее значение либо предела изменения значения показателя; отдельно выделяется тип показателя (целочисленный, строковый и т.д.). Модуль частотного анализа показателей непосредственно выполняет сортировку и упорядочивание полученного ранее списка показателей. При использовании СУБД данные операции легко реализуются с помощью языка структурированных запросов - SQL. Результатом работы данного модуля является генерация списка показателей с указанием частоты встречаемости каждого из них. Модуль построения (ОИЯ) занимается выделением наиболее значимых показателей из всего списка, поиском дублирующей информации и построением формализованного отраслевого тезауруса. Работа данного модуля будет осуществляться в режиме диалога с пользователем, поскольку для составления ОИЯ необходима помощь человека-оператора (эксперта). Автоматическое составление ОИЯ возможно при наличии, по крайней мере, тезауруса русского языка для поиска синонимов найденных параметров и удаления повторяющихся терминов. Пример промежуточного файла-документа: <ПРОМЕЖУТОЧНЫЙ> <РЕКВИЗИТЫ> ООО «Бит-Сервис» Галкинская, 16 Тел. 25-17-72 E-Mail contact@bitservice.vcom.ru <РИСУНОК>ИМЯ_ФАЙЛА_РИСУНКА</РИСУНОК> </РЕКВИЗИТЫ> <ОТДЕЛ>Отдел продаж</ОТДЕЛ> <КОММЕНТАРИИ>Имя отдела заполняется пользователем</КОММЕНТАРИИ> <НАЗВАНИЕ>Накладиая</НАЗВАНИЕ> <ПОКАЗАТЕЛЬ>№</ПОКАЗАТЕЛЬ> <ЗНАЧЕНИЕ>173</ЗНАЧЕИИЕ> <ПОКАЗАТЕЛЬ>от</ПОКАЗАТЕЛЬ> ОНАЧЕНИЕ>17.04.2000</ЗИАЧЕНИЕ> -129- Экспериментальное тестирование и проверка работоспособности программной системы «Thesaurus Builder» состоит в обработке программой тестового набора заранее определённых документов и последующего анализа полученных результатов. В ходе экспериментального запуска программе было предложено обработать 230 документов различного вида, среди которых содержались документы Microsoft Word (doc), документы в виде форматированного текста (rtf) и обычные текстовые документы (txt), В результате все документы были успешно обработаны и получен результирующий список найденных показателей; суммарное время обработки составило 166,75 минут =2ч. 46 мин. 45 сек. Среднее время обработки одного документа составило 43,5 секунд. По результатам экспериментальных проверок было выяснено, что время обработки документов существенно зависит от типа самого документа. Поскольку для документов, имеющих формат, отличный от текстового, необходимо дополнительное время на промежуточное преобразование, это в значительной мере снизило общую скорость обработки. В случае если подавляющее большинство документов имеет текстовый вид, размер самого документа гораздо меньше влияет на скорость обработки. Кроме того, для выявления производительности было проведено тестирование работы программной системы с использованием ЭВМ, имеющих различную конфигурацию, а именно Pentium 100 MHz/32 Mb RAM и Pentium 233 MHz/64Mb RAM. Результаты тестирования различных функций программной системы по обработке документов приведены в таблице 5.1., исходные тексты самих документов приведены в приложении №2. Результаты поиска показателей в документах и составленный отраслевой информационный язык выводятся программой на экран в виде отчёта и приведены в приложении №3. -130- Таблица 5.1. Тестирование обработки документов
По результатам тестирования можно сделать следующие выводы: 1) Программа вполне работоспособна и вполне может выполнять некоторые задачи автоматизации анализа потоков информации. 2) Скорость обработки удовлетворяет поставленным требованиям и поиск показателей выполняется эффективно при соблюдении пользователями определённых требований, предъявляемых к документам. 3) Как видно из результатов тестирования, мощность используемой вычислительной машины значительно сокращает длительность обработки, однако не является главным средством для повышения производительности. 4) Поскольку на данном этапе используются простейшие методы поиска показателей без привлечения сложного семантического анализа и использования тезауруса русского языка, производительность можно повысить путём усовершенствования процедуры промежуточного преобразования документов и улучшения структуры формализованного документа. -131- 5.3. Экспериментальная проверка модели информационных ресурсов В главе 2 была разработана модель информационных ресурсов, позволяющая определить наиболее важные частотные характеристики терминов, и предназначенная для автоматизированного построения технического тезауруса. В качестве экспериментальной проверки полученных соотношений было сформировано множество документов по различным предметным областям, соответствующих ряду предприятий Вологодской области. Целью эксперимента является доказательство истинности математических соотношений для вычисления частотных свойств терминов, разработанных в модели информационных ресурсов. Исходными данными являются текстовые документы предприятий. Суть эксперимента состоит в следующем: При помощи автоматизированных программных средств тексты документов разбиваются на отдельные лексеммы (слова), удаляются неправильные лексеммы (фрагменты текста, представляющие цифро-буквенные сочетания). С помощью алгоритмов морфологического анализа и специальных словарей слова приводятся к начальной форме по правилам словообразования. Формируется список терминов для которых вычисляются их частотные и весовые характеристики. Проверяемые показатели сведены в таблицу 5.2. Таблица 5.2. Используемые показатели
В итоге вычисления частотных свойств были получены следующие результаты, которые сведены в таблицы термин-характеристик. 1) Для СБЕРЕГАТЕЛЬНОГО БАНКА РФ (Вологодское отделение №7867): Количество проанализированных экземпляров документов = 80, Общая сумма видов терминов = 127, Суммарное количество терминов = 469. -132- Термины, наиболее значимые для ПрО и их частотные характеристики приведены в табл,5.3. Таблица 5.3. Частотные свойства терминов
Исходя из экспериментально полученных результатов, можно сделать вывод, что наиболее часто упоминаемыми в документах для данной ПрО являются термины №1-«Акция», №2-«Банк», №5-«Вклад», №15-«Сбербанк», №23-«Отделение». Наглядно проиллюстрировать распределение некоторых терминов по документам позволит диаграмма на рис.5.1. -137-В целом можно сделать вывод, что поскольку формы кривых распределения идентичны, то значит характеристики терминов выбраны правильно. Таким образом, на основании экспериментальных проверок, можно сделать вывод об адекватности математических соотношений 2.10-2.19, разработанных в модели информационных ресурсов. Математические соотношения, сведённые в табличные представления показывают, что реальная информативность термина действительно зависит от его весовых и частотных характеристик. Поэтому данная модель позволяет определить наиболее информативные термины для конкретной предметной области и сформировать в дальнейшем отраслевой терминологический словарь. Простейшие зависимости дают возможность не прибегать к смысловому анализу терминов, опираясь лишь на вероятностные характеристики, что, в свою очередь, позволяет сократить участие эксперта в составлении тезауруса. -138-выводы Предметом экспериментальных исследований являются документальные ресурсы, описывающие бизнес-деятельность различных предприятий и организаций Вологодской области. Приведены результаты экспериментальной работы по трём основным направлениям: 1) исследование структур документальных ресурсов, 2) построение тезауруса, при помощи программной системы «Thesaurus Builder», 3) экспериментальная проверка модели информационных ресурсов. В процессе анализа было рассмотрено приблизительно 60 видов производственных документов. Общий объём исследованной документации составил приблизительно 250 экземпляров. В результате сравнительного анализа структур документальных ресурсов были выявлены закономерности составления документов, на основе которых были сформулированы идеи построения формальной модели производственного документа. Проанализированы форматы представления исходных документов и используемые средства для подготовки текстов. В качестве наиболее распространённого средства подготовки документов были выявлены популярные среды из пакета Microsoft Office такие как текстовый процессор Microsoft Word и электронная таблица Microsoft Excl. Описана спроектированная прикладная программная система интерактивного автоматизированного построения технического тезауруса. Приведены особенности работы программного комплекса, показаны потоки информации между основными модулями, определены точки взаимодействия системы с обслуживающим персоналом. Выполнено описание базы данных программной системы, раскрыты основные приёмы по работе с программой (руководство пользователя). Проведено экспериментальное тестирование и проверка работоспособности программной системы. На примере множества документальных ресурсов отделения СБ РФ №7867 и ОЛО «Вологдамоитажпроект» была экспериментально подтверждена адекватность соотношений, выведенных в модели информационных ресурсов. -139-ЗАКЛЮЧЕНИЕДанная работа посвящена решению основных вопросов автоматизации анализа информационных ресурсов управления машиностроительным предприятием и построения концептуальной модели при реорганизации управления предприятием. В результате исследований была достигнута поставленная цель работы, заключающаяся в повышении эффективности анализа информационных ресурсов управления предприятием на этапе проведения предпроектной стадии реорганизации системы управления предприятием. В результате работы были решены поставленные задачи: 1. Разработана структурно-синтаксическая модель обобщённого производственного документа. 2. Разработана модель информационных ресурсов управления машиностроительным предприятием. 3. Разработан метод автоматизированного построения отраслевого словаря предметной области (технического тезауруса). 4. Разработан метод построения концептуальной модели машиностроительного предприятия на основе неоднородной семантической сети. 5. Разработан критерий оценки адекватности построения концептуальной модели машиностроительного предприятия. 6. Разработаны алгоритмы, для реализации полученных методов, моделей и критериев. Применение методов, реализованных в структурно-синтаксической модели производственного документа, позволило повысить результативность структурного анализа содержимого документов. За счёт гибкости используемых методов синтаксического перевода и компиляции появилась возможность выполнять интеллектуальные структурные запросы значительной сложности. Благодаря использованию алгоритмов структурного разбора документа достигнуто повышение уровня техники заполнения документов пользователями при работе па клиентских местах, оперативный контроль правильности составления документов, возможность быстрой проверки соответствия ряда документов заданной эталонной модели. -140- Модель информационных ресурсов позволяет исследовать различные частотные характеристики терминов в информационных потоках, выявить наиболее значимые термины информационных сообщений, сформировать основные словарные статьи отраслевого искусственного языка предметной области (технического тезауруса). Анализ данной модели позволяет приблизительно оценить объём информационного потока в терминах. С помощью средств модели можно сформировать множество документов, подобных заданному, по установленному набору терминов, на основе вычисления меры релевантности для документа-образца и искомого документа. Разработанный комплекс методов и моделей для построения КМ предприятия использовался при решении задачи первичного обследования реально действующего предприятия на предпроектном этапе подготовки технического задания и общих требований на разработку КИС. Предлагаемый подход позволил снизить затраты материально-технических ресурсов и уменьшить привлечение интеллектуального труда людей при построении КМ машиностроительного предприятия. Были проведены исследование и анализ информационных документальных ресурсов на ряде предприятий и получены экспериментальные результаты, подтверждающие истинность разработанных моделей и методов. Научными результатами работы являются следующие: 1. Структурно-синтаксическая модель обобщённого производственного документа, отличающаяся учётом составного характера документов, обеспечивающая эффективное проведение структурного анализа производственных документов и возможность выполнения сложных интеллектуальных запросов. 2. Модель информационных ресурсов предприятия, учитывающая многократное появление однотипных терминов в документах и позволяющая исследовать специфические свойства информационных ресурсов при решении задачи реорганизации АСУП. 3. Метод автоматизированного построения отраслевого словаря ПрО (технического тезауруса) отличающийся использованием частотных свойств терминов в сочетании с разбивкой на непересекающиеся семантические классы, позволяющий снизить трудоёмкость создания модульных структур систем сбора и обработки данных в АСУП. -141- 4. Метод построения концептуальной модели машиностроительного предприятия на основе неоднородной семантической сети и технического тезауруса, позволяющий строить модель в разрезах заданных семантических классов, что повышает наглядность и структурированность модели. Модели и методы, полученные в работе, были реализованы в виде прикладной программной системы анализа информационных ресурсов предприятия. Разработана прикладная программная система автоматизированного построения технического тезауруса. Внедрение выполнено на машиностроительном предприятии ОАО «ЭЛЕКТРОТЕХМАШ» г.Вологда. Исполняемые модули и программные библиотеки оформлены в виде составной части заводской КИС. В результате внедрения программного комплекса был построен технический тезаурус на основе применения разработанной методики и выданы рекомендации по его практическому применению для решения задач автоматизации документооборота отделов предприятия. Результаты работы позволили повысить эффективность труда разработчиков производственной системы информационного обеспечения и снизить затраты на обработку информации. Программно-алгоритмические средства были использованы при разработке концептуальной модели предприятия в процессе подготовки стратегического плана комплексной автоматизации. Возможности по дальнейшему усовершенствованию методики, предложенной в данной работе заключаются в повышении эффективности алгоритмов лексико-морфологического анализа текстов на естественном языке, поскольку от качества их работы во многом зависит результативность выделения понятий предметной области из текстов документов. Также имеется значительный потенциал по повышению уровня автоматизации построения структурно-синтаксической модели производственного документа. На сегодняшний день созданы и реально функционируют инструментальные средства, позволяющие в интерактивном режиме строить контекстно-свободные грамматики и создавать программы-трансляторы для контекстно-свободных языков. Сочетание методов синтаксического перевода и компиляции в структурно-синтаксической модели с методами нечёткой логики позволит эффективно реализовать фунции поиска документов. -142-Литература 1. Хаммер М., Чампи Дж. Реинжиниринг корпорации: Манифест революции в бизнесе. / Пер. с англ. — СПб.: Изд-во СПбУ, 1997. -387с. 2. Горнев А.З. Проблемы управления крупными промышленными комплексами: Монография. Н.Новгород: Изд-во ННГУ, 1998. -569с. 3. И.Б. Игнатьева, С.Д. Коровкин, И.Д. Ратманова. Инфовизор - комплекс инструментальных средств для поддержки принятия решений // Тезисы докладов Всероссийской конференции «Интеллектуальные технологии в решении проблемы качества». - Ярославль, 2000.-С.31-33. 4. Ларичев О.И., Мошкович Е.М. Качественные методы принятия решений. - М.: Физ-матлит, 1996.-372с. 5. Тарасов В.Б. Предприятия ХХ1-го века: проблемы проектирования и управления// Автоматизация проектирования.-1998. - №4 (10). - С.45-52. 6. Робсон М., Уллах Ф. Практическое руководство по реинжинирингу бизнес-процессов: пер. с англ. под ред. Н.Д. Эриашвили.-М.: Аудит, ЮНИТИ, 1997.-415с. 7. Б.Я, Советов, С.А.Яковлев. Моделирование систем. М.: Высшая школа, 2001. 8. Смирнов А.В. Шереметов Л.Б. Конфигурация сложных систем на основе технологии интеллектуальных агентов.//Автоматика и вычислительная техника.-М.:№4. 1998 -С. 18-29. 9. Ойхман Е.Г., Попов Э.В. Реинжиниринг бизнеса: реинжиниринг организаций и информационные технологии. - М.: Финансы и статистика, 1997.-349с. 10. Слиньков Д. Бизнес-моделирование для внедрения ИСУ предприятия// Директор информационной службы - 2001. - К» 3 11. Емельянов В.В., Урусов А.В. IDEF-RDO: имитационный анализ функциональной структуры сложных системУ/Программные продукты и системы. 1997. -№3.- С. 13-18. 12. Попов Э.В., Евсеев О.В. Методологии и средства реинжиниринга бизнес-процессов // Банки и технологии.- 1997. - №4. - С.80-89. 13. Коровкин С. Д., Левенец И. А., Ратманова И. Д. Решение проблемы комплексного оперативного анализа информации хранилищ данных // СУБД. - 1997. - № 5-6. - С. 47-51. -143- 14. Тарасов В.Б. Новые стратегии реорганизации и автоматизации предприятий: на пути к интеллектуальным предприятиям// Новости искусственного интеллекта.- 1996. -Ла4.-С.40-84 15. Горнсв В.Ф., Ковалевский В.Б. Компьютерная интеграция и интеллектуализация производств на основе их унифицированных моделей// Программные продукты и системы. - 1998. - №3. - С Л 2-19. 16. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. -С.Петербург: ПИТЕР, 2000.-380с. 17. Волчков С.А., Балахонова И.В. Моделирование для непрерывного улучшения бизнес-процессов на базе стандартов ERP и ИСО 9001 от 2000 года// Методы менеджмента качества - 2001. - № 2.-С. 12-32. 18. Шеер А.В. Бизнес-процессы. Основные понятия. Теория. Методы: Изд. 2-е/Пер, с англ. ОАО «Весть», ООО «МетаТехнология», АОЗТ «Просветитель», 1999.445с. 19. Рубашкин В.Ш. Представление и анализ смысла в интеллектуальных информационных системах. - М.: Наука. Гл. ред. физ.-мат, лит., 1989. -352с. 20. Мельчук И.А Опыт теории лингвистических моделей «Смысл-Текст». Семантика, синтаксис. - М.: Школа «Языки русской культуры», 1999.-267с. 21. Харламов А.А., Ермаков А.Е., Кузнецов Д.М. Технология обработки текстовой информации с опорой на семантическое представление на основе иерархических структур из динамических нейронных сетей, управляемых механизмом внимания. // Информационные технологии. - 1998. - N 2. - С. 26-32. 22. Попов Э.В. Реинжиниринг, усовершенствование и моделирование предприятий// Новости искусственного интеллекта. -1998. -№1. - С.60-91. 23. Gornev V.F., Tarassov V.B., Soenen R., Tahon С. Virtual Enterprises: Reasons, Sources and Tools// Preprints of IFAC/IFIP Conference on Management and Control of Production and Logistics (MCPL’97, Campinas, SP, Brazil, August 31-September 3 1997). - P. 53-58. 24. Дэвид А. Марка, Клемент Макгоуэн. Методология структурного анализа и проектирования (SADT). - М.: Финансы и статистика, 1997.-329с. 25. Г.Буч, Объектно-ориентированное проектирование с примерами применения М., «Конкорд», 1992.-375с. 26. Буч Г., Рамбо Д., Джекобсон А. Язык UML. Руководство пользователя: Пер.с англ. - М.:ДМК, 200О.-324с. -144- 27. Шлеср С, Меллор С, Объектно-ориентированный анализ: моделирование мира в состояниях.- М.-1992.-421с. 28. National Institute of Standards and Technology. Integration Definition for Information Modeling, 1993.-53 8p. 29. Модин Л. Л. Исследование и анализ потоков информации на промышленном предприятии. - М.: Наука, 1970. -376с. 30. Садовников В. И., Эпштейн B.JI. Потоки информации в системах управления. -М.:Энергия, 1974-348с. 31. Оре О. Теория графов. М.: Наука, 1980.—315с. 32. Осипов Г.С., Поспелов Д.Л. Семиотическое моделирование. Введение в прикладную семиотику.-М: 1996.—319с. 33. Баевский B.C. Лингвистические, математические, семиотические и компьютерные модели в истории и теории литературы. - М.: Языки славянской культуры, 2001.-408с. 34. Беляева Л.Н., Косарев Ю.А., Пиотровский Р.Г. Обработка речи и текста: Достижения, проблемы, пути.// Вестник СПб отделения Российской академии естественных наук.-СШ.: 1999.-С.72-82. 35. Лукашевич Н.В., Салий А.Д., Представление знаний в системе автоматической обработки текстов // НТИ, Сер.2. 1997. № 3. С. 1-6. 36. Искусственный интеллект. — В 3-х кн. Кн.2. Модели и методы: Справочник. / Под ред. Д.А.Поспелова. •—М.: Наука, 1990-248с. 37. Введение в теорию экспертных систем и обработку знаний. -Мн.: Дизайн-Про, 1995.-529с. 38. Горнев В.Ф. Компьютерно-ориентированные обучающие технологии в инженерной подготовке. - М., 1998. - 52с. -НИИВО: Вып.12. 39. Осипов Г.С. Приобретение знаний интеллектуальными системами: основы теории и технологии. -М.: Наука, Физматлит, 1997.-415с. 40. Осипов Г.С, «Информационные технологии, основанные на знаниях» / Новости искусственного интеллекта, М., Э1, 1993,- С. 7 - 41. 41. Громов Г.Р.Очерки информационной технологии.-М.: ИнфоАрт. 1993.-340с. 42. Виттих В.А. Управление открытыми системами на основе интеграции знаний // Автометрия,№3, 1998-С. 38-49. -145- 43. Солтон Дж. Динамические библиотечно-информационные системы. М.: Мир.1979.-151с. 44. Аветисян Д.О. Проблемы информационного поиска М.: Статистика, 1973.-371с. 45. U, Hahn and U. Reimer, «Knowledge-Based Text Summarization: Salience and Generalization Operators for Knowledge-Based Abstraction,» Advances in Automatic Text Summarization, I. Mani and M. Maybury, eds., MIT Press, Cambridge, Mass., 1999, pp. 215-232. 46. G. Salton et al., «Automatic Text Structuring and Summarization,» Information Processing & Management, Vol. 33, No. 2, 1997, pp. 193-207. 47. D.R. Radev and K.R. McKeown, «Generating Natural Language Summaries from Multiple Online Sources,» Com-putational Linguistics, Vol. 24, No. 3, 1998-pp. 469-500. 48. J.G. Carbonell and J. Goldstein, «The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries,» Proc. 21st Int’l ACM SIGIR Conf. Research and Development in Information Retrieval, ACM Press, New York, 1998.- pp. 335-336. 49. R.K. Ando et al., «Multidocument Summarization by Visualizing Topical Content,» Proc. ANLP/NAACL 2000 Workshop on Automatic Summarization, 2000, pp. 79-88. 50. I. Mani and E. Bloedorn, «Summarizing Similarities and Differences Among Related Documents,» Information Retrieval, Vol. 1, No. 1,1999.-pp. 35-67. 51. A. Merlino, D. Morey, and M. Maybury, «Broadcast News Navigation Using Story Segments,» Proc. ACM Multimedia 97, ACM Press, New York, 1997.-pp. 381-391. 52. Priss U.E., The Formalization of WordNet by Methods of Relational Concept Analysis // WordNet. An Electronic Lexical Database. /Ed. by C. Fellbaum. Cambridge, Massachusetts, London, England.: The MIT Press 1998. P. 179-196. 53. Ермаков А.Е. Проблемы полнотекстового поиска и их решение. // Мир ПК. - 2001. -N 5.-C. 14-22. 54. Ермаков А.Е., Плешко В.В. Тематическая навигация в полнотекстовых базах данных // Мир ПК. - 2001. - N 8.-С.28-39. 55. ГОСТ 6.38-90 Унифицированные системы документации. Система организационно-распорядительной документации. Требования к оформлению документов. 56. R. Lienhart, S. Pfeiffer, W. Effelsberg, «Video Abstracting,» Comm. ACM, Vol. 40, No. 12, 1997.-pp. 54-62. -146- 57. ГОСТ Р 6.30-97 Правила составления и оформления документов. 58. Берж К. Теория графов и ее применения. - М.: ИЛ, 1962.-343с. 59. Гладкий А.В. Формальные грамматики и языки. - М.: Наука, 1973.-427с. 60. А.Ахо, Дж.Ульман. Теория синтаксического анализа, перевода и компиляции. T.I. Синтаксический анализ. М.: Мир, 1978.- С. 612 с. 61. Р.Хантер. Проектирование и конструирование компиляторов. - М.:Финансы и статистика, 1984-592с. 62. Д. Грис Конструирование компиляторов для цифровых вычислительных машин. -М.:Мир, 1975.-487С. 63. Маккиман У., Хорнинг Дж., Уортман Д. Генератор компиляторов. Под ред. В.М. Савинкова.-М.: Статистика, 1980. -678с. 64. Емельянов В.В. Модели в задачах анализа и управления сложными системами и процессами// Компьютерная хроника. - 1999. - №3.-С.51-69. 65. Емельянов В.В., Ясиновский СИ. Введение в интеллектуальное имитационное моделирование сложных дискретных систем и процессов. Язык РДО. - М.: АНВИК, 1998.-* 14с. 66. Емельянов В.В., Попов Э.В.Интеллектуальное имитационное моделирование в реинжиниринге бизнес-процессов// Программные продукты и системы. -1998.- №3. -С.3-10. 67. Попов И.И., Романенко А.Г., Сумароков Л.Н. Теоретико-множественное моделирование систем научно-технической информации. // Вопр. информационной теории и практики. М.: ВИНИТИ. 1978. Вып. 33-34 С. 16-63. 68. Попов И. И. Моделирование и оптимизация документальных информационных систем: Учебное пособие. М.: РГГУ, 1996.- 357с. 69. Попов И.И. Информационные ресурсы и системы: реализация, моделирование, управление. М.: ТПК «Альянс» 1996.-456с. 70. Попов И.И., Храмцов П.Б. Распределение частоты встречаемости терминов для линейной модели информационного потока // НТИ 1991 сер. №2 с.23-27 71. Tokunaga Т., Fujii A., hvayama M., Sakurai N., and Tanaka H. Extending a thesaurus by classifying words // Proceedings of the ACL-EACL Workshop on Automatic Information Extraction and Building of Lexical Semantic Resources, 1997-pp. 16-21. -147- 72. Загорулько Ю.А., Попов И.Г. Описание сложных предметных областей на основе интеграции средств представления знаний. // Труды международного семинара Диа-лог'97 по компьютерной лингвистике и ее приложениям. - Москва, 1997. - с. 110-115. 73. Grcffenstettc G. Evaluation techniques for automatic semantic extraction: comparing syntactic and window based approaches // Proceedings of the SIGLEX Workshop on Acquisition of Lexical Knowledge from Text. Columbus Ohio, 1993.-pp. 101-113. 74. Hearst M. and Schutze H. Customizing a lexicon to better suit a computational task // Proceedings of the SIGLEX Workshop on Acquisition of Lexical Knowledge from Text. Columbus Ohio, 1993. pp. 55-69. 75. Зарецкий Д.А. Дистрибутивно-статистический метод установления парадигматических отношений между понятиями. // Вопр. информационной теории и практики. М.: 1989.№58.с.50-58. 76. Caraballo S. A. Automatic construction of a hypernym-labeled noun hierarchy from text // Proceedings of the 37th Annual Meeting of the ACL, 1999. pp. 120-126. 77. Ng H.T. and Lee B.H. Integrating multiple knowledge sources to disambiguate word sense: an examplar-based approach // Proceedings of the 34th Annual Meeting of the ACL, 1996.pp.40-47. 78. Madche A. and Staab S. Discovering conceptual relations from text // Proceedings of ECAI,2000.pp.321-324. 79. Каневский Е.А. Некоторые вопросы пополнения морфологического словаря терминами предметной области //Труды Международного семинара Диалог^ОО! по компьютерной лингвистике и ее приложениям. Москва: РосНИИ Искусственного Интеллекта, 2001. Т.2. С. 156-160. 80. Wille R. Restructuring Lattice Theory: an Approach Based on Hierarchies of Concept // Ordered Sets. Dordrecht-Boston: Reidel, 1992. P. 37-91. 81. Pawlak A., Cellulary W., Smirnov A.V. et al. Collaborative Engineering Based on the Web// Advances in Information Technologies: The Business Challenge// Ed. by J.-Y.Roger, B.Stanford-Smith, P.T.Kidd. - IOS Press, 1998. - p.434-441. 82. Лукашевич Н.В., Добров Б.В., Модификаторы концептуальных отношений в тезаурусе для автоматического индексирования //НТИ, Сер.2. 2000, № 4, С. 21-28. -148- 83. Волчков С.Л., Балахопова И.В. Использование современных стандартов управления предприятием (MRPII, ERP, CSRP, ISO 9000) для непрерывного улучшения биз-нес-процессов(ВР1).//Организатор производства.-2001,-№1.-С.12-24. 84. Тарасов В.Б. Искусственная жизнь - новая метафора для моделирования и перепроектирования предприятий. // Известия ТРТУ. - 1997. - №3. - С. 87-92. 85. Горнев В.Ф. Информационная интеграция производств// Компьютерная хроника. -1999.-ЖЗ.-С.5-24. 86. Горнев В.Ф., Тарасов В.Б. О проектах и мероприятиях по Международной программе «Интеллектуальные производственные системы'У/Автоматизация проектирования. - 1999. - №2 (12). 87. Tarassov V.B., Soenen R. Л Basic Multi-Agent Structure for Virtual Enterprise Modeling// Preprints of the 4th IFAC Workshop on Intelligent Manufacturing Systems (IMS’97, Seoul, Korea, July 22-23 1997). - P. 323-328. 88. Плешко В.В., Ермаков A.E., Липинский Г.В. TopSOM: визуализация информационных массивов с применением самоорганизующихся тематических карт. // Информационные технологии. -2001. - N 8. С. 10-21. 89. Tarassov V., Perfilyev S., Deneux D. Structural-Technological Solutions in Concurrent Design// Proc. of International Conference “Concurrent Engineering Europe’97: Building Tomorrow’s Virtual Enterprise” (CEE’97, Erlangen, Germany, April 16-18 1997)/ Ed. by K.Reger. - Budapest: Simulation Councils Inc., 1997. - P. 10-18. 90. Sowa J. F. Knowledge Representation: Logical, Philosophical, and Computational Foundations. Brooks/Cole Publishing Co., Pacific Grove, CA. - 2000. - P. 389-391. 91. Sowa J. F. Conceptual Structures: Information Processing in Mind and Machine, Addi-son-Wesley, Reading, MA. - 1984. - P.44-52. 92. Осипов Г.С. Построение баз знаний на основе взаимодействия полуавтоматических методов приобретения знаний. Ч.И. Модель знаний и приобретение знаний. Известия РАН. Теория и системы управления. 1995, №5. Москва.: Наука, С. 42-58. 93. Лукашевич Н.В.,Салий А.Д.Представление знаний в системе автоматической обработки текстов // НТИ, Сер.2. 1997. № 3.- С. 1-6. 94. Золотова Г.А. Синтаксический словарь. Репертуар элементарных единиц русского синтаксиса. М.: Наука, 1988.-С.37-44. -149- 95. З.В.Дударь, Д.Е.Шуклин Семантическая нейронная сеть, как формальный язык описания и обработки смысла текстов на естественном языке. // Радиоэлектроника и информатика. X.: Изд-во ХТУРЭ, 2000. - №. 3. - С. 72-76. 96. Тузов В.А. Компьютерная семантика русского языка//Труды Международного семинара Диалог'2001 по компьютерной лингвистике и ее приложениям. Москва: Рос-НИИ Искусственного Интеллекта, 2001, Т.2. С. 356-363. 97. Тузов В.А. Синтаксический анализ предложения //Информационные технологии в гуманитарных и общественных науках. СПб: СГТбЭМИ РАН, 1998. Вып. 7. С. 29-41. 98. Апресян Ю. Д. Избранные труды, том I. Лексическая семантика; 2-е изд., испр. и доп. - М.: Школа «Языки русской культуры» РАН, 1995.-728с. 99. Зализняк А. А. Грамматический словарь русского языка. Словоизменение. М.: Русский язык, 1977. 100. Кузнецове. А. Русский глагол: Формообразовательный словарь-справочник. СПб: Норинт, 2000.-262 с. 101. Белопогов Г. Г., ЗсленковЮ. Г. Алгоритм морфологического анализа русских слов. // Вопросы информационной теории и практики. № 53. Автоматическая словарная служба. Автоматическое индексирование документов. М., 1985. С. 62-93. 102. Швецов А.Н., Яковлев С.А. Распределённые интеллектуальные информационные системы.-СПб.: Изд-во СПбГЭТУ «ЛЭТИ», 2003.-С. 218-234. 103. Баранов С.Н., Домарацкий А.Н., Ласточкин Н.К., Морозов В.П. Процесс разработки программных изделий. // Проблемы информатизации -.М.: № 1.2000.- С.59-60. 104. Государственные стандарты. ГОСТ 9126-93. Оценка программной продукции. Характеристики качества и руководства по их применению. М.- Издательство стандартов. 1993 г. 105. ГОСТ 19.101-77 ЕСПД. Виды программ и программных документов. 106. ГОСТ 19.105-78 ЕСПД. Общие требования к программным документам. 107. ГОСТ 19.401-78 ЕСПД. Текст программы. Требования к содержанию и оформлению. 108/94. ГОСТ 19.402-78 ЕСПД. Описание программы. 109. ГОСТ 19.504-79 ЕСПД. Руководство программиста. Требования к содержанию и оформлению. -150- 110. ГОСТ 19.505-79 ЕСПД. Руководство оператора. Требования к содержанию и оформлению. 1 И. ГОСТ Р ИСО/ МЭК 8631-94 Программные конструктивы и условные обозначения для их представления. 112. ГОСТ 19.701.1-90 ( ИСО 5807-85 ) ЕСПД. Схемы алгоритмов программ, данных и систем. Обозначения условные и правила выполнения. 113. Большой толковый словарь русского языка / Под ред. С.Л. Кузнецова. Спб.: Но-ринт, 1998. 114. Ожегов СИ., Шведова Н.Ю., Толковый словарь русского языка - 3-е издание. М.:Азъ, 1996. 115. Дарахавелидзе П.Г., Марков Е.П. Delphi 4. СПб.:Санкт-Петербург, 1999. - 816 с, ил. -151-Список авторских работ 1. Алёшин B.C., Швецов А.Н. Анализ информационных потоков на предприятии.- Вузовская наука региону: Материалы второй региональной межвузовской научно-технической конференции.- Вологда:ВоГТУ, 2001. - С. 102-104. 2. Алёшин B.C., Швецов А.Н. Применение семантических сетей для анализа текстовой производственной документации.-Моделирование, оптимизация и интенсификация производственных процессов и систем: Материалы международной научно-технической конферсиции.-Вологда: ВоГТУ, 2001, -С. 211-213. 3. Алёшин B.C., Швецов А.Н. Построение лингвистического процессора в системе семантического анализа текстов на естественном языке.- Вузовская наука региону: Материалы III региональной межвузовской научно-технической конференции,-Вологда: ВоГТУ, 2002. -С. 68-70. 4. Алёшин B.C., Швецов А.Н, Семантический анализ информационных потоков предприятия.- Информатизация процессов формирования открытых систем на основе СУБД, САПР, АСНИ и искусственного интеллекта: Материалы международной научно-технической конференции.- Вологда: ВоГТУ, 2001. -С. 193-196. 5. Алёшин B.C., Швецов А.И. Построение обобщённой структуры производственного документа в процессе анализа потоков информации на машиностроительном предприятии.- Информационная среда ВУЗА; IX Международная научно-техническая конференция, сб. статей, вып. 9, ЦНИТ, ИГАСА, 2002. -С. 88-90. 6. Алёшин B.C., Швецов А.Н. Методы и средства построения модели документальных информационных ресурсов машиностроительного предприятия.- VIII Санкт-Петербургская Международная Конференция «Региональная информатика-2002» («РИ-2002»).- Санкт-Петербург: Материалы конференции в 2-х частях. Часть 1. Санкт-Петербург, 2002.- СП. 7. Алёшин B.C., Швецов А.Н. Анализ информации с помощью имитационного моделирования. Управляющие и вычислительные системы. Новые технологии: Материалы межвузовской электронной научно-технической конференции.- Вологда: ВоГТУ, 2001.-С.10-11. -152- 8. Алёшин B.C., Швецов А.Н. Математическое моделирование информационных потоков промышленного предприятия,- «МАТЕМАТИКА, КОМПЬЮТЕР, ОБРАЗОВАНИЕ»: Десятая Международная Конференция.- г.Пущино, 2003 г.- С. 251. 9. Алёшин B.C., Швецов А.Н. Модель информационных ресурсов предприятия.-«Управление и информационные технологии УИТ-2003»: Материалы Всероссийской научной конференции.- Санкт-Петербург. Сборник докладов в двух томах. Том 2. 2003г.-С. 171-174, 10. Воронец И.В., Швецов А.Н., Алёшин B.C. Универсальная автоматизированная система тестирования знаний и самообучения, основанная на анализе естественноязыковых текстов учебных пособий.- «Пилотируемые полёты в космос»: Материалы 5-й Международной научно-практической конференции. Российский государственный научно-исследовательский испытательный центр подготовки космонавтов им. Ю. А. Гагарина. Москва, 2003 г.- С. 65-67. 11. Алёшин B.C., Швецов А.Н. Построение системы автоматизированного тестирования учащихся на основе лексико-семантического анализа материалов учебных пособий.- «Современные технологии обучения «СТО-2003»»: Материалы IX Международной конференции в 2-х томах. Том 1. - СПб., 2003г.- С. 344-346. 12. Алёшин B.C., Швецов А.Н. Построение приближённой концептуальной модели предметной области на основе анализа смысла естественно-языковых текстов,- VI международная конференция по мягким вычислениям и измерениям «SCM’2003».-Санкт-Петербург. Сборник докладов в двух томах. Том 2. 2003 г.- С. 120-124. 13. Алёшин B.C., Швецов А.Н, Применение методов простейшего лексико-синтаксического анализа естественноязыковых текстов для построения компьютерной тренажёрной системы.- Материалы II научно-технической конференции «Тренажёрные технологии и симуляторы», СПб, 2003 г.- С. 103. 14. Алёшин B.C., Швецов А.Н. Методы построения информационных систем анализа производственных документов. Материалы первой общероссийской научно-технической конференции «Вузовская наука региону», Вологда: ВоГТУ, 2003 г. - С. 188-191. -153- ПРИЛОЖЕНИЯПРИЛОЖЕНИЕ 1 Описание основных реквизитов документа Общий состав документа образуют 29 реквизитов: /■/- Государственный герб Российской Федерации /-/^-адресат г^-герб субъекта Российской Федерации г is- гриф утверждения документа /•j-эмблема организации или товарный знак (знак обслуживания) /»лг-резолюция /V-код организации г/^-заголовок к тексту /у-код формы документа г/а-отметка о контроле /■^-наименование организации /-/р-текст документа /у-справочные данные об организации г^-отметка о наличии приложения /■g-наименование вида документа /^/-подпись /у-дата документа Ггг-гриф согласования документа /■^регистрационный номер документа где-визы согласования документа г//-ссылка на регистрационный номер и дату документа г^-печать От-отметка об исполнении документа и направлении его в дело г/т-место составления или издания о^-отметка о заверении копии r/j-гриф ограничения доступа к документу г^-отметка об исполнителе Гм-отметка о поступлении документа в организацию для автоматического поиска документа Реквизит Г/ - Государственный герб Российской Федерации). Реквизит r2 ~ герб субъекта Российской Федерации. Реквизит rj — эмблема организации или товарный знак (знак обслуживания). Эмблема - это условное (символическое) графическое изображение, зарегистрированное в установленном порядке (в соответствии с Уставом фирмы). Эмблему не воспроизводят на бланке, если на нем помещен Государственный герб РФ или герб субъекта РФ. В качестве эмблемы может быть использован товарный знак, рисунок, аббревиатура, комбинированное буквенно-графическое изображение и т.п. Эмблема является необязательным реквизитом и наносится на бланки предприятия по необходимости. При угловом расположении реквизитов эмблема находится в левом верхнем углу, а при продольном - в середине верхней части листа. Бланк, в котором много места отводится под эмблему, неудобен в работе. Поэтому рекомендуется отводить под эмблему 1,5 - 2 см от границы верхнего поля. Реквизит /v-код организации. -154-Реквизит Г5-КОД формы документа. Реквизиту «наименование организации». Располагается под реквизитом «эмблема организации или товарный знак (знак обслуживания)». В соответствии со ст. 54 Гражданского кодекса РФ: • «юридическое лицо, являющееся коммерческой организацией, должно иметь фирменное наименование» ■ «наименование юридического лица указывается в его учредительных документах» Наименование фирмы пишется в строгом соответствии с наименованием, зарегистрированным в учредительных документах (в уставе фирмы, учредительном договоре, свидетельстве регистрационной палаты). Таким образом, сокращенное наименование фирмы или наименование на иностранном языке приводят на бланке документов лишь в тех случаях, если такие наименования закреплены в учредительных документах. • «юридическое лицо имеет свое наименование, содержащее указание на его организационно-правовую форму. Наименования некоммерческих организаций, а также унитарных предприятий и в предусмотренных законом случаях других коммерческих организаций должны содержать указание на характер деятельности юридического лица» Таким образом, в наименовании используются сокращения типа: ОАО - открытое акционерное общество ЗАО - закрытое акционерное общество ТОО - товарищество с ограниченной ответственностью ООО - общество с ограниченной ответственностью МП - муниципальное предприятие. Наименование филиала, территориального отделения, представительства, структурного подразделения организации указывают в том случае, если оно является автором документа, и располагают ниже наименования организации. Реквизит />- «справочные данные об организации». Располагается в левом верхнем углу под реквизитом «наименование организации» в бланках для внешних документов и включает: почтовый адрес, номера телефонов и другие сведения по усмотрению организации (номера факсов, телексов, счетов в банке, адрес электронной почты и др.). Совокупность приведенных данных является юридическим адресом фирмы. -155- Реквизит г8 «наименование вида документа». Наименование вида документа дает общее представление о назначении документа, определяет состав его реквизитов, структуру текста, степень обязательности выполнения его требований. Реквизит печатается прописными буквами, например, КОНТРАКТ, ПРОТОКОЛ. Проставляется на всех документах, кроме писем и факсов. Исключением может являться ГАРАНТИЙНОЕ ПИСЬМО. Реквизит располагают в заголовочной части после реквизита «наименование организации» (для гарантийного письма - после реквизита «справочные данные об организации»). Реквизит гд «дата документа». Дата - один из основных реквизитов документа, придающих ему юридическую силу. Это значит, что если на документе отсутствует дата, то документ считается недействительным, подложным. Датой документа является: · дата его подписания (для писем, справок, приказов) · дата его утверждения (для отчетов, инструкций, планов) · дата события, которое в нем зафиксировано (для протоколов, актов) Например: Общее собрание акционеров проходило 20 апреля 2001 г. По закону «Об акционерных обществах» для составления протокола общего собрания акционеров дается 15 дней. Независимо от того, когда протокол будет составлен и подписан, датой данного протокола будет 20 апреля 2001 г. Существует 2 способа оформления даты: 1. цифровой способ в следующей последовательности: число (2 знака), месяц (2 знака), год (4 знака). Например: 20.04.2001.Такой порядок написания даты принят постановлением Госстандарта РФ № 9-ст от 21.01.2000 о внесении изменений в ГОСТ Р 6.30-97. Таким образом, начиная с 2000 г. для обозначения года отводится 4, а не 2 цифры как это делалось ранее. Цифровой способ используется для написания даты в заголовочной части, в тексте, в реквизитах «резолюция», «гриф утверждения», «визы согласования документа». Кроме того, в международной переписке допускается оформление даты в следующей последовательности: год, месяц, день месяца (например: 2001.04.20) 2. словесно-цифровой способНапример: 20 апреля 2001 г. -156- Этот способ используется в нормативных и финансовых документах. Реквизит «дата документа» проставляется при завершении оформления документа. Дата документа указывается в заголовочной части ниже реквизита «наименование вида документа», а на бланках для внешних документов - под реквизитом «справочные данные об организации. Реквизит гю «регистрационный номер документа». Регистрационный номер документа - это условное обозначение документа, присваиваемое ему при регистрации (иногда употребляют термин «индекс документа»). Реквизит проставляется на документе в заголовочной части рядом с реквизитом «дата документа». Порядковый номер присваивают следующим образом.
-157- При отсутствии структурных подразделений порядковый номер письма может быть дополнен условным обозначением должностного лица-автора документа, вопросов деятельности. Порядковые номера присваиваются отдельно входящим и исходящим письмам. № 26-БМ Реквизит Гц «ссылка на регистрационный номер и дату документа». Данный реквизит проставляется только на письмах, факсах. Заполняется при оформлении письма-ответа на инициативное (полученное фирмой) письмо. Эта ссылка помогает фирме-контрагенту, получившей письмо-ответ быстро найти копию инициативного письма. В тоже время позволяет не давать ссылку на инициативное письмо в тексте документа, и тем самым не перегружать текст. Неправильно начинать текст словами: «В ответ на Ваш запрос от 01.04.2001 № 53/01-02 сообщаю следующие сведения...». Дата и номер для ссылки берутся из инициативного письма и оформляется следующим образом: На№ 53/01-02 от 01,04,2001. Место для данного реквизита определено на бланке для писем иод реквизитами «дата документа» и «регистрационный номер документа». Реквизит г 12-место составления или издания, Реквизит г и «гриф ограничения доступа к документу». Документы с ограничением доступа к документу подлежат обязательному обозначению путем проставления грифа ограничения доступа к документу. Реквизит располагается в правом верхнем углу документа выше реквизитов «адресат» и «гриф утверждения» (см. формуляр-образец) и включает: · обозначение грифа документа • № экземпляра данного документаКроме того, реквизит можно дополнять данными, предусмотренными законодательством об информации, отнесенной к государственной тайне и конфиденциальной информации. Например: Конфиденциально -158-
Реквизит г 14 «адресат». Этот реквизит оформляется на письмах, факсах и содержит указание почтового адреса получателя (адресата). В качестве адресата могут быть фирмы, их структурные подразделения, должностные или физические лица. Реквизит включает: · наименование фирмы в именительном падеже · структурное подразделение в именительном падеже · должность, инициалы и фамилию в дательном падеже · почтовый адрес Реквизит располагают в правом верхнем углу (см. формуляр-образец). НапримерОАО «Сейфити» Отдел маркетинга Начальнику отдела М.Л.Белову 125254, Москва ул. Гончарова, 8/13 Если документ адресуется на имя директора, генерального директора, то адресат может выглядеть следующим образом. Генеральному директору ОЛО «Сейфити» В.Г.Бакунину 125254, Москва ул. Гончарова, 8/13 -159-Если документ отправляют в несколько однородных организаций или в несколько структурных подразделений одной фирмы, то их следует указывать обобщенно. Региональным представительствам НОУ «Высшая Школа Бизнеса»Если документ отправляется в правительственное учреждение, а также постоянным адресатам - почтовый адрес может не указываться. При адресовании документа физическому лицу указывают почтовый адрес, затем инициалы и фамилию получателя. Например: 301264, Тульская обл., Киреевский р-н, г. Липки, ул. Садовая, д.5, кв.12 Н.С.Ветровой На документе может быть несколько адресов (не более четырех) с целью информировать каждого получателя об учреждениях и лицах, которым одновременно направляется документ. Слово «Копия» перед вторым, третьим, четвертыми адресатами не указывают. Подобная ситуация возникает при направлении искового заявления в суд и одновременно ответчику и заинтересованным фирмам. Элементы реквизита «адресат» (наименование учреждения, должность, фамилия) печатаются через 1,5-2 междустрочных интервала. Сведения, входящие в почтовый адрес через 1 интервал. Между адресами делают 2-3 интервала. В целях повышения культуры внешнего оформления документа при печати реквизита «адресат» целесообразно центрировать каждую строку реквизита по отношению к самой длинной строке. Например: Генеральному директору международного исследовательского центра С Л.Виноградову -160- Реквизит Г]5 «гриф утверждения» Утверждение - это особый способ удостоверения документа после его подписания, санкционирование и распространение действия документа на определенный круг учреждений и должностных лиц. Документ, подлежащий утверждению, приобретает юридическую силу только с момента его утверждения. Документы утверждаются органами или должностными лицами, в компетенцию которых входит решение вопросов изложенных в данных документах. В примерный перечень документов фирмы, подлежащих утверждению включаются слежующие: · Акты (проверок и ревизий; приема выполненных работ; списания, экспертизы, передачи дел; ликвидации фирмы и др.) · Договоры (купли-продажи; поставки; перевозки; экспедиции; товарообмена; комиссии; хранения; поручения; подряда; аренды; поручительства; займа; о совместной деятельности и др.) · Задания (на проектирование объектов и сооружений; проведение научно-исследовательских, проектно-копструкторских и технологических работ; капитальное строительство; перевооружение и др.) · Инструкции (по документационному обеспечению управления; технике безопасности; должностные инструкции и др.) · Отчеты (о производственной, финансовой, кадровой деятельности; научно-исследовательских работах; командировках и др.) · Нормативы (расхода сырья, материалов, электроэнергии, технологического проектирования и др.) · Планы (производственные, финансовые, маркетинговые, строительно-монтажных, проектно-изыскательских, научно-исследовательских работ; деятельности совещательных органов фирмы и др.) · Бизнес-планы (планирования и прогнозирования коммерческо-хозяйственной деятельности фирмы и др.) · Программы (проведения хозяйственных работ, мероприятий и др.) · Сметы (расходов на проведение тех или иных хозяйственных программ, мероприятий; содержание зданий, помещений, оборудования и др.) -161-· Расценки на производство работ · Структура и штатная численность фирмы · Штатные расписания и изменения к ним · Положения (о персонале; о функциональных службах и др.) · Тарифные ставки работников фирмы На основе этого примерного перечня в каждой фирме может быть создан перечень документов подлежащих утверждению на данной фирме. Документ утверждается оформлением реквизита «гриф утверждения документа» и содержит следующие элементы: · Слово «УТВЕРЖДАЮ» печатается прописными буквами без разбивки, без кавычек, без двоеточия на конце · Наименование должности лица, утвердившего документ · Личная подпись и ее расшифровка · Дата утверждения документа (цифровым способом) Гриф утверждения располагают в правом верхнем углу первой страницы. В одной строке должно быть не более 28 знаков. Составные части реквизитов разделяются 1,5-2 интервалами, наименование должности печатается через 1 интервал. Например: УТВЕРЖДАЮГенеральный директор ЗАО «Болшевский текстиль» личная подпись И.В.Сергеев 20.04.2001 -162- При утверждении документа несколькими должностными лицами их подписи располагают па одном уровне. При утверждении документа постановлением, решением, приказом, протоколом гриф утверждения состоит из следующих элементов: · слово УТВЕРЖДЕНО (УТВЕРЖДЕНА - инструкция) УТВЕРЖДЕНО - решение УТВЕРЖДЕНЫ - правила УТВЕРЖДЕН -план, т.е. согласуется с видом утверждаемого документа. · Наименование утверждающего документа в творительном падеже Например: УТВЕРЖДЕНОПротоколом общего собрания акционеров от 30.04.2001 №5 или УТВЕРЖДЕНА Приказом генерального директора от 05.05.2001 №25 Реквизит /»/б- резолюция. Резолюция — это указание руководителя по исполнению документа. Наносится руководителем фирмы или структурного подразделения на любую свободную площадь от адресата до текста рукописным способом, параллельно основному тексту документа. Запрещается ставить на документ несколько резолюций. Если указаний по исполнению несколько, допускается прикрепление листка-поручения к документу. Резолюция состоит из следующих элементов: · Указание исполнителя или исполнителей · Содержание действий -163-· Срок исполнения (если он не указан в документе) · Личная подпись руководителя · Дата резолюции Например: Лебедеву Ю. Подготовить проект контракта с фирмой «ХИТЭК» к 01.06.2001, Личная подпись 20.05.2001 Для документов, не требующих дополнительного указания предписываемых действий, указывают только исполнителя (исполнителей), подпись и дату. Например: Миленкову В.А. Даничу В.Е. Горбылевой А.Г.Личная подпись20.05.2001 -164- Реквизит г л - заголовок к тексту. Заголовок к тексту включает краткое содержание документа и содержит основную мысль документа. Оформляется на всех документах формата А4, не оформляется на документах формата А5, телеграммах, телефонограммах. Заголовок печатается над текстом, длина строки не более 28 знаков. Больший по размеру заголовок разбивается на строки, стараясь, чтобы каждая строка содержала законченную мысль. Между сроками заголовка делают 1 интервал. От заголовка до текста делают 2-3 интервала. Способы написания заголовков: · Заголовок отвечает на вопрос «о чем (о ком)?», начинается с предлога О (Об) Например: О подписании контракта на поставку запчастей· Заголовок согласуется с названием вида документа, отвечая на вопрос «чего (кого)?» Например: Должностная инструкция (кого?) секретаря-референта Акт (чего?) инвентаризации Договор (чего?) аренды Реквизит г18 «отметка о контроле». Это штамп, на котором написано слово «Контроль» и «К» (возможно нанесение от руки). Проставляют в верхней части левого поля первого листа документа на документах, подлежащих контролю. Например: I К I-165- Реквизит г/? «текст документа». Текстом управленческого документа является выраженное средствами делового языка содержание управленческих действий. Текст документа должен содержать достоверную и аргументированную информацию изложенную ясно, убедительно, кратко. Содержание должно быть увязано с ранее изданными по данному вопросу документами. Текст документа может быть представлен в форме: · сплошного связного текста; · анкеты; · таблицы; · в виде соединения этих структур. Связный текст, как правило, состоит из двух частей. В первой части указывают причины, основания, цели составления документа, во второй - решения, выводы, просьбы, предложения, рекомендации. Если текст содержит несколько решений, выводом и т.д., то его следует разбивать на разделы, подразделы, пункты, подпункты, которые нумеруют арабскими цифрами: 1. Раздел (глава)1.1. Подраздел 1.1.1. Пункт 1.1.1.1. Подпункт Реквизит г20 «отметка о наличии приложения». Приложения бывают: · Утверждаемые или вводимые в действие соответствующими распорядительными документами (приложения к правовым актам); · Поясняющие или дополняющие содержание основных документов; · Являющиеся самостоятельными документами, направляемыми сопроводительным письмом. Если к документу есть приложение, на нем обязательно проставляется отметка о наличии приложения. Слово «Приложение» печатают от левого поля через 2 интервала после текста. Если документ имеет приложение, упоминаемое в тексте, то проставляют только количество листов и экземпляров. -166-Например: Приложение: на 2 л. в 1 экз. Если документ имеет приложение, не названое в тексте, то указывают его наименование, количество листов и количество экземпляров; при наличии нескольких приложений их нумеруют. Например: Приложение: 1. Положение об Управлении регионального кредитования на 5 л. в I экз. 2. Правила подготовки и оформления документов Управления регионального кредитования на 7 л. в 2 экз.Между названиями документов-приложений 1,5-2 интервала, между строками одного наименования - 1 интервал. При большом количестве приложений составляют опись. Например: Приложение: опись па 5 л. Если приложение сброшюровано, то количество листов не указывают. Если к документу прилагается другой документ, имеющий приложение, то отметка о наличии приложения оформляется по следующей форме: Приложение: Сведения о аффилированных лицах с приложениями, всего на 8 л. в 2 экз. В отметке о наличии приложений указывается в какой адрес направляется приложение, если оно направляется не во все адреса. Например: Приложение: на 5 л. в 1 экз. во второй адрес -167- В приложении к распорядительному документу на первом его листе в правом верхнем углу пишут ПРИЛОЖЕНИЕ с указанием наименования распорядительного документа, его даты и регистрационного номера. Например: ПРИЛОЖЕНИЕ №1к приказу директора Института от25.04.2001№30 РеКВИЗИТ Г21 «ПОДПИСЬ». Обязательный реквизит любого вида документа, придающий ему юридическую силу. Если на документе нет подписи, он считается недействительным, т.е. подложным. Документ подписывается руководящими работниками в соответствии с их компетенцией, установленной действующим законодательством или иными правовыми актами. В организациях, действующих на основе единоначалия, документы подписываются одним должностным лицом: руководителем, его заместителем. Документы информационного характера (служебные записки, справки) могут подписываться исполнителем, если решаемые вопросы не выходят за пределы его полномочий. Реквизит «подпись» располагают ниже текста в оформляющей части (см. Формуляр-образец). Реквизит «подпись» включает: · Наименование должности лица, подписавшего документ (длина строки не более 28 знаков) · Личная подпись · Расшифровка подписи (инициалы, фамилия) Если документ оформляется на бланке, то реквизит «подпись» будет иметь следующий вид. Генеральный директор Ю.Н.Лебедев Если документ оформляется не на бланке, то в наименование должности включают наименование фирмы. Генеральный директор ЗАО «Партнер» Ю.Н.Лебедев Если наименование должности состоит из нескольких строк, то расшифровка личной подписи оформляется на уровне последней строки наименования должности. -168- Исполнительный директор ОАО «Новатор» Г.Л.Андросов Две и более подписи на документе проставляют в том случае, если за содержание документа несут ответственность несколько лиц (финансовые документы, акты и т.д.)- Если документ подписывают несколько должностных лиц с разнороднымидолжностями, то их подписи оформляются друг под другом через 2-3 интервала по старшинству. Генеральный директор В.А.Миленков Главный бухгалтер А.Г.Горбылева Если документ подписывают несколько должностных лиц с однородными должностями, то их подписи оформляются параллельно от 0 (левое поле) и 5 (40 машинописных знаков) положения табулятора. Директор ЗАО «Контракт» ректор ООО «Элстрой» С.В.Алферов В.В.Данич Протокол подписывают председатель собрания и секретарь. Председатель Р.С.Васильев Секретарь Н.А.Парамонова В документах, составленных комиссией, указывают не должности лиц, подписывающих документ, а распределение обязанностей в составе комиссии. Председатель О.В.Голодников Члены комиссии М.Б.Тучкова Д.С.Караваев -169- Документ может быть подписан исполняющим обязанности должностного лица с указанием его фактической должности и фамилии. При этом не допускается ставить предлог «За», надпись от руки «Зам.» или косую черту перед наименованием должности. Реквизит/*^ «гриф согласования документа». Цель согласования - повышение качества документов путем компетентной оценки их своевременности, содержания, оформления соответствующими должностными лицами и учета при необходимости их рекомендаций. Согласование может быть: · внешним (с подчиненными и неподчиненными органами) · внутренним (с подразделением или должностными лицами) - визирование Реквизит «гриф согласования» относится к внешнему согласованию. Так, планы деятельности представительств и филиалов, обязательно должны быть согласованы с руководством головной организации. Реквизит включает: · слово СОГЛАСОВАНО - печатается прописными буквами, без кавычек, без двоеточия на конце, от левого поля · наименование должности лица, с которым согласовывается документ (включая наименование фирмы) · личная подпись и ее расшифровка · дата согласования Например: СОГЛАСОВАНОРектор Финансовой академии при Правительстве Российской Федерации личная подпись А.Г.Грязнова 20.04.2001 Если согласование осуществляют письмом, протоколом и др. документами, гриф согласования оформляют по следующей форме: -170- СОГЛАСОВАНО письмо Главархива 12.04.2001 №01-09/150 или СОГЛАСОВАНО протокол заседания Правления страховой компании «Планета» 10.04.2001 №5 Если грифов согласования несколько, они оформляются параллельно от 0 и 5 положения табулятора. СОГЛАСОВАНО СОГЛАСОВАНО Генеральный директор Исполнительный директор ОАО «Заря» ЗАО «Восток» Д.ЕЛеонов Р.С.Васильев 25.04.2001 25.04.2001 Реквизит г23 «визы согласования документа». Это форма внутреннего согласования проекта документа со специалистами. Т.е. перед подписанием документ может быть согласован с заинтересованными лицами. Реквизит включает: · наименование должности лица визирующего документ · личную подпись и ее расшифровку · дату визирования Например: Начальник юридического отдела личная подпись Т.А.Митрошкииа 20.04.2001 -171- Замечания и дополнения к проекту документа излагаются на отдельном листе, о чем на проекте делается соответствующая отметка. Например: Замечания прилагаются. Начальник юридического отдела личная подпись Т.А.Митрошкина 20.04.2001 Для документа, подлинник которого остается в организации, виза проставляется в нижней части оборотной стороны последнего листа подлинника документа. Для документа, подлинник которого отправляется из организации, визы проставляются в нижней части лицевой стороны копии отправляемого документа. Возможно оформление виз документа на отдельном листе согласования. В фирме целесообразно разработать перечень документов с указанием лиц, визирующих каждый из них. Этот перечень составляется заведующим канцелярией или юристом, согласуется и утверждается. Реквизит г24 «печать». Проставляется на документе для закрепления его юридической силы, особого удостоверения его подлинности. Виды печатей: 1. Гербовая. Характеристики: Всегда круглая. На пей нанесен герб РФ и наименование фирмы. Каждая фирма может иметь в пользовании только 1 экз. гербовой печати. Хранится в сейфе у руководителя (либо у специально назначенного должностного лица), который несет за нее ответственность. В примерный перечень документов, на которых ставится гербовая печать, входят: · акты (приема законченных строительством объектов, оборудования, выполненных работ, списания, экспертизы и т.д.) -172-· доверенности (на получение товарно-материальных ценностей, ведения дел в арбитраже и т.д.) · договоры (о материальной ответственности, поставках, подрядах, аренде, о производстве работ и т.д.) · задания (на проектирование объектов, сооружений, капитальное строительство и т.д.) · командировочные удостоверения · образцы оттисков печатей и подписей работников, имеющих право совершения финансово-хозяйственных операций · гарантийные письма (на выполнение работ, услуг и т.д.) · поручения (банковские, платежные и т.д.) · протоколы (согласования планов поставок и т.д.) · смета расходов (на капитальное строительство, на калькуляцию к договору, на подготовку и освоение производства новых изделий и т.д.) · справки (о выплате страховых сумм, о начисленной и причитающейся зарплате и т.д.) · спецификации (изделий, продукции и т.д.) · Устав фирмы · Штатные расписания 2. Обычная.Характеристики: Произвольной форы, герб отсутствует, на пей нанесено наименование структурного подразделения или для чего предназначена печать. Например: «ОТДЕЛ КАДРОВ», «КАНЦЕЛЯРИЯ», «ДЛЯ СПРАВОК» и т.д. 3. Металлическая.Характеристики: Круглые, меньшие по размеру по сравнению с гербовой. Применяется для опечатывания сейфов, дверей комнат. 4. Штемпель.Характеристики: может содержать различную информацию, часто помещаемую на документе. Например: «ОПЛАЧЕНО», «КОНТРОЛЬ», «вх. №_____» «дата поступления_______» и т.д. -173- Псчать ставится следующим образом: должна захватывать последние буквы наименования должности. Реквизит Г25 «отметка о заверении копии». Заверение копии документа производится для придания ей юридической силы. Организация может выдать копии только тех документов, которые создаются в самой организации. Копия с документа воспроизводится машинописным способом или средствами оперативной полиграфии (множительной техники). Копия должна быть заверена должностным лицом, удостоверяющим полное соответствие подлиннику. В правом верхнем углу пишет или печатается слово «Копия» или «Выписка». Заверяют проставлением завсрителыюй надписи «Верно»; должности лица, заверившего копию; личную подпись; расшифровку подписи; дату заверения. Например: Генеральный директор В.С.Быстровзоров Верно Инспектор отдела кадров личная подпись Е.Г.Лаврснова 25.04.2001 На копиях исходящих документов, остающихся в деле, допускается не указывать дату заверения и должность лица, заверившего копию. Если копия документа пересылается в другие организации или выдается на руки, то заверительная надпись удостоверяется печатью. Вид печати определяется по усмотрению организации. Реквизит Г26 «отметка об исполнителе». Располагают на лицевой стороне последнего листа документа в левом нижнем углу. Реквизит включает: фамилию исполнителя и номер его телефона. При написании номера не рекомендуется проставлять знаки препинания. -174-Например: Писарев 732 18 22Если номер телефона не более 5 цифр, его можно печатать слитно. Например: Мифтина 50078Реквизит Г27 «отметка об исполнении документа и направлении его в дело». Свидетельствует о том, что работа над документом завершена. Проставляется на первой странице документа в нижнем левом углу машинописным или рукописным способом. Реквизит включает: · слово «В дело», номер дела; · краткие сведения об исполнении (может даваться ссылка на вновь составленный документ); · дату и подпись исполнителя или руководителя структурного подразделения. Пример: В дело №01-03 Отвечено№ 26/01-03 Подпись И.П.Никипелова 25.04.2001 или В дело №04-11 Вопрос решен по телефону с директором по производству Подпись И.П.Никипелова -175- 25.04.2001 или В дело № 02-05 Подпись И.П.Никипелова 25.04.2001 Реквизит Г28 «отметка о поступлении документа в организацию». Проставляют на входящих документах в правом нижнем углу первой страницы документа от руки или штемпелем. В отметку включают: · дату поступления документа; · входящий номер; · сокращенное наименование фирмы (при необходимости). Например: ОАО «ЭРА»Вх. №_____ Дата ______ Реквизит Г29 «отметка для автоматического поиска документа». В соответствии с изменениями в ГОСТ Р 6.30-97 этот реквизит теперь имеет название «идентификатор электронной копии документа». Проставляется на машинограммах (машинограмма - это документ на бумажном носителе, созданный средствами вычислительной техники в письменной форме и оформленный в установленном порядке). Идентификатором электронной копии документа является отметка (колонтитул), проставляемая в левом нижнем углу каждой страницы документа и содержащая наименование файла на машинном носителе, дату и другие поисковые данные, устанавливаемые в организации. -176-ПРИЛОЖЕНИЕ 2 Список используемых терминов Бизнес-процесс - совокупность одной или более связанных между собой процедур или операций (функций), которые совместно реализуют некую бизнес-задачу или политическую цель предприятия, как правило, в рамках его организационной структуры, описывающей функциональные роли и отношения. Консалтинг - вид услуг в области интеллектуальной деятельности (создания интеллектуального продукта), связанной с анализом, обоснованием перспектив развития и использования научно-технических и организационно-экономических инноваций. Бизнес-консалтинг - консалтинг по вопросам управленческой, экономической, финансовой и инвестиционной деятельности организаций, стратегического планирования, оптимизации общего функционирования компании, ведения бизнеса, исследования и прогнозирования рынков сбыта, движения цен и т. п. Управленческий консалтинг - решение совокупности проблем, связанных с организацией управления сложными системами в различных сферах деятельности, таких как: · управление бизнесом; · перестройка бизнеса, осуществление изменений: от стратегического планирования до полной реорганизации предприятий; · организационное управление; · консалтинг в области восстановления бизнеса и решения проблем, связанных с неплатежепособностью (кризис-консалтинг); · консультации по вопросам слияния компаний и приобретения собственности; · консалтинг и планирование в области финансовой и хозяйственной деятельности компаний, анализ инвестиционных проектов, содействие при подготовке финансовых прогнозов; · консалтинг в области управления человеческими ресурсами и их развития (включая специализированное обучение сотрудников), а также формирования -177-(или преобразования) корпоративной культуры и стиля руководства управления персоналом; · консалтинг в области информационных технологий и информационные услуги, разработка информационных систем, системная интеграция; · консалтинг в области маркетинга, проведение рекламных компаний и формирование имиджа. Организационное развитие - непрерывный процесс реорганизации системы управления, включающий: оптимизацию и реинжиниринг бизнес-процессов и процессов управления; совершенствование функциональной и организационных структур; комплекс вопросов управления персоналом. Реинжиниринг бизнес-процессов - фундаментальное переосмысление и радикальное изменение бизнес-процессов (с появлением новых бизнес-функций) для достижения серьезного выигрыша в важнейших показателях деятельности предприятия. Оптимизация бизнес-процессов - частичное совершенствование существующих бизнес-процессов за счет ликвидации их явных недостатков (информационные петли, дублирование функций и т. п.). Программа (концепция) реинжиниринга бизнес-процессов - состав, содержание, сроки, результаты и исполнители работ по реинжинирингу. Реорганизация системы - процесс целенаправленного изменения структуры системы. Проект (как совокупность мероприятий) - временное (виртуальное) предприятие, предназначенное для создания уникальных продуктов или оказания услуг. Проект (как продукт, в т. ч. - комплект документации по оргразвитию) - результат работ по созданию продуктов или оказанию услуг. Цели проекта (как совокупности мероприятий) - свойства и функции системы, которыми она должна обладать после внедрения результатов работ. Функционально-структурное моделирование - описание деятельности предприятия в виде бизнес-процессов или системы взаимосвязанных функций (например, построение модели в виде организационно-функциональной схемы или по методологии IDEF0). -178-Организационно-функциональная схема (процессная модель) - графическое описание бизнес-процесса в виде последовательности работ, реализуемой отдельными элементами организационной структуры, с информационными, вещественными и/или финансовыми потоками между ними (суббизнес-процесса как части бизнес-процесса, отражающей процессы управления, - в виде алгоритма управления). Информационное моделирование - описание информационной структуры объектов (сущностей, атрибутов, ключей) с идентификацией отношений между ними (например, построение модели по методологии IDEF1). Имитационное моделирование - моделирование поведения системы в различных аспектах и в разных внешних и внутренних условиях с анализом динамических характеристик бизнес-процессов и анализом распределения ресурсов (например, с использованием «раскрашенных сетей Петри» или деловых игр). Семантическая сеть - математическая модель, отображающая множество понятий относящиеся к определенным классам объектов. В общем случае С.с. может быть представлена в виде гиперграфа, в котором вершины соответствуют понятиям, а дуги - отношениям. Графовая форма представления в С.с. дает большую простоту реализации отношений многих объектов ко многим, нежели в иерархической модели. В зависимости от типов связей, используемых в С.с, различают классифицирующие сети, функциональные сети и сценарии. В классифицирующих С.с. используются отношения структуризации. Функциональные с. (вычислительные модели) характеризуются наличием функциональных отношений, т.е. процедур вычислений. В сценариях используются каузальные отношения. В работах по искусственному интеллекту применяют специальный тип С.с. - И/ИЛИ-графы. Дальнейшим развитием модели япляются растущие семантические сети, пирамидальные сета и др. На основе И/ИЛИ-графов возможно строить описания всевозможных допустимых структур объекта. Множество таких описаний упорядочивают выделением уровней структурной декомпозиции, отвечающих глубине проработки объекта на разных этапах проектирования. С.с. представляет собой граф, в котором множество вершин разбито на два класса: И-вершииы и ИЛИ-вершипы. Переход от И-вершииы к ИЛИ-вершипе графа называют операцией раскрытия И-вершины. В задачах проектирования И-вершины соответствуют операторам декомпозиции объекта, а возможность их раскрытия связана с многовариантностью решений. Для параметрического описания объекта аналогично -179-структурному графу строится параметрический И/ИЛИ-граф, описывающий иерархию параметров {x;€PNl,i=0,k}, где PN| - множество i векторов параметров проектных решений. Совмещение параметрического и структурного графов и дает структурно-параметрическое описание объекта. Отметим два важных обстоятельства, связанных с формированием И/ИЛИ-графа: 1) наличие «статической» части (ядра) графа, в которой заключен имеющийся опыт проектирования - в этом смысле ядро графа можно рассматривать как «банк прецедентов»; 2) открытость системы, наличие «динамической» части модели, за счет которой имеется возможность ее расширения. Разновидностью С.с. является фреймовая модель. -180-ПРИЛОЖЕНИЕ 3 Аито внедрении результатов работыУТВЕРЖДАЮ Генеральный директор
ДороговН.В. /: к подпись, OG y 2003 г. АКТ научно-технической комиссии о внедрении результатов диссертационной работы Алёшина Виктора Сергеевича Комиссия в составе: 1. Смирнов П.А. 2. Сулима-Самуйлло А.И. 3. Малоземов А.В. Начальник отдела АСУП, к.т.н. Зам.начальника отдела АСУП Начальник бюро постановки задач программирования составила настоящий акт о том, что предприятию ОАО «ЭЛЕКТРОТЕХМАШ» переданы следующие результаты диссертационной работы Алёшина В. С: - методика анализа документации на производственном машиностроительном предприятии; - программно-алгоритмический комплекс автоматизированного построения словаря производственных терминов (тезауруса); - результаты построения технического тезауруса на основе применения разработанной методики; - рекомендации по практическому применению программно-алгоритмического комплекса для решения задач автоматизации документооборота отделов предприятия. Результаты диссертационной работы позволяют повысить эффективность труда разработчиков производственных систем информационного обеспечения, снизить затраты на обработку информации, сократить избыточность производственной документации. Программно-алгоритмические средства были использованы при разработке концептуальной модели предприятия в процессе подготовки стратегического плана комплексной автоматизации. Председатель комиссии: Смирнов П.А. Члены комиссии: _ Сулима-Самуйлло А.И. X Малоземов А.В. -181- ПРИЛОЖЕНИЕ 4 Пример трансляции НСС в приближённую КМ на примере отдела реализации готовой продукции Процесс сбыта начинается с заполнения формы заказа сотрудником отдела сбыта,-продолжается планированием производства,-подтверждением доставки от дистрибьюторов, формированием счета-фактуры в финансовой бухгалтерии, контролем за предоставленным товарным кредитом и зачислением денег на счет. Завершается передачей информации в управленческую бухгалтерию. Представленные на схеме ниже отделы выполняют следующие функции: Бюро отгрузки. Обеспечивает заказы на выпускаемую продукцию и формирование заявок производству на продукцию. Ведёт контроль соответствия отгрузки продукции планам производства. Бюро реализации. Обеспечивает своевременность поступления средств за реализованную продукцию, контроль за выполнением условий и сроков оплаты по договорам, подготовку претензий потребителям при нарушении договоров и оформление платёжной документации. Склад готовой продукции. Осуществляет приём, хранение, подготовку к отправке и отгрузку, а также учёт готовой продукции. Кроме того, к процессу сбыта на ОЛО «ЭЛЕКТРОТЕХМАШ» непосредственное отношение имеют транспортный цех и коммерческий центр (КЦ). Транспортный цех осуществляет отгрузку продукции большими партиями, а также доставку товара потребителю по месту назначения. Коммерческий центр занимается координацией работ с дилерами завода, а также всевозможной рекламной деятельностью. Пример КМ, полученной трансляцией из НСС приведен на рисунке 1. |
Спонсоры сайта: Институт глобалистики
и коммуникаций,
НИИ Европейского развития
|
|
Авторское право на тексты принадлежит их авторам, все тексты предоставлены только для ознакомления. |