Глава 9
ИНФОРМАЦИОННО-ПОИСКОВЫЕ ЯЗЫКИ ФАКТОГРАФИЧЕСКИХ ИПС
Выбор рационального информационно-поискового языка для фактографических
ИПС является непростой задачей. Мировая и отечественная практика еще
не накопили в этом отношении столь солидного опыта, какой уже получен
и проанализирован в области ИПЯ для документальных ИПС.
Однако разрозненный опыт отдельных разработчиков, организаций и даже
отраслей в области создания и эксплуатации ФИПС уже начинает получать
определенное обобщение.
Проведенный анализ позволяет констатировать, что лишь в простейших ФИПС
(первого поколения) используется ИПЯ предкоординатного индексирования (классификационные ИПЯ). Эти ФИПС первого поколения характеризуются,
как правило, узкой тематической направленностью, в пределах которой
относительно легко инвентаризировать все основные характеристики предмета
фактографического описания. Обычно это ИПС, позволяющие осуществлять
поиск объектов (изделий, устройств), обладающих определенными величинами
параметров, которые интересуют абонентов.
Классификационные ИПЯ таких ФИПС представляют собой рубрикаторы объектов
фактографического поиска, развернутые до уровня всех свойств и параметров,
которые могут интересовать абонентов ФИПС.
Каждая рубрика, представляющая собой имя параметра, наполняется информацией
о величинах (с указанием размерности) этих параметров, а также наименованиями
и обозначениями объектов, которые обладают параметром данной величины.
Точно так же каждая рубрика, представляющая собой наименование целого
класса объектов, наполняется конкретными наименованиями и обозначениями
реальных объектов со списками их характеристик.
Таким образом, ФИПС первого поколения способны отвечать лишь на фиксированный
список тематических запросов, строго соответствующих тематике рубрик
ИПЯ или их комбинациям.
Кроме того, такие ФИПС способны выдавать информацию по запросам, представляющим
собой наименования и обозначения конкретных объектов фактографического
поиска.
Естественно, что подобная реализация фактографического поиска способна
удовлетворять только ограниченным информационным потребностям.
Очевидно, что ФИПС первого поколения плохо приспособлены для реализации
поиска разнохарактерных объектов, относящихся к различным областям
науки и техники, т. е. для поиска в политехнических массивах. Поскольку,
однако, стандартизации присущ именно политехнический тематический охват,
необходимо либо идти на создание большого числа (порядка нескольких
сотен и тысяч) отдельных ФИПС по узкой тематике с индексированием и
поиском на основе ИПЯ классификационного типа, либо создавать развитую
ФИПС второго поколения, использующую для индексирования и поиска ИПЯ
дескрипторного типа [1; 2; 46; 49].
В отличие от ФИПС первого поколения ФИПС последующих поколений
должны отвечать не только на те запросы, которые строго совпадают с
наименованиями объектов фактографического поиска и их характеристик,
но и на запросы, поставленные в произвольной форме, причем выдача ФИПС
может содержать, помимо непосредственно введенных в нее факторов, еще
производную от них информацию.
В простейшем случае производными фактами могут быть,. например, рассчитанные
по алгоритмам ФИПС различные удельные характеристики объектов (приведенные
к массе объекта, его стоимости и т. д.).
В ФИПС третьего поколения рассматриваются элементы логического вывода
из фактов, вводимых в ее поисковый массив.
Приступая к созданию ФИПС, неизбежно приходится задаваться вопросом,
должен ли ИПЯ для нее отличаться от ИПЯ документальной ИПС и в чем именно?
Рассмотрим его более подробно применительно к таким элементам ИПЯ, как
лексика, парадигматика и синтагматика (грамматика).
Лексика развитого ИПЯ документального поиска дескрипторного типа, как
правило, оказывается в основном достаточной для наименований объектов
и их характеристик в фактографической ИПЯ по той же тематике. Новыми
для ФИПС по сравнению с ДИПС могут оказаться такие элементы лексики,
как наименования систем и единиц измерений, наименования фирм, в некоторых
случаях наименования данных. Кроме того, в ФИПС может потребоваться
существенное расширение вспомогательных словарей ДИПС — таких, как
списки идентификаторов, географических и административных объектов
и т. д.
Однако все эти дополнения не влекут за собой принципиальных изменений
в объеме и составе лексики ИПЯ и могут вноситься в процессе обычного
ведения словарей системы.
Парадигматика развитого информационно-поискового тезауруса для документального
поиска также может быть признана вполне удовлетворительной основой
для установления априорно существующих связей между объектами фактографического
поиска и их характеристиками. Необходимо лишь определенное усовершенствование
и развитие этих связей. В первую очередь это касается работы по проверке
достаточности в ИПТ ассоциативных и родовидовых связей между дескрипторами—наименованиями
объектов и дескрипторами—наименованиями их разновидностей, их характеристик,
а также их составных частей или связанных принадлежностей. Кроме того,
имеет смысл развить (по иерархии вниз) родовидовые связи в тезаурусе
для тех дескрипторов, которые характеризуют измеримые параметры—за счет
присоединения к их статьям дескрипторов, относящихся к соответствующим
системам, шкалам и единицам измерения.
Однако такая работа в конечном счете также не влечет за собой необходимости
коренным образом пересматривать всю основную массу парадигматических
отношений, установленных между дескрипторами тезауруса, предназначавшегося
для документального поиска.
Из всего этого можно сделать вывод, что тезаурус фактографической ИПС
не будет принципиально отличаться от тезауруса документальной ИПС по
той же тематике и получит лишь некоторое развитие в основном в глубину.
Совсем в ином положении находится вопрос о синтагматике ИПЯ для фактографического
поиска. Синтагматика, т. е. грамматические правила построения цельной,
осмысленной записи фактов из отдельных дескрипторов и других элементов
(размерностей, цифровых величин), должна быть непременным компонентом
ИПЯ для фактографического поиска, в то время как многочисленные ИПЯ
документального поиска вполне успешно функционируют без использования
искусственных грамматик.
Что же делает необходимым введение искусственной грамматики в ИПЯ для
ФИПС?
В первую очередь необходимо привести два соображения:
число фактов, отбираемых из документов для ввода в ФИПС на несколько порядков
в среднем от одного до двух — применительно к НТД превышает число этих
документов;
факты в результате операции индексирования не должны утрачивать определенной
содержательности, т. е. поисковые образы фактов (ПОФ) должны быть пригодны
не только для использования в процессе поиска, но и для непосредственного
понимания пользователями ФИПС.
Разберем эти соображения более подробно.
То обстоятельство, что число фактов в документах во много раз превосходит
число этих документов, обязывает ИПЯ ФИПС обладать значительно большей
разрешающей способностью по сравнению с ИПЯ по той же тематике.
Поскольку различия между лексикой их тезаурусов не могут быть очень велики
(об этом уже говорилось выше), остается только один путь повышения
разрешающей способности ИПЯ, т. е. точности поиска — введение искусственной
грамматики как средства повышения точности координации дескрипторов
в поисковых образах фактов.
С другой стороны, искусственная грамматика в ИПЯ ФИПС необходима для того,
чтобы связывать в единый логический блок разнородные элементы каждого
отдельного факта—дескрипторы, описывающие объекты поиска и их характеристики,
идентификаторы, размерности и величины. Отсутствие искусственной грамматики
вызвало бы на уровне фактографического описания несусветную путаницу.
Например, электродвигатель постоянного тока развивает мощность 200
кВт при 1400 об/мин. В случае отсутствия искусственной грамматики поисковый
образ этого факта представлял бы собой набор следующих несвязанных элементов:
Электродвигатель постоянного тока;
200;
кВт;
1400;
об/мин.
При поиске на основе подобного ПОФ данный факт был бы выдан в ответ как
на запрос «Электродвигатели постоянного тока мощностью 200 кВт», так
и на запрос «Электродвигатели постоянного тока мощностью 1400 кВт».
Точно т."кже данный факт был бы выдан и на запрос «Электродвигатели
постоянного тока со скоростью вращения 1400 об/мин», и на запрос «Электродвигатели
постоянного тока со скоростью вращения 200 об/мин». От чего происходила
бы путаница? От того, что ИПЯ не располагал средствами фиксации смысловых
отношений между элементами записи фактов, в данном случае—между названием
параметра, его размерностью и величиной.
Как уже указывалось (применительно к документальным ИПС), в случае необходимости
повышения точности поиска необходимо либо вводить в ИПЯ искусственную
грамматику, либо «заталкивать» в ИПЯ грамматику естественного языка
путем включения в его словарь большого числа предкоорди-нированных лексических
единиц, т. е. многословных словосочетаний. Все это вполне справедливо
и для фактографического поиска.
В роли искусственных грамматических средств в ИПЯ ФИПС могут выступать
отдельные грамматические распознаватели (например, указатели связи
или роли, или комбинированные указатели роли-связи) либо «стандартные
фразы» (т. е. комбинации форматированных и семантически интерпретированных
полей данных или реквизитов).
Грамматика же естественного языка внутри ФИПС ИПЯ закреплялась бы в виде
фразеологически готовых масок (макетов) всех поисковых образов всех
фактов, которые должны вводиться в ФИПС и выдаваться из нее, причем
в макетах фактов оставались бы незаполненными только цифровые величины
параметров.
Легко видеть, что в этом случае число лексических единиц словаря ИПЯ было
бы равным числу разнящихся именных конструкций фактов, что в таких крупных
политематических массивах, как фактографические поисковые массивы, составленные
на основе НТД, дает величину в несколько миллионов (если не больше)
отдельных лексических единиц. По существу это означало бы полный отказ
от принципа посткоординатного индексирования фактов и переход к использованию
в ИПС только априорно подготовленных словосочетаний, т. е. весьма громоздкого
набора готовых фраз.
По нашему мнению, это путь совершенно неприемлем и бесперспективен. Громадный
по объему словарь — рубрика-тор (или словарь фиксированных дескрипторосочетаний),
даже если он может быть создан (в чем есть серьезные сомнения), станет
средством, использование которого будет чрезвычайно неудобно как в
эксплуатации, так и в части ведения и совершенствования. Здесь убедительным
примером может послужить сравнение с УДК.
УДК обладает всего примерно 250 тыс. отдельных индексов, это число чрезвычайно
велико для реальных систем поиска, каждая из которых использует только
часть этих индексов в своей практике и фиксирует их в своих картотеках
решений (напомним, что ВИФС ВНИИК.И использует только около 60 тыс.
отдельных и составных индексов УДК). Фактографический поиск в политематических
массивах по стандартизации потребует увеличить число рубрик (или фиксированных
дескрипторосочетаний) на один-два порядка.
Несомненно, каждая отдельная ФИПС по определенной тематике будет вынуждена
в таких условиях также создать картотеки решений, т. е. выборки из словаря-рубрикатора,
а это создает серьезные препятствия с точки зрения обеспечения совместимости
отдельных ФИПС в дальнейшем.
Кроме того, практика УДК показывает, что даже при хорошо отлаженной процедуре
внесения дополнений и исправлений в УДК с ее 250 тыс. сопровождается
весьма значительными потерями времени, из-за чего наполнение таблиц
УДК постоянно и заметно отстает от развития знаний и информационных
потребностей. Ведение словаря-рубрикатора в связи с его существенно
большим объемом по сравнению с УДК будет сопровождаться еще более нетерпимыми
временными задержками. По этим причинам перспективным и работоспособным
информационно-поисковым языком для ФИПС по стандартизации может быть
только ИПЯ дескрипторного типа, включающий наряду с тезаурусом дескрипторов
искусственную грамматику, достаточно удобную при индексировании и
не создающую чрезмерных трудностей для реализации автоматизированного
поиска.
К настоящему времени в ИПЯ автоматизированных ФИПС хорошо показали себя
искусственные грамматические средства типа указателей связи. Логически
связанные элементы фактографических сообщений в этих ФИПС группируются
путем заключения их в скобки. Простейшие скобочные связки могут соединяться
друг с другом в более сложные комбинации, в свою очередь также заключаемые
в скобки. Число скобочных вложений обычно не ограничивается, что дает
возможность связывать отдельные элементы сообщений в достаточно сложные
по структуре факты. При необходимости указатели связи (скобки) могут
дополняться указателями роли, семантически интерпретирующими характер
установленной связи. Такой, в общих чертах, подход к ИПЯ ФИПС принят,
например, коллективом авторов из Информэлектро [46;
60] в ФИПС «Скобки» и В. И. Абросовым в ФИПС «Лямбда» (ВИМИ) [1;
2].
Однако прежде чем окажется возможным осветить вопрос с выбором рационального
типа ИПЯ для ФИПС по стандартизации, нам придется рассмотреть ряд предварительных
условий решения задачи фактографического поиска.
Предварительные условия решения задач фактографического поиска
Представляется очевидным, что успешное проведение сопоставительного анализа
и фактографического поиска объектов стандартизации и их показателей
возможно лишь при выполнении следующих основных условий.
1. Информационная база при проведении сопоставительного анализа представительна,
а в пределах представительности—полна. Это означает, что к сопоставлению
должны привлекаться факты из документации всех тех стран и международных
организаций, которые известны высоким уровнем требований к качеству
продукции и в значительной степени определяют конъюнктуру международного
рынка. Это означает также, что факты, извлекаемые из документации, которая
используется при сопоставительном анализе, должны быть сопоставимы как
по номенклатуре (т. е. по наименованиям объектов и их характеристик),
так и по форме представления (по всем компонентам фактов—приведенным
к унифицированной форме наименованиям, единицам измерения, размерностям
и величинам).
2. Установлены критерии и методы отбора из документов, фактографической
информации, достаточной для сравнения объектов стандартизации. Это означает,
что должен быть установлен состав фактографических данных, определяющих
в основном уровень качества объектов стандартизации, а также методы
выделения этих наиболее существенных данных из всей массы данных, содержащихся
в документации.
3. Установлены интегральные критерии и методы определения уровня качества
объектов стандартизации. Это означает, что должно быть определено в
сравнении качество объектов стандартизации в целом, а на основе лишь
попарного сопоставления показателей по каждой из характеристик и свойств.
4. Разработана фактографическая информационно-поисковая система (ФИПС),
включающая: информационно-поисковый язык, разрешающая способность которого
достаточна для поэлементного описания всех данных, вводимых в ФИПС;
формат записи данных; правила записи (индексирования) фактов и запросов;
критерии смыслового соответствия фактов запросам.
5. Разработано программное обеспечение, предназначенное:
для формирования и коррекции фактографических поисковых массивов, приведения
фактов и отдельных элементов данных к сопоставительной форме с помощью
средств ИПЯ (по наименованиям) и алгоритмов приведения и пересчета (по
размерностям и величинам);
для поиска фактов по запросам в соответствии с данным критерием смыслового
соответствия;
для автоматического построения сопоставительных таблиц, а также для транспортирования
и фрагментации этих таблиц и ранжирования объектов стандартизации из
разных НТД в соответствии с интегральными и частными критериями качества.
6. Реализованы (организованы, обучены и функционируют) службы подготовки
фактографической информации и эксплуатации ФИПС в составе:
службы перевода международной и иностранной НТД, подлежащей сопоставлению
с отечественными НТД;
службы отбора фактографических данных из НТД, индексирования и поиска;
службы экспертизы научно-технического уровня НТД;
службы эксплуатации ФИПС и обслуживания абонентов. 7. Созданы и постоянно
ведутся машинные массивы ФИПС.
Однако анализ сложившейся ситуации, направленный i.a
выявление реализуемости условий решения задач, перечисленных
выше, показывает следующую картину.
Информационная база сопоставительного анализа. Регламентация качества продукции в СССР производится,
в частности, путем выпуска официальной нормативно-технической документации
(НТД) — ГОСТ, ОСТ, РСТ, ТУ. Примерно аналогичный подход практикуется
странами—членами СЭВ.
Международная регламентация качества продукции производится путем выпуска
стандартов ИСО, СЭВ, МЭК и других международных организаций.
Однако регламентация качества продукции в развитых капиталистических странах
лишь в незначительной степени производится на государственном уровне.
В основном требования к качеству продукции устанавливаются в документации
фирм-производителей (нормативной, конструкторской и технологической),
труднодоступной для приобретения. Исключение составляет каталожно-рекламная
информация, достоверность которой зачастую является сомнительной.
Таким образом, полноценная экспертиза качественного уровня новых советских
НТД, не может основываться на анализе только существующих отечественных,
международных и зарубежных НТД. К анализу должна привлекаться в большом
объеме документация фирм, которая не поступает в фонды Госстандарта
и комплектуется другими ведомствами и организациями. Всесоюзный орган
НТИ, ответственный за выпуск информации о промкаталогах, выпускаемых
за рубежом,—ГПНТБ СССР—выполняет эту функцию лишь частично и с большими
задержками.
В настоящее время, пока не создана САЦ НТИ — рассчитывать на четкое оперативное
информационное взаимодействие АИУС Госстандарта (АСНТИ по НТД) и ГПНТБ
СССР трудно.
Из анализа НТД разных стран и международных организаций, проведенного
ГИВЦ Госстандарта, следует, что качество продукции весьма часто задается
в различных системах параметров (по различной номенклатуре показателей,
в разных шкалах и единицах измерения). Сопоставление качества аналогичной
продукции в таких условиях становится нетривиальной задачей, к решению
которой по существу только начинают приступать в нашей стране.
Критерии и методы отбора фактографической информации из документации,
регламентирующей качество продукции. Несопоставимость номенклатуры показателей продукции в отечественной и
зарубежной НТД вынуждает разрабатывать в рамках подсистемы управления
качеством АИУС Госстандарта специальные приемы, призванные в определенной
степени компенсировать недостаточность информационной базы для проведения
сопоставительного анализа.
Прежде всего должны быть выбраны общие и специфические для отдельных
групп продукции критерии оценки важности (роли) тех или иных показателей
качества с целью отбора первостепенных показателей и создания номенклатуры
данных, закладываемых в машинные массивы АИУС. Пока что такая работа
проводится фрагментарно, в основном на уровне НИР. Однако до сих пор
еще не выработаны общие и специфические для группы продукции критерии
оценки важности показателей продукции.
Отсутствие представлений об относительной важности тех или иных показателей
качества вынуждает отбирать из НТД все имеющиеся в них показатели, независимо
от их роли и (или) возможности их сопоставления.
До сих пор сравнительный анализ качества продукции производится почти
исключительно на основе попарного сопоставления одноименных показателей
у аналогичных объектов. Практически отсутствуют и не используются при
экспертизе интегральные критерии оценки и выявления лучших объектов,
удельные показатели их качества (например, отнесенные к стоимости,
массе, к весовой шкале важности) для большинства отраслей. В таких условиях
(при неполноте и недостаточности информационной базы) определение качества
продукции формальными методами вообще невозможно.
Если экспертиза качества продукции будет основываться не только на НТД,
но и на каталожно-рекламной документации зарубежных фирм, ей должна
будет предшествовать экспертиза достоверности информации из этих источников.
Фактографическая информационно-поисковая
система (ФИПС).
В настоящее время в стране функционирует ряд специфических ФИПС по отдельным
группам однородной продукции или узким направлениям техники. Например,
известны ФИПС: Информэлектро—по электромашинам; ЦНИИ «Румб»—по корпусному
судостроению; ВИМИ—по средствам вычислительной техники. Для всех них
характерна однородность продукции и информации о ней (включая номенклатуру
показателей), узость тематики и ограниченность вводимых данных определенными
источниками.
Политематических и тем более—универсальных ФИПС в СССР и за рубежом еще
не существует.
Тем не менее, ряд принципиально важных предпосылок для создания ФИПС,
хотя их еще и недостаточно, уже есть.
К настоящему времени ВНИИКИ совместно с другими институтами создан национальный
тезаурус по стандартизации АИУС Госстандарта, включающий около 27 тыс.
лексических единиц (ЛЕ) и их статей. Его лексика объединена с лексикой
тезауруса ИСО (русской версией), включающего около 10 тыс. ЛЕ. Объединенный
массив тезауруса введен в память ЕС ЭВМ.
Тезаурус позволяет представить путем комбинаций дескрипторов наименования
объектов стандартизации и их показателей в однозначно распознаваемой
форме, в том числе и при записи информации на машинных носителях.
В системе Госстандарта разработаны и заполняются машинно-ориентированные
форматы (МОФ) по различным критериям НТД. (В ГИВЦ—МОПС по ГОСТ, во
ВНИИКИ МОФ по ОСТ и ТУ). Эти форматы не идентичны по составу элементов
данных и их идентификаторов (системе меток), однако они могут быть конвертированы
друг в друга машинными методами. То же самое можно сказать и о предмашин-ном
формате записи НТД в ИСОНЕТ.
Для обеспечения фактографического поиска целесообразно произвести доработку
МОФ как с целью их унификации по составу элементов данных, так и с целью
использования структуры идентификаторов данных в качестве простейшего
грамматического средства, позволяющего формировать отдельные сообщения
(факты) в ФИПС по типу: наименование объекта—наименование показателя—размерность
показателя—величина показателя (при этом наименования передаются отдельными
дескрипторами или их комбинациями).
К настоящему времени в значительной степени выполнены работы по созданию
информационно-поискового языка дескрипторного типа, пригодного для документального,
а при условии применения искусственной грамматики—и для фактографического
поиска.
Созданное к настоящему времени программное обеспечение как во ВНИИКИ,
так и в ГИВЦ позволяет осуществлять документальный поиск по отдельным
учетно-статистическим и библиографическим признакам и некоторым их комбинациям,
по классификационным признакам, а также по ключевым словам или отдельным
словоформам.
По существу программное обеспечение фактографического поиска и машинного
сопоставления, группирования и выдачи данных (в том числе в виде таблиц)
еще не запланиро- • вано.
Объемы работ по программированию этих задач чрезвычайно велики. Имеющихся
ресурсов по программированию до 1980 г. включительно достаточно будет
для моделирования и реализации некоторых наиболее простых задач фактографического
поиска в ограниченных по величине массивных данных и выдачи сопоставительных
таблиц показателей, не приведенных к унифицированной сопоставимой форме.
Таким образом, пока еще отсутствует возможность создать полный комплекс
программного обеспечения для промышленной реализации задач фактографического
поиска и машинного сопоставления показателей объектов стандартизации.
В ближайший период времени возможно создание лишь отдельных фрагментарных
формализованных процедур, которые впоследствии могут быть включены
или развиты до уровня промышленного программного обеспечения задач автоматизации
экспертизы НТД.
Службы отбора фактографических данных из НТД в системе Госстандарта в
начальной стадии развития существуют в институтах, проводящих экспертизу
проектов государственных стандартов, однако они выполняют работу по
заполнению МОПС ГИВЦ с точки зрения информатики недостаточно, непрофессионально,
совершенно не обрабатывая при этом иностранные НТД. Эти ячейки фактографического
описания содержания НТД организационно в систему не объединены.
В связи с этим еще только предстоит организационно создать службу отбора
фактографических данных децентрализованного или централизованного типа,
в любом случае технологически связанную со службами перевода.
формирование и ведение машинных массивов. В настоящее время объем ввода информации в
машинные поисковые массивы существенно (на 1—2 порядка) меньше необходимого
для обеспечения фактографического поиска. Это объясняется ограниченной
пропускной способностью существующих служб подготовки данных как по
персоналу, так и по технике. И если трудности, связанные с персоналом,
преодолимы как за счет увеличения производительности труда, так и за
счет некоторого увеличения численности соответствующих подразделений,
то техническое переоснащение основного и периферийного оборудования
вычислительных центров в системе Госстандарта на требуемом для решения
поставленных задач уровне остается сложной проблемой.
Итак, можно делать некоторые выводы по вопросу внедрения ФИПС.
1. Состояние разработки и внедрения автоматизированных систем в рамках
АИУС Госстандарта в настоящее время таково, что они могут послужить
основой развертывания систем документального поиска в массивах НТД в
промышленных масштабах, учитывая реальные ресурсы, имеющиеся сейчас
в распоряжении АИУС. Они могут также оцениваться как начальные этапы
подготовки и обеспечения фактографического поиска и автоматизированного
тематического анализа (осообенно при создании тезауруса, машинно-ориентированных
форматов и технологии заполнения МОФ).
2. В настоящее время еще не создан ряд важных препо-сылок для внедрения
системы автоматизированной экспертизы НТД в сколько-нибудь серьезных
масштабах.
3. В сложившихся условиях в период до 1981—1982 гг. включительно целесообразно
сосредоточить основные ресурсы АИУС Госстандарта на решении задач документального
поиска и документального обеспечения экспертизы НТД.
4. Целесообразно исследовать и выбрать рациональный тип искусственной грамматики для ФИПС по стандартизации.