Установите последовательность предложений в тексте:
В общей формулировке задачи построения системы автоматического реферирования и аннотирования отмечалось, что реферат представляет собой последовательность ключевых предложений текста.
Само же ключевое предложение было определено как такое предложение текста, в котором содержится три и более разных опорных слова.
Поэтому подзадачу блока G сформулируем следующим образом: «Читая последовательно все предложения текста, выделить и запомнить те из них, в которых содержится три и более разных главных или второстепенных опорных слова данного текста».
Результатом работы блока G является реферат текста - последовательность ключевых предложений, в каждом из которых обнаружено три и более опорных словоформ текста.
Установите последовательность предложений в тексте:
В самом начале работы по автоматическому реферированию и аннотированию текста в память компьютера вводится список предлогов, артиклей, наречий, союзов, числительных, вспомогательных глаголов, местоимений, а также общеупотребительных имен прилагательных и причастий.
Обрабатываемый текст уже находится в компьютерной памяти (блок А).
Далее начинается последовательное чтение отдельных предложений.
В каждом прочитанном предложении компьютер ищет опорную словоформу - имя
существительное.
Установите последовательность предложений в тексте:
Далее начинается последовательное чтение отдельных предложений.
В каждом прочитанном предложении компьютер ищет опорную словоформу - имя
существительное.
Если она найдена, то компьютер выделяет из предложения словоформу, стоящую перед опорной, и сравнивает ее с введенным ранее в память списком служебных и общеупотребительных словоформ.
Словоформу-определение, не найденную в таком списке, компьютер объединяет со стоящим за ней опорным именем существительным и передает полученное словосочетание в специальную область памяти для ключевых словосочетаний текста.
Установите последовательность предложений в тексте:
Далее необходимо заметить, что отнесение определителей к классам имени прилагательного и причастия может быть осуществлено по упомянутому выше автоматическому словарю.
А выделение среди имен прилагательных и причастий общеупотребительных словоформ может быть сделано лишь путем сравнения каждого определения со специальным списком общеупотребительных имен прилагательных и причастий, помещенным в память компьютера.
Учитывая сказанное, подзадачу, которая должна быть решена в блоке F, сформулируем так:
«Читая последовательно все предложения текста, выделить в них ключевые словосочетания (в указанном выше понимании), расположить их по алфавиту и удалить из них одинаковые».
Установите последовательность предложений в тексте:
Среди ключевых словоформ текста может быть установлена следующая иерархия.
Одни из них - главные опорные слова (ГОС) - являются особенно важными для текста.
Они встречаются с наибольшей частотой в большом числе абзацев.
Другие опорные слова встречаются с меньшей частотой и в меньшем числе абзацев.
Установите последовательность предложений в тексте:
Исключение из распределительного словаря любой словоформы служебного или общеупотребительного слова, грамматической формы, синонима, словоформ, встречающихся в одном абзаце, осуществляется в виде «сжатия» распределительного словаря, с тем чтобы в нем не осталось ненужных словоформ.
При этом компьютер опирается на заранее заданный список запрещенных слов.
Итогом работы блока D является словарь потенциальных опорных словоформ исходного текста.
Основным критерием для создания словаря главных и второстепенных опорных словоформ текста (блок Е) является, как уже было отмечено выше, коэффициент важности слова.
Установите последовательность предложений в тексте:
Объединение данных о синонимичных словоформах проводится с опорой на тот факт, что такие словоформы в тексте по нашему первоначальному условию заключены в скобки и располагаются друг за другом.
Найдя основную словоформу, компьютер объединяет ее частоту с частотой синонима, уточняет число и конкретные номера абзацев по такому же принципу, как это было показано для объединения грамматических форм одного и того же слова.
В итоге будут получены, например, два условных слова.
И последнее, самое простое действие связано с исключением из распределительного алфавитно-частотного словаря тех словоформ, которые встретились лишь в одном абзаце.
Установите последовательность предложений в тексте:
Рассмотрим несколько подробнее действия компьютера по объединению грамматических форм одного и того же слова.
Он последовательно анализирует все словоформы распределительного словаря, начинающиеся с одной и той же буквы.
На первом шаге такого анализа она выделяет у второй из двух сравниваемых
словоформ одну последнюю букву и оставшуюся часть второй словоформы сравнивает с первой словоформой.
Если они совпадают, компьютер суммирует частоты этих словоформ, устанавливает номера абзацев, в которых встретились эти словоформы, и определяет общее количество абзацев, в которых они использовались.
Установите последовательность предложений в тексте:
Синонимичными для компьютера являются и грамматические формы одних и тех же слов: chip и chips, circuit и circuits, small и smaller и т.д.
Найти и объединить эти словоформы компьютер может самостоятельно, без специального предредактирования текста человеком.
В результате получается единое условное слово, речь о котором шла выше.
Говоря о второй из трех упомянутых выше особенностей ключевых слов, условимся, что в число потенциальных опорных словоформ текста будем включать только те из словоформ в таблице 9, которые встретились в двух и более абзацах.