Обратная связь
|
Формализованные единицы методики анализа текста. Поскольку речь идет о формализованной процедуре и тем более, когда она основана на специальных электронных программах, то прежде всего требуется установить некие конечные физические формы выражения смысла, которые легко можно представить в количественном варианте. При этом имеющиеся формы должны иметь возможность выразить различное содержание.
Слово, как физическая форма выражение смысла, выраженная звуком или графикой должно быть таким, что бы оно могло быть зафиксировано электронной программой и иметь содержание, которое фиксируется исследователем.[112] При некотором количестве слов как признака, можно говорить о сущности уже частотного распределения: его значимости или не значимости.
Основная задача методики определения формализованных физических единиц анализа текста заключается в следующем: 1. Формирование искусственных текстов на основании четко фиксированных признаков, способных иметь форму количественного выражения и содержания; 2. Осуществление поиска текстов, содержащих необходимую информацию, так же на основании четко вырожденных признаков в понятийном и количественных формах выражения.
В данном случае, т.е. применительно к тексту, речь может идти только о слове, (словосочетании, без пробелов), как единственной «атомарной» физической форме выражения смысла. Понято, что только в этом случае его легко можно представить в количественном выражении, в физических единицах, в частотном варианте при электронной обработке. Применительно к формализованной процедуре анализа текста можно сказать: «В начале было слово…». В конце тоже.
Поэтому первое, что необходимо сделать - выработать некие основные конечные физические формы выражения исследуемых понятий. Другими словами, дать основным понятийным единицам точное определенное как физическим объектам, которое бы полностью укладывалось в формализованную процедуру количественного выражения частотного распределения фиксированного понятия.
Ниже приводится небольшой словарь таких терминов-понятий, которые можно легко представить в формализованном виде. Например, мы говорим не просто о тексте, а таком его понимании, которое выражается в фиксированном наборе слов, естественно, безотносительно к его содержанию, объему, форме построения и пр. Здесь присутствует только один признак – количество слов и все. И так:
- Текст - фиксированный в количественном выражении набор слов и словосочетаний, (если они пишутся слитно).
- Блок – условная часть текста с установленными параметрами, например, количеством слов, строк, знаков в тексте и пр. Устанавливается от конечной условной величины (например, слово) до максимально возможного – весь текст – один блок.
- Фраза, предложение – связный текст, ограниченный с одной стороны точкой предыдущего предложения и заглавной буквой слова следующего предложения. И с другой стороны точкой, заканчивающее данное предложение и заглавной буквой слова следующего предложения.
- Слово – условная величина, ограниченная с двух сторон пробелами.
- Словосочетание – условная величина, ограниченная с двух сторон пробелами и не имеющее пробела в середине.
- Слова – искомые слова в предложении (более двух), разделенные любым или заданным ограниченным, количеством других слов в данном предложении.
- Словарь – предлагаемые слова в ограниченном количестве, которые должны находится в исходном тексте и в производном тексте (выбранных блоках).
- Единица текста - точка, пробел, знак, слово, предложение, блок, текст.
- Знак – условная величина, обозначающая закрепленный смысл, как иероглиф.
- Шаг – устанавливаемая величина - количество пропускаемых блоков или других единиц текста, после чего происходит выбор. Вычисляется, например, как производная от общего количества блоков и др. единиц. Устанавливается шаг выбора блока от 1 до максимально возможного количества блоков в фиксированном тексте.
В предложенной методике, контент-анализ основывается на ряде условных переменных и констант, принятых в настоящей работе. Об этом мы говорили в предыдущих двух главах – «Логика контекста» и «Статистический анализ текста». Здесь только кратко повторим сущность принятых нами условных образований.
Слово. Физическая форма выражения понятийного признака. В данном случае слово берется как некая конечная и элементарная форма, которая может наполняться каким-либо и в принципе любым допускаем содержанием. Одновременно как форма выступает и в роли признака или свойства исследуемого объекта. Слово как форма принимается нами как константа, а ее содержание как переменная величина. Понятийное содержание слова определяется контекстом предложения
Предложение. Смысл, содержание может выражаться в какой-то конечной физической форме. В данном случае в предложении. В нашей интерпретации предложение это расширенное, (по сравнению со словом), смысловое образование. Но как форма выступает конечной величиной. И никакой иной формы и никакого иного варианта выражения смысла и содержания в тексте не существует.
Текст. В предложенной методике контент-анализа текст - рассматривается как исходное полное понятийное пространство. Оно содержит в себе основной смысл, определяет как контекст смысла предложений и слов. Текст образует основные понятийные связи (как переменные величины) между константами.
Искусственный текстили искусственное понятийное пространство (поле). В данном случае рассматривается только как простая совокупность предложений и никакого единого понятийного образования, смысла не имеет. Искусственный текст объединяет только наличие понятия (ряда понятий), выраженное в слове, (в словах).
Основная операция - формирования физического искусственного текста и искусственного понятийного пространства. Основной принцип, как мы уже говорили, это установление простой совокупности предложений из исходного общего текста, с заданным словом в каждом предложении, или словами.
Последнее обуславливает несколько дополнительных операций. Если мы задаем поиск предложений с двумя или более словами, то должны установить для этого в обязательном порядке несколько специальных параметров и соответственно процедур.
Например, какова последовательность выражения данных слов, какое из них должно быть первым, а какое втрое. Идут ли они сразу же друг за другом или допускается их разбивку. Но тогда необходимо установить, (хотя можно и не устанавливать) количество слов отделяющие их друг от друга, в установленном расстоянии (окружении, шаге) друг от друга, например, через 1…n слово и пр.
Кроме того, можно предложить выбрать из общего текста предложения со словами, имеющиеся в прилагаемом словаре слов. При этом можно выбирать любые, имеющиеся в словаре слова, или же устанавливать какой-то порядок. Например, в установленной последовательности: сначала три первых слова, затем три вторых и т.д. Вариаций здесь может быть множество. Выбор слов с сочетании с другими словами: слово, которые стоят рядом справа; слово, которое стоят рядом слева и т.д.
Таким образом:
· Содержащий заданные слова: от 1 до мак.
· Содержащие слова в определенной последовательности
· Содержащие в блоке слова в установленном расстоянии (шаге) друг от друга, например, через 1…n слово
· Содержащие слова из предлагаемого словаря слов.
Чтобы грамотно провести анализ, надо в обязательном порядке провести, так называемое, очищение текста. Необходимо очистить список слов от тех слов и знаков, которые с одной стороны могут быть случайными (так называемый мусор) и с другой стороны не являющиеся важными и значимыми для анализа принятой задачи или же соединить словоформы одинаковые по смыслу с указанием общей частоты их использования. Их обязательно следует убирать в отдельные папки, что бы при необходимости можно было к ним вернуться.
Таким образом необходимо:
1. Очистить текст от словоформ, производных и пр. слов, имеющих в принципе один и т от же смысл;
2. Суммировать количество использования их в тексте;
3. Убирать отдельные буквы, знаки, не имеющие содержательного значения;
3. Убирать в специальную папку имена собственные;
4. Убирать в специальную папку абвиатуры;
5. Убирать в специальную папку личные местоимения, если они не имеют содержательного значения для анализа текста;
6.Убирать в специальную папку предлоги;
7. Убирать в специальную папку цифры;
8. Убирать в специальную папку знаки: лишние точки, апострофы, дефис и пр., так называемый мусор.
Особое значение имеют, так называемые, служебные слова. Основная их задача установление функционального смыслового соответствия между словами, указание на смысловое содержание. Сами по себе они не имеют смыслового содержания. Если их не убирать, то получиться большое процентное искажение, а соответственно и смысла и результатов анализа, поскольку данные служебные слова набирают до 30% общего текста. Об этом подробно можно прочитать в первых параграфах последней главы настоящей работы «Предметный анализ текста».
Можно предложить много обязательных операций по очищению текста. Но каждый раз они определяются задачами исследователя при анализу. Так, абрвиатуры, имена, различные сокращения, цифры (например, обозначения года, даты) и пр. могут иметь принципиальное содержательное значение, игнорировать которое не желательно. Но это можно определить только исходя из соответствующего контекста.
Большое значение в настоящей методике придается сравнению двух текстов, причем независимо, являются ли они искусственными или естественными. Дело в том, что смысловые характеристики текста могут быть определены только относительно какого-то другого материала, выраженного в тексте. Сравнение одного или нескольких текстов между собой позволит соотнести искомые и анализируемые единицы по смыслу.
Например, слово демократия, власть и пр. в разных текстах могут иметь различное смысловое наполнение, в зависимости от тех задач, которые ставил перед собой автор исходного текста. Сравнение этих текстов, может происходить по крайней мере по двум параметрам: относительно некоторого общего как эталона содержания и относительно содержания друг друга. Впрочем вариаций здесь может быть множество.
Может быть много различных условий и ограничений при определении формализованных единиц методики анализа текста. И каждый раз их определение зависит от тех задач, которые ставит перед собой исследователь. В данной работе мы указали только некоторые и основные формы, которые в обязательном порядке должны присутствовать.
Все остальное исключительно на усмотрение исследователя. Так, формирование искусственного текста может проходить на основании не только слова или словосочетания, а по каким-то иным физическим признакам, в принципе бесконечным и конечным только в рамках исследуемой задачи.
|
|