Банки данных специалистов смежных областей содержат данные особого типа, но предназначенные для общего пользования. Например, банк данных по радиоуглеродным датам.
Целевые банки данных представляют собой собрание данных, охватывающих большую область. Собираются они с единственной целью - быть использоваными всеми археологами. Такой “универсальный” банк данных репрезентирует достаточно неясную концепцию, поскольку, всякое компьютерное фиксирование предполагает отбор данных, при этом критерии отбора должны быть ясными. На одном уровне, а именно как средство обнаружения данных, необходимых для определенных проектов, подобные банки данных являются совершенно удовлетворительными (музейная документация, индексы памятников).
С другой строны, системы, пытающиеся зафиксировать все данные о каждом артефакте в данном районе, вероятно, будут малоценными для будущих поколений археологов. Проблема состоит в том, что банки данных подобного рода стремятся зафиксировать археологические данные на уровне детали, хотя нет общего мнения о том, какие именно переменные должны фиксироваться.
Можно предположить, что в будущем будет происходить ускорение роста банка данных индивидуальных научных проектов, банков данных специальной информации и данных, фиксируемых при исследовании стоянок. Мы полностью согласны с мнением Дорана и Ходсона (1975: 331), что “ключевым моментом в будущем будет скорее разнообразие, а не стандартизация, и гигантские интегрированные информационные системы”.
Резюмируя двадцатипятилетние усилия по созданию банков данных в археологии, можно отметить слабые сдвиги в археологической теории. По-прежнему проблемой из проблем остается “неуниверсальность” дескриптивных кодов и дескриптивных языков, обусловленных несовершенством формализации археологических данных и знаний (Doran, Hodson, 1975).
Методические основы статистического анализа данных в археологии
Статистические методы используются тогда, когда экспериментальные данные представляют собой значительный объем результатов “измерений”, “наблюдений”. При этом структура совокупности исходных данных несет в себе определенную неоднородность, выражающую различные соотношения зависимости, порядка, перманентности (Деревянко, Фелингер, Холюшкин, 1989:140).
Археологам часто приходится считать вещи, так что сама природа археологии предоставляет подходящую сферу для применения статистических методов. На этапах становления археологии как науки, да нередко и сейчас в археологических публикациях мелькают слова, хотя и не прямо, несущие сведения о количестве находок, их частоте, плотности и т.д.: много-мало; часто-изредка; типично-исключение (Щапова, 1988:89). Таким образом уже на этом уровне обобщения больших количественных объемов данных археологу приходится устанавливать наличие неоднородностей в исходной совокупности, производить систематизацию их в форме различного типа соотношений статистической зависимости.
Начиная с двадцатых годов ХХ века в археологии применяется простая дескриптивная статистика, включающая в себя определение процентных соотношений, расчет средних, выявление взаимовстречаемости и доверительных интервалов, которую можно рассматривать как основу для проведения более сложных анализов.
Таким образом, использование статистики в археологии восходит к временам, предшествующим появлению ЭВМ и персональных компьютеров. Как отмечал Ж.-К.Гарден, “использование методов статистики не было по существу и даже исторически связано с компьютеризацией археологии (Гарден, 1983). Однако компьютер стал идеальным орудием для счета и его использование ускорило внедрение статистических методов. А последние подтолкнули развитие теоретических исследований, т.к. они высветили по крайней мере четыре проблемы.:
проблему таксономии, а следовательно и средств естественного языка, слабо приспособленного к точным и структурированным описаниям объектов, вещей и их особенностей (Шер, 1978), усиленную отсутствием “естественной” классификации и подчеркнутую важностью эффекта отбора признаков при решении проблем сходства и различия;
проблему репрезентативности археологических данных;
проблему подтверждения, связанную с представлением о том, что использование вычислительных и статистических средств подразумевает автоматическое подтверждение результатов анализа.;
проблему интерпретации, связанную с тем, что “в археологических дискуссиях допускаются общие ошибки. Например, часто утверждается, что количество различий между коллекциями, измеренное с помощью некоторой таксономической оценки - это мера этнического родства” (Binford, 1972:247). И действительно, значение и адекватность - совершенно различные характеристики таксономии. Поэтому нельзя сказать, что классификация данных по таким таксономиям дает информацию непосредственно о значениях измеренных различий и сходств.
В частности, можно упомянуть бытовавшую одно время в археологии моду по упорядочиванию археологических данных. В данном случае речь идет не об абсолютных датировках археологических памятников, являющихся частным случаем такого упорядочивания. Под упорядочиванием понимается организация множества сравниваемых археологических единиц (например, коллекций артефактов) в виде последовательности их сходства или различия (Brainerd, 1951; Сулейманов, 1972; Шер, 1970; Каменецкий, Маршак, Шер, 1975; Холюшкин, 1981). При таком подходе решение задачи формализуется перестановкой столбцов и строк матрицы данных или матрицы подобия так, чтобы наибольшие значения располагались вблизи главной диагонали.
Кроме того нередки случаи неадекватного использования статистических методов в археологии. Это происходит из-за того, что не все исследователи, использующие ее методы при обработке данных, в достаточной мере математически подготовлены. В этом плане отрадным фактом является появление пособий по математической статистике, где в простой и доступной форме излагается суть статистических методов, смысла доставляемых ими результатов (Федоров-Давыдов, 1987).
Следует подчеркнуть, что попытка установить какую-то общую схему относительно методов и форм статистической обработки и анализа данных, годную во всех случаях, очевидно, несостоятельна. Однако, существует определенная “естественная” логика в отношении использования тех или иных методов и эта логика может служить важным подспорьем в проектировании схемы обработки данных в каждом конкретном случае.
Относительно природы статистических выводов существует целый ряд концепций, из которых, на наш взгляд, наиболее существенны две: концепция рандомизации - принятия решения в условиях неопределенности и концепция редукции (свертки) информации.
Содержательный смысл этих концепций можно пояснить в очень простой форме.
Концепция рандомизации сутью статистических методов объявляет реконструкцию целого на основе неполной информации о нем, а в соответствии с концепцией редукции представление больших объемов данных на основе выявления внутренних структурированностей, присущей этой совокупности данных.
Всю совокупность статистических методов обработки и анализа данных можно представить в виде нескольких групп. В каждой отдельной группе находится совокупность однородных или близких по структуре и результатам методов. Группы могут быть упорядочены по степени редукции (свертка, сжатие, обобщение) информации (Деревянко, Фелингер, Холюшкин, 1989: 153-154). В соответствии с таким подходом могут быть рассмотрены следующие группы методов обработки данных:
вычисление эмпирических распределений по различным классам событий, формулируемых в терминах значений признаков описания объектов статистической совокупности;
вычисление характеристик распределений (среднее, мода, медиана, дисперсия, энтропия и т.п.);
анализ зависимости между признаками (корреляция парная, частная, множественная, другие меры и коэффициенты зависимости, регрессионный анализ и т.п.);
факторное описание многомерной совокупности (факторный анализ и методы ему подобные);
образное представление эмпирических данных (методы и алгоритмы распознавания, кластерный анализ).
Продвинутый статистический анализ археологических данных предполагает взаимоувязанную обработку данных на всех перечисленных уровнях.
Для данных, сущностную основу которых представляют количественные (числовые) значения, имеется большое разнообразие конкретных алгоритмов для каждого уровня.
Имеются так же алгоритмы, базирующиеся на теоретико-информационных понятиях, характеристиках, определениях и теоремах, чем обеспечивается их независимость (инвариантность) относительно структуры признаков (шкал измерения). По мнению Я.А.Шера, отдельные публикации результатов успешного использования теоретико-информационных критериев показывают, что их возможности только раскрываются (Шер, 1994:68). Речь шла о применении энтропии при анализе структуры геометрического орнамента (Sher, 1966), выявлении критериев сходства и различия керамических комплексов (Маршак, 1965), изучении орнаментики наборных поясов (Ковалевская, 1970) и выявления степени разнообразия на палеолитических стоянках (Соффер, 1993). К сожалению без внимания автора обзора остались методические наработки, сделанные в Институте археологии и этнографии (Деревянко, Фелингер, Холюшкин, 1989:153-163).
Согласно этим наработкам на первом этапе решения археологической задачи целесообразно получить общие оценки степени структурированности данных. Для этого можно использовать энтропийные и информационные характеристики. Теоретически возможны случаи, когда в массиве структурированных составляющих нет. Если это так, то обработка его любыми методами совершенно бесполезна.