Тема 11. Адаптивная фильтрация цифровых данных пусть они постараются подчинить себе обстоятельства, а не подчиняются им сами (стр. 3 из 7)

Выражения (11.2.5-6) получены в предположении полной неизвестности априорного распределения P(z) для отсчетов в каждой текущей экспозиции t. Между тем, при обработке данных непрерывных измерений, и тем более каротажных данных, которые обычно являются многопараметровыми, для каждого текущего отсчета при обработке данных может проводиться определенная оценка распределения P(z). Как минимум, можно выделить два способа оценки распределения P(z).

Способ 1. По массивам данных параллельных измерений каких-либо других информационных параметров, значения которых достаточно четко коррелированны с обрабатываемым массивом данных либо в целом по пространству измерений, либо в определенном скользящем интервале сравнения данных. К таким массивам относятся, например, предварительные каротажные измерения в процессе бурения скважин, измерения другим прибором, с другой скоростью каротажа, в другом спектральном интервале излучения, и даже другим методом каротажа. При гамма-опробовании оценка распределения P(z) может производиться по параллельным измерениям интенсивности потока m в низкочастотном интервале спектра горных пород.

Способ 2. При единичной диаграмме ГК оценка распределения P(z) в каждой текущей точке обработки данных может выполняться по ближайшим окрестностям данной точки, захватывающим более широкий пространственный интервал по сравнению с интервалом отсчетов.

Использование априорных данных. Допустим, что кроме основного массива данных N, подлежащего обработке (подготовке к интерпретации), мы располагаем дополнительным массивом данных M, значения которого в определенной степени коррелированы с массивом N. При отсутствии дополнительных массивов способ 2 позволяет получить массив М обработкой массива N цифровым фильтром МНК (или любым другим весовым фильтром) со скользящим временным окном T ³ 3t (M(k) = m(k)t сглаженного сигнала m(k) = n(k) ③ h, где h – оператор симметричного цифрового фильтра). Отметим также, что 2-ой способ всегда может использоваться для регуляризации данных независимо от наличия данных для 1-го метода.

Массив М позволяют дать оценку статистических характеристик распределения P(z). Так, если для тех же интервалов времени t в массиве М имеются отсчеты М = m_kt (или приведенные к ним отсчеты какого-либо другого параметра), то можно записать:

P_M(z) =

, (11.2.7)

где Р(х) – априорная плотность распределения значений x_k = m_k/n_k, которые в общем случае также могут быть случайными. При равномерном распределении Р(х) от 0 до ¥ для отсчета М равновероятно любое значение z, т.е. эффект от измерений в потоке m отсутствует. Однако по исходным условиям задачи в потоке m обязательно присутствие полезной информации, а, следовательно, и существование, как минимум, определенных границ распределения Р(х) от х_min > 0 до x_max << ¥, и среднего значения

по пространству измерений. При этом из выражения (11.2.7) следует, что наиболее вероятное значение z_a, "априорное" для отсчетов z=nt в потоке n по измерениям в потоке m (отсчетам М), должно быть равно:

z_a = (M+1)/

@ М/

. (11.2.8)

При статистической независимости величин х и М относительная средняя квадратическая погрешность определения значений z_a по отсчетам в массиве М:

d_za² = d_M² + d_x². (11.2.9)

Отсюда дисперсия распределения значений z_a:

D_za = (D_M+M²d_x²)/

² = D(M) /

², (11.2.10)

D(M) = D_M+M²d_x² = D_M+D_xm, (11.2.11)

D_M= М+1 @ М, D_xm = M²d_x²,

где значение дисперсии D_M определяется статистикой отсчетов в массиве М при х = const, значение D_xm представляет собой дисперсию значений М за счет флюктуаций величины х, а сумма D(M) определяет полную дисперсию отсчетов М.

Влияние Р(х) на форму распределения Р_М(z) сказывается в его "растягивании" по координате z относительно модального значения, при этом решение интеграла (11.2.7) в первом приближении может быть представлено в следующем виде:

P_M(z) @ b

e^-bz. (11.2.12)

Для данного распределения:

= z_a = a/b, (11.2.13)

D_za = a/b², (11.2.14)

С учетом выражений (11.2.8) и (11.2.10):

a = MD_M/(D_za

²) = MD_M/D(M), (11.2.15)

b = D_M/(D_za

) =

D_М/D(M). (11.2.16)

Значение 'а' в выражении (11.2.15) принимается целочисленным. Выражение (11.2.12) может быть принято для распределения (11.2.4) в качестве априорного распределения вероятностей Р(z), при этом:

P_N(z) = (b+1)

e^-z(b+1). (11.2.17)

Отсюда, математическое ожидание и дисперсия z:

z = (N+a)/(b+1), (11.2.18)

D_z = (N+a)/(b+1)². (11.2.19)

C использованием выражений (11.2.15-16):

z = bN+(1-b)M/

, (11.2.20)

где b и (1-b) – весовые коэффициенты доверия отсчетам N и M:

b = D(M)/(D_N

²+D(M)). (11.2.21)

Дисперсия и относительная средняя квадратическая погрешность отсчетов z:

D_z = D(M)

, (11.2.22)

d_z²=1/(N+MD_M/D(M)). (11.2.23)

Эффективность метода. Сравнение выражений (11.2.20-23) и (11.2.5-6) позволяет дать оценку эффекта использования дополнительной информации из статистически независимого от N потока М (произвольная дополнительная информация).

1. При

Þ const имеет место d_х²Þ 0, D_xm Þ 0 и дисперсия отсчетов в массиве М определяется только статистикой потока:

D(M) Þ D_M = M, z = (N+M) /(

+1),

d_z² Þ 1/(N+M) < d_N²= 1/N, (11.2.24)

h = d_N²/d_z² = [N+M²/D(M)] /N Þ 1+M/N,

что соответствует определению z по двум независимым измерениям и эффект использования дополнительной информации максимален. Так, при M » N, h Þ 2 и погрешность измерений уменьшается в

~1.4 раза.

2. В общем случае D_xm ¹ 0, при этом D(M) > D_М и положительный эффект снижается. В пределе: d_x Þ ¥, D_xm Þ ¥, D(M) Þ ¥, h Þ 1, z Þ N, d_z Þ d_N и положительный эффект полностью вырождается. Во всех остальных случаях h > 1 и d_z < d_N. Отсюда следует, что при наличии коррелированной информации в массиве М положительный эффект, в той или иной мере, всегда имеет место.

3. Положительный эффект тем больше, чем больше значение x = m/n, меньше флюктуации х (величина d_х), и меньше значения отсчетов N = nt. Положительный эффект увеличивается именно в тех случаях, когда особенно остро ощущается недостаток информации: при малых значениях плотности потока излучения и/или экспозиции измерений.

Аналогичный эффект будет иметь место и при формировании отсчетов M по окрестностям текущих точек обработки данных путем определения их среднего значения (низкочастотное сглаживание массива n). Предварительное низкочастотное сглаживание может применяться и для статистически независимого дополнительного массива m, что будет повышать достоверность прогнозных отсчетов и увеличивать глубину регуляризации, если это сглаживание при регуляризации по формулам (11.2.20 и 21) не сказывается на изменении формы основного сигнала. Последнее определяется соотношением частотных спектров основного сигнала и оператора сглаживания.

Возможны два способа реализации уравнения (11.2.20): непосредственно в процессе измерений методом статистической группировки полезной информации (СГПИ) в реальном масштабе времени, или методом статистической регуляризации данных (СРД), зарегистрированных в виде временного (пространственного) распределения в параллельных массивах отсчетов.

11.3. Статистическая регуляризация данных.

Как следует из выражения (11.2.21), для практического использования информации из дополнительных потоков данных необходимо установить значения

и дисперсию D(M), причем, исходя из задания последней по выражению (11.2.11), должно быть известно значение d_x - относительной средней квадратической флюктуации величины х.

Применительно к СРД определение значений

и d_x по зарегистрированным массивам данных не представляет затруднений как в целом по пространству измерений, так и в виде распределений в скользящем окне усреднения данных. Последнее эквивалентно приведению D_xm => 0 для текущей точки обработки данных по информации ее ближайших окрестностей и позволяет производить максимальное извлечение полезной информации из дополнительных потоков сигналов, если частотный спектр распределения величины х по пространству измерений много меньше частотного спектра полезного сигнала. Отметим, что информация о распределении х также может иметь практическое значение (в частности, при гамма-опробовании с дополнительным потоком сигналов в низкоэнергетическом диапазоне спектра излучения - для оценки эффективного атомного номера горных пород).