?

Log in

No account? Create an account

Xiao et al., 2011
covtoc
basil_yakimov

Xiao X., White E.P., Hooten M.B., Durham S.L. On the use of log-transformation vs. nonlinear regression for analyzing biological power laws // Ecology. 2011. 92(10): 1887-1894.

Для практического изучения степенных зависимостей, широко распространённых в биоэкологии, чаще всего используется метод логарифмической трансформации исходных данных и последующего применения стандартной линейной регрессии. Альтернативным подходом является использование нелинейной регрессии на исходных нетрансформированных данных. В структуре этих двух методов заложены различные предположения о характере распределения ошибок: в первом случае это логнормальное распределение, во втором – нормальное.

В последнее время звучит критика стандартного подхода, основанная на том, что при использовании линейной регрессии к данным, имеющим неадекватную структуру ошибок (то есть нормальное распределение), можно получить неверную оценку скейлинговых параметров (особенно на этом поприще отличился G.С. Packard, опубликовавший несколько работ, в том числе с реанализом ранее полученных результатов).

В данной работе авторы обратились к проблематике выбора метода оценки параметров степенной зависимости и применили симуляционное исследование методом Монте-Карло. Для подбора биологически адекватных параметров для проведения исследований авторы собрали огромный набор данных, состоящий из результатов 471 исследования, в которых применялись степенные зависимости. Получив параметры для двух методов оценивания, генерировались псевдовыборки на основе разных моделей ошибок и изучались вновь полученные оценки параметров.

Выяснилось, что корректные оценки получаются только при использовании метода с адекватной структурой ошибок. Таким образом, ключевой вопрос заключается в том, какова структура ошибок в конкретном наборе данных и вообще: какая структура ошибок чаще встречается в биологии.

Для решения этой задачи привлечен информационный критерий Акаике. Результаты показала, что из 471 набора данных 68.6 % имеют логнормальные ошибки, 16.6 % характеризуются нормальными ошибками, в 14.8 % случаев однозначно определить структуру ошибок невозможно. Для последнего случая авторы предлагают использовать процедуру усреднения оценок с использованием весовых коэффициентов, получаемых через значения информационного критерия.

После применения предлагаемого алгоритма к наборам данных, анализ которых переделывал G.C. Packard методом нелинейной регрессии, выяснилось, что в этих случаях имела место логнормальная структура ошибок, то есть результаты исходного анализа (методом линейной регрессии логарифмированных данных) были корректны.

Особо авторы отмечают, что в данном исследовании сознательно проигнорированы наборы данных по SAR, поскольку в них переменная отклика (видовое богатство) является дискретной величиной, что могло внести отклонения в результаты.

N.B. Очередным приятным дополнением является приложенный к статье файл с данными всех 471 зависимостей, скомпилированными в один вектор. Ну и плюс еще код для применения предлагаемого алгоритма. Код на языке R, так что сразу в него особо не сунешься, да и нет особой надобности, потому как алгоритмы в статье расписаны довольно четко. А вот в данных можно будет поковыряться на предмет наличия там линейности (в билогарифме, разумеется)…