Обновлено 07.04.2010
Автор: Administrator
Основные методологические правила и рекомендации для занимающихся статистикой и обработкой данных.
Интересные замечания из книги
Statistical Rules of Thumb, Gerald van Belle (
http://vanbelle.org).

Саму книжку крайне рекомендую к прочтению (можно поискать в Сети или оставить свой мэйл в комментах). Пока конспект только 3 глав - Основы, Графики и таблицы, Статистическое консультирование.
1. Основы
Observation is selection. Классический пример: Вальд - уязвимость самолетов в WW2.
Процесс выбора не обязательно должен быть равновероятным, достаточно знаний о вероятности отбора объектов конкретного класса.
Найденная формула, хорошо описывающая данные, но без теории за этой формулой бессмысленна. Уже было. Три уровня полезности модели:
1) модель хорошо описывает имеющиеся данные
2) может быть использована для предсказания
3) дает понимание (structural model)
Не умножать вероятности друг на друга не убедившись, что события являются независимыми.
Всегда использовать двухсторонние гипотезы, хотя есть исключения, ex: in statistical
genetics, tests of genetic linkage are naturally modeled as the linkage parameter
being greater than zero (only)
Для планирования экспериментов фокусироваться на требуемом уровне значимости, для представления результатов больше использовать доверительные интервалы.
Очень большие уровни значимости (>0.95) обычно означают неверный выбор модели или отбора данных.
Стандартно - ширина доверительного интервала пропорциональна корню из числа данных.
При указании доверительных интервалов не забывать указывать распределение данных, для которых были получены оценки. Для большинства распределений при n>20, оценка ± две стандартные ошибки покрывают 95% интервала.
Не забывать о естественных единицах измерения для каждой переменной.
Нейман-Пирсон, правдоподобие, Байес. Не стоит всегда слепо следовать только одному подходу.
One distinction must also be made: Empirical Bayes is not Bayes. What does this
mean? Empirical Bayes is a frequentist use of Bayes' theorem. It is unfortunate that
these two terms are in vogue because they deal with radically different situations.
Anytime there are two or more sources of variability it is possible to use Bayes'
theorem. It has nothing to do with the nature of the probability. In fact, there
are Bayesian practitioners of Empirical Bayes and non-Bayesian practitioners of
Empirical Bayes.
9. Таблицы и графики
В предложении - от 2 до 5 чисел, избегать слова «соответственно». Таблица - если интересуют именно конкретные значения. График - сложные взаимозависимости.
Таблица:
1) разумное упорядочивание строк и столбцов
2) разумное число значащих цифр (возможно, стоит округлять)
3) максимальная самодостаточность
4) использование пробелов и линий для подчеркивания структуры таблицы.
По возможности - всегда строить графики (особенно для ANOVA.). Хороший пример - Anscombe quartet.

Для всех случаев:
Property
| Value
|
Mean of x in each case
| 9.0
|
Variance of x in each case
| 11.0
|
Mean of y in each case
| 7.5
|
Variance of y in each case
| 4.12
|
Correlation between x and y in each case
| 0.816
|
Linear regression line in each case
| y = 3 + 0.5x
|
Никогда не использовать pie chart - has very low data density! Вместо него - таблицу с процентами.
Стараться избегать barplot - трудно увидеть структуру данных. Насколько вариант B лучше чем A.
Еще хуже чем barplot - stacked bar graphs. Например, на них нельзя показать меру вариабельности.
Никогда не рисовать 3D bar graphs (если только 3-е измерение используется только ради красоты)! Раньше на картах рисовали дующих зефиров и ангелов, сегодня чрезмерно полируют графики.
Для изучения высокоразмерных данных - интерактивная графика.
Смотреть на графики остатков - просто ( так как 1D) и может быть полезно.
10. Статистическое консультирование
Каждая консультация - 3 этапа: введение в проблему, возможные пути решения, заключение и распределение обязанностей.
Не стесняться задавать вопросы.
Оценить знания заказчика в статистике.
Быть активным - поскольку статистик видит исследование в целом.
I . If possible, collaborate (i.e., work with an investigator over a period of time)rather than consult (i.e., some occasional discussion of very specific statisticalissues with the investigator). Be interested in the subject matter involved. Aimto use terminology of the subject matter field where it differs from common statisticalusage. on reflection, the investigator seems misguided, retreat fromthe consultation as soon as politeness and practicality permit. If collaborating,go to the subject matter seminars from time to time, and read the journals in thefield. Discretely determine how much understanding of statistical issues theinvestigator has. Mechanical use of significance tests to confirm overwhelmingeffects, for example, is a bad sign. 2. Frequently review what is being done to check that the statistical analysisaddresses the correct questions. This may help the investigator clarify thinkingas well as protect against the most common error in statistical work-answeringthe wrong question. 3. Aim, if feasible, to see some raw data, to understand the measurement processesinvolved, and to have some appreciation of the general quality of the data.
4. Enquire into aspects of the study design that might have bearing on the appropriateana1ysis. 5. Begin with very simple methods.
6. If possible, end with simple methods. 7. Since nice ideas for analysis often do not work the first time, be prepared to dosome modification. 8. Do not be frightened to make strong assumptions. When a preliminary answerhas been obtained, then consider which of the assumptions may be crucial. 9. Take considerable care over presentation and conclusion. 10. I f your work is to be acknowledged in a paper or a report, ask firmly to seewhat is written before it is submitted. 11. If you feel you should have been a co-author and have not been invited to be,pause for a few days. If, on rejection, you still feel the same, speak quietly tothe friendliest of the investigators pointing out, assuming it is true, that youhave spent a lot of time and thought on the work. 12. Occasionally, very rarely one hopes, be prepared to say that the data areincapable of throwing useful light on the issues involved. 13. Find a good balance between thinking things out for yourself and obtainingadvice from statistical colleagues (and, of course, therefore, finding time tohelp them in return). 14. If more than 10 percent of what you do ends up by being directly useful, youare doing well. 15. If the investigator begins by saying he has a trivial little problem which he issure you will be able to sort out inzrnediately, don't altogether believe him.
Добавить комментарий
Комментарии