Статистика - базовые правила и рекомендации

Основные методологические правила и рекомендации для занимающихся статистикой и обработкой данных.
Интересные замечания из книги Statistical Rules of Thumb, Gerald van Belle (http://vanbelle.org).


Саму книжку крайне рекомендую к прочтению (можно поискать в Сети или оставить свой мэйл в комментах).  Пока конспект только 3 глав - Основы, Графики и таблицы, Статистическое консультирование.



1. Основы

 
Observation is selection. Классический пример: Вальд - уязвимость самолетов в WW2.

Процесс выбора не обязательно должен быть равновероятным, достаточно знаний о вероятности отбора объектов конкретного класса.

Найденная формула, хорошо описывающая данные, но без теории за этой формулой бессмысленна. Уже было. Три уровня полезности модели:
1)     модель хорошо описывает имеющиеся данные
2)     может быть использована для предсказания
3)     дает понимание (structural model)

Не умножать вероятности друг на друга не убедившись, что события являются независимыми.

Всегда использовать двухсторонние гипотезы, хотя есть исключения, ex: in statistical
genetics, tests of genetic linkage are naturally modeled as the linkage parameter
being greater than zero (only)

Для планирования экспериментов фокусироваться на требуемом уровне значимости, для представления результатов больше использовать доверительные интервалы.

Очень большие уровни значимости (>0.95) обычно означают неверный выбор модели или отбора данных.

Стандартно - ширина доверительного  интервала пропорциональна корню из числа данных.

При указании доверительных интервалов не забывать указывать распределение данных, для которых были получены оценки. Для большинства распределений при n>20, оценка ± две стандартные ошибки покрывают 95% интервала.

Не забывать о естественных единицах измерения для каждой переменной.


Нейман-Пирсон, правдоподобие, Байес. Не стоит всегда слепо следовать только одному подходу.
One distinction must also be made: Empirical Bayes is not Bayes. What does this
mean? Empirical Bayes is a frequentist use of Bayes' theorem. It is unfortunate that
these two terms are in vogue because they deal with radically different situations.
Anytime there are two or more sources of variability it is possible to use Bayes'
theorem. It has nothing to do with the nature of the probability. In fact, there
are Bayesian practitioners of Empirical Bayes and non-Bayesian practitioners of
Empirical Bayes.


9. Таблицы и графики

 
В предложении - от 2 до 5 чисел, избегать слова «соответственно». Таблица - если интересуют именно конкретные значения. График - сложные взаимозависимости.

Таблица:
 1) разумное упорядочивание строк и столбцов
 2) разумное число значащих цифр (возможно, стоит округлять)
 3) максимальная самодостаточность
 4) использование пробелов и линий для подчеркивания структуры таблицы.

 По возможности - всегда строить графики (особенно для ANOVA.). Хороший пример - Anscombe quartet.


Для всех случаев:
Property

Value

Mean of x in each case

9.0

Variance of x in each case

11.0

Mean of y in each case

7.5

Variance of y in each case

4.12

Correlation between x and y in each case

0.816

Linear regression line in each case

y = 3 + 0.5x



Никогда не использовать pie chart - has very low data density! Вместо него - таблицу с процентами.

Стараться избегать barplot - трудно увидеть структуру данных. Насколько вариант B лучше чем A.



 
Еще хуже чем barplot - stacked bar graphs. Например, на них нельзя показать меру вариабельности.

Никогда не рисовать 3D bar graphs (если только 3-е измерение используется только ради красоты)! Раньше на картах рисовали дующих зефиров и ангелов, сегодня чрезмерно полируют графики.

Для изучения высокоразмерных данных - интерактивная графика.

Смотреть на графики остатков - просто ( так как 1D) и может быть полезно.



10. Статистическое консультирование

 
Каждая консультация - 3 этапа: введение в проблему, возможные пути решения, заключение и распределение обязанностей.

Не стесняться задавать вопросы.

Оценить знания заказчика в статистике.

Быть активным - поскольку статистик видит исследование в целом.


I . If possible, collaborate (i.e., work with an investigator over a period of time)
rather than consult (i.e., some occasional discussion of very specific statistical
issues with the investigator). Be interested in the subject matter involved. Aim
to use terminology of the subject matter field where it differs from common statistical
usage. on reflection, the investigator seems misguided, retreat from
the consultation as soon as politeness and practicality permit. If collaborating,
go to the subject matter seminars from time to time, and read the journals in the
field. Discretely determine how much understanding of statistical issues the
investigator has. Mechanical use of significance tests to confirm overwhelming
effects, for example, is a bad sign.

2. Frequently review what is being done to check that the statistical analysis
addresses the correct questions. This may help the investigator clarify thinking
as well as protect against the most common error in statistical work-answering
the wrong question.

3. Aim, if feasible, to see some raw data, to understand the measurement processes
involved, and to have some appreciation of the general quality of the data.

4. Enquire into aspects of the study design that might have bearing on the appropriate

ana1ysis.

5. Begin with very simple methods.

6. If possible, end with simple methods.


7. Since nice ideas for analysis often do not work the first time, be prepared to do
some modification.

8. Do not be frightened to make strong assumptions. When a preliminary answer
has been obtained, then consider which of the assumptions may be crucial.

9. Take considerable care over presentation and conclusion.

10. I f your work is to be acknowledged in a paper or a report, ask firmly to see
what is written before it is submitted.

11. If you feel you should have been a co-author and have not been invited to be,
pause for a few days. If, on rejection, you still feel the same, speak quietly to
the friendliest of the investigators pointing out, assuming it is true, that you
have spent a lot of time and thought on the work.

12. Occasionally, very rarely one hopes, be prepared to say that the data are
incapable of throwing useful light on the issues involved.

13. Find a good balance between thinking things out for yourself and obtaining
advice from statistical colleagues (and, of course, therefore, finding time to
help them in return).

14. If more than 10 percent of what you do ends up by being directly useful, you
are doing well.

15. If the investigator begins by saying he has a trivial little problem which he is
sure you will be able to sort out inzrnediately, don't altogether believe him.

Комментарии   

 
0 #1 Александр 09.05.2011 22:31
интересная книга. только не скачать. вот мейл: . спасибо заранее
Цитировать
 

Добавить комментарий


Защитный код
Обновить