Парная корреляция и парная линейная регрессия

 

Наиболее простым вариантом корреляционной зависимости является парная корреляция, т.е. зависимость между двумя признаками (результативным и факторным или между двумя факторными). Математически эту зависимость можно выразить как зависимость результативного показателя у от факторного показателя х. Связи могут быть прямые и обратные. В первом случае с увеличением признака х увеличивается и признак у, при обратной связи с увеличением признака х уменьшается признак у.

 

Важнейшей задачей является определение формы связи с последующим расчетом параметров уравнения, или, иначе, нахождение уравнения связи (уравнения регрессии).

 

Могут иметь место различные формы связи:

- прямолинейная:

 

  x = a0 + a1x (8.1)  
y  

 

- криволинейная в виде:

 

параболы второго порядка (или высших порядков):

          = a   + a x + a   x2 (8.2)  
  y   x  
                       
гиперболы:                                
                      a1       (8.3)  
    y x = a0 +      
        x      
                               
показательной функции:                                
          x = a0a1x     (8.4)  
      y      
и т.д.                                

 

Параметры для всех этих уравнений связи, как правило, определяют из системы нормальных уравнений, которые должны отвечать требованию метода наименьших квадратов (МНК):

 

na0 + a1 åx = åy  
a0 åx + a1 åx2 = åxy (8.5)


 

 


Если связь выражена параболой второго порядка ( yx = a0 + a1 x + a2 x2 ) , то систему

 

нормальных уравнений для отыскания параметров a0 , a1 , a2 (такую связь называют множественной, поскольку она предполагает зависимость более чем двух факторов) можно представить в виде:

na0 + a1 åx + a2 åx2 = åy

 

a0 åx + a1 åx2 + a2 åx3 = åxy  
a0 åx2 + a1 åx3 + a2 åx4 = åx2 y (8.6)

 

Другая важнейшая задача – измерение тесноты зависимости – для всех форм связи может быть решена при помощи вычисления эмпирического корреляционного отношения h :

 

    d   d      
  h = =   (8.7)    
           
  s s    
           
             
            å(   x -   )2  
где – d = y y  
          n     дисперсия в ряду выравненных значений результативного показателя yx ;  
                           
      å(y -   )2          
s = y – дисперсия в ряду фактических значений у.  
      n  
                   
                                           

 

 

Для определения степени тесноты парной линейной зависимости служит линейный коэффициент корреляции r, для расчета которого можно использовать, например, две следующие формулы:

 

             
  å(x -   ) ×(y -   )  
rxy = x y  
(8.8)  
  nsx sy  
      åxy - åx × åy            
  rxy =     n           (8.9)    
                       
                         
                   
      (åx 2 - (åx)2 ) ×(åy2 - (åy)2 )        
         
        n         n    
                                       

Линейный коэффициент корреляции может принимать значения в пределах от -1 до + 1 или по модулю от 0 до 1. Чем ближе он по абсолютной величине к 1, тем теснее связь. Знак указывает направление связи: «+» – прямая зависимость, «-» имеет место при обратной зависимости.