라그랑지안 함수란 일정 제약하에서 극대화나 극소화 문제를 풀 때 쓰는 테크닉입니다. 그래서 경제수학책의"constrained optimisation"의 장에 있습니다.
가장 간단한 예로 예산제약하의 효용 극대화를 생각해 봅시다.
U=U(X,Y)를 objective function이라 하고, 제약식(constraint)을 PxX+PyY=M이라 할 때
라그랑지안 함수를 L 이라 하면, (이 경우는 어떤 제약하의 극대화 케이스입니다.)
L=U(X,Y)+λ(M-PxX-PyY)
라고 표현합니다. (λ(람다, Lambda))
다시 말해 L= objective function+λ(constraint)로 표현되는 것이 라그랑지안 함수인 것입니다.
그리고, 각각 X와 Y, 그리고 λ에 대해 편미분을 하면
Lx=Ux-Pxλ.=0
Ly=Uy-Pyλ=0
PxX+PyY=M
의 세가지 식이 도출되겠죠.
세 식을 X와 Y에 대해 풀면, 그 답인 X,Y값이 예산제약하에 효용을 극대화 하는 X, Y(상품량)이 되는 겁니다. 첫번째와 두번째 식을 풀면 경제학 책에 많이 나오는 (λ=) Ux/Px= Uy/Py, Ux/Uy=Px/Py 식을 도출할 수 있습니다.
그럼, 람다(λ) 값은 경제학적 의미에서 뭐냐? 람다는 예산제약이 1단위 증가할 때 목적함수의 최적값이 얼마나 증가하는지를 알려줍니다. 즉, 예산이 1원(또는 1달러) 증가할 경우, 목적함수인 효용함수의 최적값(optimal utility)이 λ단위만큼 증가한다는 의미입니다.
매우 유용한 방법이기 때문에 경제수학책을 참고하셔서 익혀놓으시면 공부하시는데 상당히 도움이 되실 겁니다.
(참고로 쉬운 예제 하나)
소비자 갑돌이의 효용함수는 U(X,Y)=xy라 합시다.
그가 가진 돈(예산)이 총 90원이고, 사고(x)재화의 가격은 3원, 배(y)재화의 가격은 5원이라 합시다.
이 예산제약상황을 식으로 나타내면
3x+5y=90
즉, max U=xy
s.t. 3x+5y=90
(다시 말해서, 이문제는 갑돌이의 예산제약식하에서 그의 효용을 극대화하기 위해서는 사과(x)와 배(y)를 얼마만큼 소비해야 하느냐...하는 문제입니다.)
즉, 사과(x재화)는 15개, 배(y재화)는 9개를 소비할 때 갑돌이가 가지고 있는 예산하에서 갑돌이의 효용이 극대화됩니다. (이때 효용은 135(그의 효용식은 x곱하기 y니까)가 되겠죠)
라그랑주 역학(Lagrangian mechanics)은 조제프 루이 라그랑주가 고전역학을 새롭게 공식화하여 그의 논문 《해석 역학》을 통해 1788년에 발표한 이론이다. 라그랑주 역학에서는라그랑지언을 구해 라그랑주 방정식에 넣어 풀어냄으로써 물체의 궤적을 구할 수 있다.
**라그랑주 방정식**
라그랑주 역학의 운동방정식을 라그랑주 방정식(Lagrange's equation)이라고 한다. 자세한 형태는 아래와 같다.
보존계의 경우, 라그랑주 방정식은 다음과 같은 형태를 가지고, 이러한 방정식을오일러-라그랑주 방정식(Euler-Lagrange equation)이라고 한다.
어떤 운동방정식을 주는 라그랑지언은 유일하지 않다. 예를 들어, 고전역학의 라그랑지언 와 다음과 같은 좌표와 시간만의 임의의 함수 의 시간에 대한 전미분을 포함하는 라그랑지언
전미분은 쉽게 말하자면 주어진 함수 f의 미분소 df를 의미합니다. 이 df라는 양은 말 그대로 함수의 변화량을 재는 양으로,기하학적인 양입니다. 무슨 의미냐 하면, df라는 양은 좌표계의 선택에 의존하지 않고 순수하게 두 (가까운) 점 사이의 f의 변화량을 잰다는 의미입니다.
전미분과 대응되는 개념으로 편미분이란 것이 있습니다. 편미분은 함수를 특정 방향 혹은 특정 변수로 미분하여 얻은 값을 뜻합니다. 이 양은 그 정의부터가 필연적으로 좌표계에 의존하게 되어있습니다. 따라서 편미분은 (그 값들이 특별하게 얽혀있지 않는 한) 순수하게 기하학적인 양을 나타낼 수 없습니다.
때문에전미분이란 양은 기하학적, 물리적으로 아주 중요한 의미를 갖습니다. 사실 물리에서 좌표계는 물리현상을 설명하기 위한 보조적인 수단이며, 현상의 본질이 될 수 없습니다. 예를 들어서 우리의 일상적인 척도로 보면 직교좌표계가 쓰기 편하지만, 전체 지구 레벨로 보면 구면좌표계를 쓰는 것이 위치를 표현하기에 훨씬 적당하지요. 그래서 지구 레벨에서는 위치를 위도, 경도, 고도라는 개념으로 위치를 표현합니다. 이렇듯 좌표계의 선택은 언제나 달라질 수 있는데, 물리에서는 그러한 인위적인 선택에 영향을 받지 않는 양이 가장 유용한 양이기 때문에 자연스럽게전미분을 생각하는 것입니다.
예를들어, df 라는 전미분은 어떤 점 p를 고정했을 때, p에서 주어진 방향으로 함수 f가 얼마나 '미소적으로' 변하는가를 나타내는 척도입니다. 구체적으로, 벡터 X = (X1, …, Xn)이 주어졌을 때, X 방향으로의 df의 값은
으로 정의됩니다.[1]물론, 여기서 (x1, …, xn)은 p점 근처에서의 좌표계입니다. 왜 이런 정의가 먹히는가를 생각해봅시다. 공간상의 두 점 p와 p+Δp가아주 가까이, 구체적으로 dp만큼의 아주 작은 변위만큼 떨어져 있다고 합시다. 이때 p와 p+Δp의 좌표를 각각x와 x+Δx로 적기로 하고,p에서 p+dp로 갈 때의 함수 f의 값의 변화량을 알기 위해 f를 p점 근처에서 테일러 전개해봅시다. 그러면
로 주어집니다. 따라서 극한적으로 2차항 이후를 무시하면
가 성립하며, 이로부터 df는 진실로 f의 함수값의 차이를 좌표계와 무관한 방식으로 재는 양임을 알 수 있습니다. 그러므로 위의 논의가 df의 정의를 정당화합니다.
가 되어 최종적으로 다음과 같은 오일러-라그랑주 방정식을 얻게 되며 두 라그랑지언에 의해 얻게 되는 운동방정식은 같게 된다.
일반적으로, 라그랑지언이 어떤 임의의 함수의 전미분만큼 달라도 같은 오일러-라그랑주 방정식을 얻는다.
오일러 - 라그랑지 방정식의 유도과정은 아래와 같다.
Euler-Lagrange Equation
It is a well-known fact, first enunciated by Archimedes, that the shortest distance between two points in a plane is a straight-line. However, suppose that we wish to demonstrate this result from first principles. Let us consider the length, , of various curves, , which run between two fixed points, and , in a plane, as illustrated in Figure 127. Now, takes the form
where . Note that is a function of the function . In mathematics, a function of a function is termed a functional.
Figure 127:Different paths between points and.
Now, in order to find the shortest path between points and , we need to minimize the functional with respect to small variations in the function , subject to the constraint that the end points, and , remain fixed. In other words, we need to solve
The meaning of the above equation is that if , where is small, then the first-order variation in , denoted , vanishes. In other words, . The particular function for which obviously yields an extremum of (i.e., either a maximum or a minimum). Hopefully, in the case under consideration, it yields a minimum of .
Consider a general functional of the form
where the end points of the integration are fixed. Suppose that . The first-order variation in is written
where . Setting to zero, we obtain
This equation must be satisfied for all possible small perturbations .
Integrating the second term in the integrand of the above equation by parts, we get
Now, if the end points are fixed then at and . Hence, the last term on the left-hand side of the above equation is zero. Thus, we obtain
The above equation must be satisfied for all small perturbations . The only way in which this is possible is for the expression enclosed in square brackets in the integral to be zero. Hence, the functional attains an extremum value whenever
This condition is known as the Euler-Lagrange equation.
Let us consider some special cases. Suppose that does not explicitly depend on . It follows that . Hence, the Euler-Lagrange equation (1681) simplifies to
Next, suppose that does not depend explicitly on . Multiplying Equation (1681) by , we obtain
However,
Thus, we get
Now, if is not an explicit function of then the right-hand side of the above equation is the total derivative of , namely . Hence, we obtain
which yields
Returning to the case under consideration, we have , according to Equation (1674) and (1676). Hence, is not an explicit function of , so Equation (1682) yields
where is a constant. So,
Of course, is the equation of a straight-line. Thus, the shortest distance between two fixed points in a plane is indeed a straight-line.
파란색의 점들이 각각의 샘플들이라면, 이들의 경향성을 따라서 직선을 그은것이 바로 위에서 설명한 LMS 수식으로 표현것입니다. 즉, 아주 간단한 근사화 방법으로써 실제로 많이 쓰이지만 그렇게 정확도가 높지는 않습니다.
이러한 데이터 혹은 샘플 혹은 어떠한 분포도를 하나의 수식으로 표현하기 위해서, 이를 모델화 한다고 합니다. 모델은 우리가 원하는 물리적인 현상을 잘 반영해야 합니다. 하지만 분명 오차가 발생하기 때문에, 이를 최소자승법을 통하여 원하는 결과값이 나오도록 하는 오류를 최소화 하는 변수값을 알아내는것이 핵심입니다.
이를 식으로 다시 이야기 해보겠습니다.
참조 : The Method of Least Squares of Steven J. Miller∗