How to STATA

Chúng tôi vui mừng chia sẻ kiến thức về từ khóa Endogeneity la gi để tối ưu hóa nội dung trang web và tiếp thị trực tuyến. Bài viết cung cấp phương pháp tìm kiếm, phân tích từ khóa và chiến lược hiệu quả. Cảm ơn sự quan tâm và hãy tiếp tục theo dõi để cập nhật kiến thức mới.

Chào các bạn,

Bạn Đang Xem: How to STATA

Hôm nay, ad sẽ giảng giải về một hiện tượng lạ mà có nhẽ nếu như khách hàng đã từng bắt tay thực hiện nghiên cứu thì bạn đã được nghe về nó ít nhất một lần – đó là hiện tượng lạ nội sinh. Cái tên của hiện tượng lạ này quá mĩ miều và ‘fancy’ nên khiến tất cả chúng ta hơi ngại nói về nó. Thêm vào đó, phương pháp giải quyết và xử lý hiện tượng lạ nội sinh là rất phức tạp nên làm tất cả chúng ta càng ngại hơn. Bản thân ad cũng rất ngại vấn đề này mặc dù ad biết khá rõ thực chất của vấn đề này cũng như một vài phương pháp để giải quyết và xử lý. Tuy nhiên, biết là một chuyện, còn thực hiện nó lại là một chuyện khác 😀 Nhưng trong nội dung bài viết hôm nay, ad chỉ tạm tạm ngưng ở tầm mức độ san sớt với những bạn về hiện tượng lạ này, những nguyên nhân chính dẫn đến hiện tượng lạ này và phương pháp sử dụng biến dụng cụ để xử lý hiện tượng lạ này nhé.

  1. Khái niệm

Hiện tượng lạ nội sinh là một thuật ngữ diễn tả hiện tượng lạ khi một hoặc nhiều biến giảng giải (biến X) có quan hệ với sai số của mô hình. Như trong một số nội dung bài viết trước, các bạn đã biết sai số của mô hình là hiệu số giữa giá trị quan sát được của Y và giá trị dự báo của Y được tính toán dựa trên các hệ số hồi quy và giá trị của biến X. Giả sử ta có mô hình hồi quy dạng Y = a + bX + u thì sai số u cho từng dòng quan sát sẽ tiến hành tính là: u = Y – (a+b*X). Sai số của mô hình sẽ thay mặt cho ảnh hưởng tác động của những biến mà mình không quan sát được/không đưa vào mô hình. Những ảnh hưởng tác động không quan sát được này phải là những ảnh hưởng tác động không mang tính mạng lưới hệ thống (tức là nó ảnh hưởng tác động đến đối tượng người dùng này, nhưng không ảnh hưởng tác động đến đối tượng người dùng khác), không tuân theo một quy luật nào cả, và là những ảnh hưởng tác động không thật đáng kể.

Lưu ý là tất cả những mô hình đều phải sở hữu sai số, tuy nhiên điều quan trọng là sai số đó cần phải thỏa mãn một trong những giả thiết rất quan trọng của mô hình hồi quy đó là: E(u|X) = 0. Giả thiết này nói rằng, giá trị trung bình của rất nhiều sai số dựa trên tham dự của rất nhiều biến X trong mô hình phải bằng 0. Đơn giản hơn, giả thiết này yêu cầu sai số không được có quan hệ với X. Nếu như giả thiết này sẽ không được đảm bảo, điều đó có tức là trong sai số chứa đựng những thành phần nào đó (mà mình dường như không đưa vào mô hình) có thể giảng giải được Y và bản thân các biến X vững chắc phải là những biến có quan hệ với Y. Vô hình dung chung, biến X và sai số có quan hệ với nhau và như vậy hiện tượng lạ nội sinh xẩy ra. Khi đó, các hệ số hồi quy ước tính theo phương pháp hồi quy tuyến tính OLS sẽ bị chệch (biased) và nó sẽ không còn phản ánh đúng được quan hệ giữa X và Y. Hay nói một cách đơn giản, ta không thể nào sử dụng các hệ số hồi quy này được.

Để dễ hình dung hơn thì ad nói về một ví dụ nhé. Giả sử như ad muốn tìm quan hệ giữa số năm đi học và thu nhập của mỗi người. Như vậy, ad sẽ thực hiện hồi quy biến X là biến số năm đi học trên biến Y là biến thu nhập để tìm hiểu xem liệu học nhiều có giúp mình tìm kiếm ra thu nhập mạnh hơn trong tương lai hay là không? Vấn đề trong mô hình của ad là có thể có nhiều yếu tố khác ảnh hưởng tác động đến thu nhập mà ad đã quên đưa vào mô hình ví dụ như khả năng của mỗi người. Ta có thể thấy là khả năng có quan hệ khá chặt chẽ với số năm đi học của mỗi người và cả thu nhập trong tương lai. Vậy nên, mô hình của ad vững chắc bị hiện tượng lạ nội sinh và biến số năm đi học thường được gọi là biến nội sinh.

2. Nguyên nhân

Hiện tượng lạ nội sinh thường xẩy ra do 3 nguyên nhân: bỏ sót biến, quan hệ song song và lỗi thống kê giám sát biến. Ad sẽ giảng giải từng nguyên nhân với những ví dụ cụ thể nhé.

2.1. Bỏ sót biến (omitted variable bias)

Đây là lỗi mà tất cả chúng ta bỏ sót một hoặc một vài biến quan trọng trong mô hình. Ví dụ về lỗi này thì ad vừa trình bày ở trên luôn. Để làm cho nó có vẻ tài chính lượng hơn thì mình sẽ giảng giải theo mô hình nhé.

Mô hình đúng mà ad nên ước tính là:

Tuy nhiên, vì một lý do nào đó, ad không có tài liệu về khả năng nên ad chỉ có thể ước tính được mô hình sau:

Lúc này, sai số u của mô hình sẽ là:

Và hệ số hồi quy beta 1 sẽ tiến hành ước tính theo công thức sau:

Sai số ε trong mô hình đúng sẽ không còn có quan hệ với biến số năm đi học nên Cov(ε, số năm đi học)= 0.

Xem Thêm : Bách hợp là gì? Ý nghĩa khác của bách hợp

Ad để thêm dấu mũ trên beta 1 để mọi người phân biệt đó là hệ số hồi quy ước tính được thông qua mô hình bị sai, còn beta một là hệ số hồi quy hồi quy chuẩn (true beta). Tất nhiên là ta cần true beta = giá trị ước tính, nhưng trong trường hợp này vì không có biến khả năng trong mô hình nên hệ số hồi quy ước tính sẽ không còn phản ánh đúng hệ số hồi quy chuẩn.

2.2. Quan hệ song song (simultaneity bias)

việc này xẩy ra khi biến X và biến Y tác động lẫn nhau. Một trong những ví dụ kinh điển của vấn đề này là quan hệ giữa tỷ lệ phạm tội và số lượng công an. Tỷ lệ phạm tội quyết định số lượng công an cần có hay là số lượng công an làm ảnh hưởng tác động đến tỷ lệ phạm tội? Cả hai quan hệ này đều phải sở hữu ý nghĩa và xẩy ra song song. Vậy thì hiện tượng lạ nội sinh sẽ xẩy ra ra làm sao?

Vì X và Y đều phải sở hữu thể tác động lẫn nhau nên quan hệ giữa X và Y được thể hiện như sau:

Giả sử trong trường hợp này tất cả chúng ta ko có hiện tượng lạ bỏ sót biến như ở trên nhé và quan hệ mà ta quan tâm là tác động của X lên Y (mô hình 1). Sai số u của mô hình (1) có quan hệ với Y, mà Y lại sở hữu thể tác động lên X như trong mô hình (2) nên X và u có quan hệ với nhau. Trái lại, sai số v của mô hình (2) có quan hệ với X, mà X lại tác động lên Y như trong mô hình (1) nên Y và v có quan hệ với nhau. Như vậy, nếu tất cả chúng ta chỉ xem xét 1 trong 2 mô hình trên, tất cả chúng ta đã bỏ qua tác động của hiện tượng lạ nội sinh và vì vậy, tất cả chúng ta ko thể ước tính được hệ số hồi quy chuẩn a1 và b1. Chúng ta có thể chứng minh tương tự như cách ở trên để xem thử hệ số hồi quy ước tính và hệ số hồi quy sẵn sàng chuẩn bị lệch nhau ra làm sao nhé.

2.3. Lỗi thống kê giám sát biến (measurement error)

Lỗi này mang tên gọi đơn giản nhất và dễ hiểu nhất. Nó xẩy ra khi tất cả chúng ta thống kê giám sát biến giảng giải bị sai.

Giả sử mô hình tất cả chúng ta cần ước tính là:

Tuy nhiên, vì một lý do nào đó, tất cả chúng ta không thể thống kê giám sát chuẩn xác biến X mà tất cả chúng ta lại thống kê giám sát biến X* với một sai số thống kê giám sát nào đó.

Như vậy, mô hình mà tất cả chúng ta muốn ước tính vô tình trở thành:

Sai số u thời điểm hiện tại gồm có sai số ε và một phần của sai số thống kê giám sát v. Điều này gây ra hiện tượng lạ nội sinh vì thành phần v trong sai số mới có quan hệ trực tiếp với biến X*. Và hiện tượng lạ này làm cho tất cả chúng ta không thể ước tính được hệ số hồi quy chuẩn như tất cả chúng ta mong muốn.

Đây đấy là 3 nguyên nhân chính gây ra hiện tượng lạ nội sinh và lưu ý rằng khi hiện tượng lạ này xẩy ra, hệ số hồi quy ước tính theo phương pháp OLS sẽ bị lệch chuẩn (biased). Phương pháp để giải quyết và xử lý hiện tượng lạ này thông thường dựa vào việc sử dụng các phương pháp hồi quy có liên quan đến biến dụng cụ (instrument variable). Thông thường biến dụng cụ được ký hiệu là Z trong mô hình hồi quy. Ta có thể dùng một hoặc nhiều biến dụng cụ cho biến giảng giải X. Biến dụng cụ Z cần phải thoải mãn được cả hai tham dự:

Một là, biến Z có quan hệ càng mật thiết càng tốt với biến X.

Hai là, biến Z không được có quan hệ với sai số u của mô hình.

Việc tìm kiếm và chứng minh một biến dụng cụ tốt không phải đơn giản nếu không muốn nói là rất phức tạp. Với tham dự thứ nhất, tất cả chúng ta có thể dễ dàng chứng minh được bằng phương pháp thực hiện hồi quy với Z là biến giảng giải và X là biến phụ thuộc. Nếu hệ số hồi quy của Z trên X có ý nghĩa thống kê mạnh và thống kê F có mức giá trị càng lớn càng tốt thì coi như tất cả chúng ta đã có thể chứng minh được tham dự 1. Tuy nhiên, với tham dự thứ hai, không hề có một cách gì để tất cả chúng ta có thể kiểm tra nó được. Nhiều chúng ta cũng có thể nghĩ là sao tất cả chúng ta không chạy mô hình của Y lên X, lấy ra sai số u rồi sau đó chạy mô hình giữa u và Z. Nghe thì có vẻ hợp lý, nhưng cách này sẽ không được nha. So với giả thiết này, tất cả chúng ta cần phải giảng giải để chứng minh là Z và u không có quan hệ với nhau. Có thể có nhiều cách thức giảng giải, miễn sao tất cả chúng ta thuyết phục được là được.

Xem Thêm : Hiểu và phân biệt non-binary, Non-conforming và Genderqueer khi mô tả các dạng giới tính trong cộng đồng LGBT

Phương pháp vận hành khi tất cả chúng ta sử dụng biến dụng cụ là mô hình sẽ tiến hành ước tính theo hai bước.

Bước 1: Tất cả chúng ta sẽ ước tính X từ Z bằng phương pháp chạy hồi quy X trên Z.

Sau đó, tất cả chúng ta sẽ lấy ra ước tính của X:

Bước 2: Thay vì dùng X, tất cả chúng ta sẽ dùng ước tính của X trong mô hình hồi quy với Y.

Như vậy, hệ số b1 mà tất cả chúng ta cần ước tính sẽ không còn bị chệch nữa. Nếu bạn phải ad chứng minh vì sao làm được như vậy thì inbox cho ad nha.

Các phương pháp ước tính liên quan đến biến dụng cụ đều phải sở hữu thể giúp tất cả chúng ta thực hiện 2 bước này trong một câu lệnh, chứ tất cả chúng ta không cần thiết phải làm 2 bước riêng biệt như ad trình bày ở trên. Nhưng nếu như khách hàng muốn làm 2 bước thì cũng okay, chỉ có điều sai số của hệ số hồi quy sẽ không còn được tính chuẩn xác so với việc tất cả chúng ta chạy phối hợp trong một câu lệnh.

Quay trở lại ví dụ về số năm đi học và thu nhập trong tương lai của mỗi người mà ad nói ở trên. Biến số năm đi học vững chắc là biến nội sinh trong mô hình vì nó có thể liên quan đến những yếu tố cũng ảnh hưởng tác động đến thu nhập nhưng tất cả chúng ta không quan sát được như khả năng, động lực, hoặc nền tảng gia đình, v.v… Tất cả những yếu tố này đều được thể hiện qua sai số u. Trong trường hợp này, tất cả chúng ta có thể chọn biến dụng cụ nào để sở hữu thể loại trừ ảnh hưởng tác động nội sinh? Trong nghiên cứu của Angrist và Krueger (1991) thực hiện ở Mỹ về vấn đề này, họ đã sử dụng biến quý sinh của người đó để làm biến dụng cụ cho biến số năm đi học. Nghe có vẻ thú vị đúng ko? Hai tham dự của biến dụng cụ được thỏa mãn ra làm sao?

Điều kiện kèm theo 1: Biến dụng cụ Z có quan hệ với X

Niên học ở Mỹ khai mạc vào tháng 9 và trẻ em phải tròn 6 tuổi vào năm nhập học lớp 1, nên những đứa bé sinh ra vào quý IV (từ thời điểm tháng 10 đến tháng 12) sẽ nhập học lớp 1 khi chúng gần tròn 6 tuổi (vì phải tính tới sinh nhật mới tròn tuổi). Trong những khi đó, những đứa bé sinh vào quý I (tháng 1 đến tháng 3) thì phải chờ đến tháng 9 năm tiếp theo mới được nhập học vì tới tháng 9 cùng năm thì chúng vẫn chưa tròn 6 tuổi. Khi những đứa bé này tròn 16 tuổi thì những đứa bé sinh vào quý IV đã hoàn thành lớp 11, còn những đứa bé sinh vào quý 1 mới chỉ hoàn thành lớp 10. Như vậy, quý sinh của mỗi người dân có quan hệ mật thiết với số năm đi học của người đó. Điều kiện kèm theo 1 coi như đã được chứng minh.

Điều kiện kèm theo 2: Biến dụng cụ Z không được có quan hệ với u.

Tác giả đã giảng giải rằng quý sinh của mỗi người không có quan hệ với khả năng hay là động lực vì những yếu tố này liên quan đến yếu tố di truyền hoặc là mức độ khắng khít trong các quan hệ giai đình nhiều hơn. Lý do này còn có vẻ rất thuyết phục rồi phải không? Tuy nhiên, cũng luôn tồn tại ý kiến phản biện rằng quý sinh của mỗi người dân có thể có liên quan nền tảng gia đình (lưu ý đây là một trong nhưng yếu tố không quan sát được và được thể hiện qua sai số) vì có gia đình sẽ ưa thích sinh con vào trong 1 mùa nhất định trong năm!!!

Như tất cả chúng ta thấy việc đưa ra các lý luận để giảng giải biến dụng cụ thỏa mãn tham dự thứ hai là không hề đơn giản. Những biến dụng cụ tốt thường là những biến được tạo ra từ các thực nghiệm hơn là những biến có sẵn mà tất cả chúng ta quan sát được. Tuy nhiên, khi thực hiện những thực nghiệm thì sẽ tốn rất nhiều tiền tài và công sức của con người. Dẫu vậy, điều này sẽ không có tức là việc tìm kiếm biến dụng cụ là vô vọng đâu nhé. Trên thực tế có rất nhiều nghiên cứu đã xuất sắc tìm ra những biến dụng cụ tốt dựa trên những tài liệu có sẵn.

Hy vọng nội dung bài viết này của ad đã hỗ trợ các bạn hiểu về một trong những hiện tượng lạ khó hiểu nhất trong tài chính lượng 😊 Và nhớ là lúc xây dựng mô hình hồi quy, hãy nỗ lực đặt thắc mắc về hiện tượng lạ nội sinh để xem là mô hình của mình có thể phạm phải 3 lỗi mà tôi đã trình bày ở trên không nhé.

Tài liệu tham khảo

Damodar Gujarati (2012), Econometrics by example, chapter 19.

Angrist and Pischke (2015), Mastering metrics – The path from cause to effect, Chapter 3

You May Also Like

About the Author: v1000