Sức Mạnh Của Những Con Số - Chương 4

Chương 4

Tìm “nguyên nhân” của vấn đề bằng “sự tương quan”

Để có hành động phù hợp nhằm giải quyết vấn đề

Yosuke: “Anh Takashima, mấy ngày gần đây thật sự em học được rất nhiều điều mới, mỗi ngày như “mở rộng tầm mắt” vậy. Thật sự là em phải trình bày tình hình thị trường cho anh, thế mà ngược lại toàn được anh chỉ cho. Có lẽ em đã phát ngôn thiếu căn cứ khi cho rằng phải can thiệp vào cửa hàng B và D. Đúng là ngay cả data giống nhau, nhưng nếu nhìn nhiều phía, thông tin và chiều sâu của data lại khác nhau thế này...”

Takashima: “Tình hình khu vực của cậu tôi đã nắm tổng thể rồi. Vậy giờ làm sao đây?” Yosuke: “Làm sao cái gì?”

Takashima: “Trời đất, không lẽ cậu đã yên tâm với kết quả này hay sao. Đây chẳng qua chỉ là cậu đã biết được vấn đề trước mắt thôi. Mục đích cuối cùng của chúng ta là gì?”

Yosuke: “Mục đích cuối cùng là gì? Ủa…” Takashima: “Chúng ta không phải phân tích để báo cáo thôi. Hay cũng không hẳn phân tích để phân tích. Chúng ta làm để thu được thành quả cụ thể trong công việc ấy. Nghĩa là khi biết được vấn đề, hiện trạng rồi, không thể kết thúc như thế được. Mục tiêu của chúng ta là hành động phù hợp để giải quyết vấn đề đó, hay cải thiện điểm đó.”

Yosuke: “Quả đúng là vậy rồi!”

Takashima: “Để hành động hiệu quả, giải quyết tận gốc vấn đề, chúng ta phải tìm ra xem nguyên nhân đó là gì, chứ không phải chỉ dừng ở mức độ phỏng đoán hay hành động thiếu căn cứ được. Đương nhiên khi hành động phải dựa trên phán đoán khách quan, chứ không phải chủ quan, nếu vậy thì dựa trên số liệu chắc chắn sẽ mang lại hiệu quả thiết thực.

Với thời gian và tài chính giới hạn, muốn đạt hiệu quả ta phải đặt mục tiêu rõ ràng và hành động dựa trên mục tiêu đó. Nếu cậu áp dụng được như thế vào công việc, tôi nghĩ cậu sẽ trở thành nhà quản lý xuất sắc đấy”.

Xây dựng giả thuyết để nắm được nguyên nhân của vấn đề

Bốn bước để tạo “giả thuyết kiểu WHY”

Thật tốt nếu ta đã nắm được vấn đề phải ưu tiên giải quyết, cùng với căn cứ liên quan đến vấn đề đó, nhưng nếu chỉ dừng lại ở mức “tôi đã biết có vấn đề ở đây rồi” mà không đi tiếp, chẳng khác nào không có lời giải nào cho vấn đề đó cả”.

Đương nhiên, bước tiếp theo là tìm lời giải: “Vậy thì tại sao vấn đề đó lại phát sinh ở đó?”

Vậy làm cách nào để tìm lời giải dựa vào data bây giờ? Ta hãy xem trình tự sau đây.

Bước 1: Nghĩ xem có thể phân tích thêm Lượng bán (biến số Mục đích) bằng bốn phép toán không?

Bạn hãy nhớ lại giả thuyết kiểu WHY để tìm vấn đề tôi đã giới thiệu ở chương 2. Ở đây Yosuke cũng cho rằng cửa hàng A là vấn đề nên phải ưu tiên giải quyết trước. Lượng bán của cửa hàng A giảm mạnh từ kỳ cuối, doanh số ảnh hưởng không nhỏ đến hoạt động kinh doanh nên không thể bỏ qua được. (Cửa hàng C cũng vậy, nhưng ở đây ta chọn tập trung vào nguyên nhân của cửa hàng A thôi)

Vậy thì nguyên nhân Lượng bán giảm mạnh là gì?

Ở hình 4-2, bạn hãy nhớ cách ta đã phân tích Lượng bán thành “Lượng khách x Tỉ suất mua x Lượng mua/số người” bằng bốn phép tính.

Ta có thể chọn phân tích trực tiếp số liệu Lượng bán mà không phân ra, tuy nhiên để phần phân tích chi tiết, sâu hơn, và để có cái nhìn cụ thể hơn ta nên cố gắng phân tích data ra.

Thông thường sẽ có yếu tố khác để phân tích Lượng bán. Lý do tôi phân thành ba yếu tố “Lượng khách”, “Tỉ lệ mua”, “Tỉ lệ mua/người” là sau khi biết đó là vấn đề, ta có thể phỏng đoán phương án và cách giải quyết.

Ví dụ “lượng khách” có thể bị ảnh hưởng nhất định bởi hoạt động quảng cáo, hay có khả năng thu hút người mua hay không dựa vào “tỉ lệ bán”. “Tỉ lệ bán/người” cũng được cho là có khả năng ảnh hưởng đến biến số này, tùy vào việc trưng bày ở kệ, hay sắp xếp các loại sản phẩm liên quan để thu hút người mua. Khi phân tích data, phần phân tích có “hợp lý” hay không sẽ phụ thuộc vào việc có lường trước được những việc thế này không. Khi phân tích data bằng bốn phép toán, ta nên có “giả thuyết” mang ý nghĩa bao quát, chứ không phó mặc cho máy móc xử lý tùy tiện. Đương nhiên điều quan trọng là ta phải có được những data như thế.

Bước 2: Xây dựng giả thuyết được dự đoán là Nguyên nhân chính cho Biến số đã phân tích

Tiếp theo, sau khi chia “Lượng bán” thành “Lượng khách”, “Tỉ lệ bán” và “Tỉ lệ bán/người”, ta sẽ lập giả thuyết tìm nguyên nhân cho từng cái. Lúc này, giả thuyết sẽ có kiểu WHY ta đã gặp nhiều lần trước đó.

Lấy ví dụ nếu “Lượng khách” giảm, giống như đã xem ở chương 2, ta có thể lập giả thuyết như sau:

- Vì hoạt động quảng cáo không hiệu quả như mong đợi, nên lượng khách giảm.

- Sức hút của thương hiệu hay sản phẩm đã không còn đủ để thu hút khách hàng nữa.

- Sự bất tiện khi ghé cửa hàng có thể ảnh hưởng đến Lượng khách (vị trí).

Nếu biết và có thể áp dụng MECE, chắc chắn bạn có thể tạo được những giả thuyết tốt hơn.

Bước 3: Lựa chọn giả thuyết có trình tự ưu tiên cao để giải quyết vấn đề

Chỉ là nếu ta chỉ chú ý đến ví dụ lần này, khi cho rằng sự thay đổi rõ ràng của Lượng bán là từ nửa năm trước, thì khó có lý do tại Vị trí hay Sức hút thương hiệu vốn là những điểm không thay đổi trong thời gian ngắn. Giống như khi trình bày ở chương 2, ta cần phải xem xét giảm mức độ ưu tiên cho những yếu tố như: Không góp phần giúp giải quyết vấn đề, không có khả năng can thiệp, hay khả năng thực hiện thấp do không thể thu thập đủ data,...

Vì thế, ở đây ta hãy chú ý đến hoạt động quảng cáo (thực tế thì nguyên nhân có thể là do các hoạt động của công ty cạnh tranh, hay sản phẩm cạnh tranh được tung ra thị trường, nhưng ở đây tôi muốn tập trung vào các hoạt động tuyên truyền quảng cáo trước. Và một ví dụ tiêu biểu cho hoạt động này chính là “gửi DM (Direct mail: gửi thư trực tiếp)”.

Giả thuyết trong trường hợp đó sẽ như sau: “Nguyên nhân lượng khách giảm có thể là do hoạt động quảng cáo, mà ở đây là những DM đã gửi không thu hút khách hàng hiệu quả”.

Ở đây ta có thể sử dụng kiểu “nếu... là..., thì... là...”

Bước 4: Suy nghĩ xem những gì muốn tìm sẽ làm bằng số liệu thế nào (hoặc định lượng hóa)

Điều bạn phải nghĩ tiếp theo sẽ là làm thế nào để định lượng “Việc gửi DM để tuyên truyền quảng cáo”. Nếu giả thuyết có nội dung định lượng, hay có nhiều data để lựa chọn, thì ta cần cố gắng xác nhận data sẽ sử dụng một cách phù hợp và cụ thể. Nếu không thể hiện bằng số liệu kiểu định lượng, ta sẽ không thể nắm được sự việc một cách khách quan, và cũng không thể phân tích data gốc. Tùy vào việc bạn nắm được việc gửi DM thế nào, mà cách hiểu cũng có thể khác nhau. Nếu không giải quyết được việc này bạn sẽ không thể đi tiếp được.

Khi nói về chỉ tiêu hay giá trị để thể hiện việc gửi DM, ta có những điểm như sau:

- Chi phí sử dụng để gửi DM trong một khoảng thời gian nhất định (số tiền).

- Số DM đã gửi trong khoảng thời gian nhất định (số thư).

- Tần suất gửi DM trong khoảng thời gian nhất định (tần suất).

Phần phân tích sẽ có phạm vi rộng ngay cả khi ta chỉ kiểm chứng quan hệ giữa lượng khách với mỗi chỉ tiêu trên.

Có trường hợp ta không thể phát hiện có gì đáng nói từ kết quả phân tích một chỉ tiêu nào đó (ví dụ Chi phí sử dụng để gửi DM), nhưng lại có phát hiện lớn khi làm cùng một phân tích với chỉ tiêu khác (ví dụ Số DM). Vì vậy từ một từ khóa Gửi DM, việc có bao nhiêu chỉ tiêu được sử dụng sẽ ảnh hưởng lớn đến chất lượng phân tích.

Ví dụ, giả sử ta đã phân tích số tiền đã sử dụng nhưng lại khá mơ hồ, do có trường hợp Đơn giá gửi thay đổi tùy số lượng một lần gửi DM, nhưng cũng có trường hợp Số mail gửi và Số tiền không ảnh hưởng gì đến nhau. Vì vậy, lần này ta có thể thu được kết quả khác nếu phân tích dựa trên Số DM đã gửi. Nếu vẫn không được, từ Số lượng mail, ta có thể đổi sang Tần suất số lần gửi trong một thời gian nhất định. Nghĩa là, sự thay đổi trong cách chọn tiêu điểm để phân tích cũng được tăng lên. Đương nhiên không phải chỉ thay đổi cho phù hợp với kết quả phân tích ta mong muốn, mà không cần biết nó có ý nghĩa gì, điều quan trọng là như tôi đã giải thích, phải suy nghĩ để đưa ra “giả thuyết” hợp lý.

Ở ví dụ này, ta đã có giả thuyết “khách hàng không “mặn mà” gì với lượng DM (số mail) đã gửi” hay “Khách hàng không phản ứng gì với DM họ xem”, nhưng ta phải đoán được chuyện gì đằng sau những chỉ tiêu đó. Cảm nhận này chắc chắn sẽ nhạy hơn nếu gặp nhiều lần trong thực tế với tình huống không phải lúc nào cũng có được data mình muốn.

Chỉ là ta cần phải suy nghĩ đến nhân lực và thời gian khi tìm kiếm data hay phân tích, rồi chọn cách làm phù hợp. Việc phán đoán đó cũng là một điểm quan trọng mà Người phân tích phải biết.

Tôi xin tổng hợp lại nội dung đến phần này như hình 4-4

Khi suy nghĩ vấn đề theo quy trình phân tích “Vấn đề” => “giả thuyết” => “phương pháp kiểm chứng” => “data cần”, ta sẽ không bị chệch mục tiêu và bao quát vấn đề, nắm được cụ thể những data nào cần sử dụng, do đó bạn hãy nhớ quy trình này nhé.

Yosuke: “Mình dần dần nắm được những điểm chính của data rồi. Nhìn từ bên ngoài, mình chỉ nhìn thấy một phần mặt nổi là “lượng khách giảm” thôi, nhưng để tìm được nguyên nhân cốt lõi của vấn đề đó một cách khách quan thì phải nhờ vào phân tích data rồi. Trước giờ không để ý, nhưng khi nghe nói đến “lượng mail”, “số tiền”, hay “tần suất”, thì quả là có nhiều khía cạnh thật. Khi tìm hiểu sâu từng cái, có lẽ sẽ biết được nguyên nhân nào ảnh hưởng đến Lượng khách hàng, hay nhiều việc khác nữa. Mình cảm thấy đã hiểu từng chút những gì anh Takashima đã nói rồi...”

Điểm mấu chốt

Từ giả thuyết đã xác định rõ ràng, có thể biết mình phải điều tra gì và như thế nào.

Nắm biết nguyên nhân bằng “phân tích mối tương quan”

Phương pháp định lượng hóa điểm mạnh khi liên kết data

Vậy thì làm thế nào để kiểm chứng giả thuyết “việc gửi DM không thu hút được khách hàng như kỳ vọng”?

Lúc đầu tôi đã đưa ra mấy chỉ tiêu để số hóa hành động “Gửi DM”, nhưng giờ ta hãy lấy “Số DM đã gửi” làm ví dụ. Giả sử ta có data Số DM đã gửi cho đối tượng khách hàng nữ độ tuổi 20 - 40 trong tổng số 100, ta có hình 4-5.

Bên trên là Lượng khách mỗi tháng của từng cửa hàng, còn bên dưới là Lượng mail đã gửi mỗi tháng của từng cửa hàng. Ở đây ta muốn xác nhận xem khi so sánh hình trên và dưới, thì việc gửi mail DM có thu hút khách hàng hiệu quả không. Cách căn bản nhất để so sánh chắc là xếp hai số liệu đó và tạo biểu đồ.

Ta đã có kết quả là biểu đồ thể hiện Lượng khách và Số DM đã gửi mỗi tháng, như hình 4-6.

Vậy các bạn đọc được gì khi nhìn biểu đồ này?

Chắc các bạn có thể nắm được khuynh hướng của mỗi cửa hàng rồi, nhưng có phải ai nhìn cũng sẽ có kết luận giống nhau không? Ví dụ của hàng B thì hiệu quả của DM là có hay không? Hay ý kiến người xem sẽ không giống nhau?

Nếu mỗi người xem biểu đồ này và có suy nghĩ khác nhau, thì kết luận sau đó khó đạt được, hay mức độ thuyết phục của kết luận cuối cùng có lẽ bị giảm mạnh.

Mặc dù không phủ nhận Phương pháp xác định bằng biểu đồ khi nhìn bằng mắt như hình trên, nhưng nếu chỉ có biểu đồ thôi sẽ dễ gây mơ hồ. Vì vậy hẳn là tốt hơn nếu có phương pháp phân tích nào tiện hơn.

“Phân tích mối tương quan” để định lượng điểm mạnh, yếu của việc liên kết data

Điểm tôi muốn lưu ý chính là ta có thể định lượng điểm mạnh, yếu của việc kết nối giữa hai data “Số DM đã gửi” và “Lượng khách” với nhau.

Ở đây “việc kết nối” là chỉ “mức độ liên kết theo tỉ lệ” giữa hai yếu tố với nhau. Đó là mối quan hệ mà “một phía tăng (hay giảm), phía kia cũng tăng (hay giảm)”, hoặc “một phía tăng (hay giảm), phía kia sẽ giảm (hay tăng)”. Ta có thể đo được bên nào mạnh hơn dựa vào data gần với phía nào hơn.

Với “phân tích mối tương quan” này, tùy vào sự tăng hay giảm trong tương quan giữa hai yếu tố, mà ta có tương quan chính” và “tương quan phụ”. Ở hình 4-7, nếu hướng tăng hay giảm của cả hai data như nhau, thì đó là “tương quan chính”, ngược nhau thì gọi là “tương quan phụ”.

“Có mối tương quan” nghĩa là gì?

Khi thử nhìn các cửa hàng bằng biểu đồ phân bố và phân tích mối tương quan.

Kết quả phân tích mối tương quan được biểu đạt bằng chỉ tiêu “Hệ số tương quan”. “Hệ số tương quan” này dù trong bất kỳ trường hợp nào cũng có giá trị từ +1 đến -1.

Càng về gần +1, quan hệ tương quan chính càng mạnh, nghĩa là hai số liệu đó cùng hướng tăng hoặc giảm.

Ngược lại, càng về phía -1 thì hai số liệu càng đi ngược hướng nhau. Đây là quan hệ tương quan phụ.

Nếu giá trị về số 0, ta sẽ không thể nhìn thấy “sự tương quan” nữa.

Dù vậy, nhưng khi phân tích thực tế, có khi ta sẽ thấy kết quả rơi vào khoảng +0.45 hoặc -0.325.

Ta thường muốn tiêu chuẩn hay quy định rõ ràng rằng Hệ số tương quan là bao nhiêu thì được cho là “có tương quan” chính hay phụ, nhưng tiếc thay chẳng có quy định nào cả. Thường là nó sẽ rơi vào khoảng +0.7 của tương quan chính, và -0.7 của tương quan phụ.

Tôi thường sử dụng chuẩn là 0.7, tuy nhiên đôi khi chuẩn này quá cao nên chỉ thu được kết quả “không có tương quan”, hoặc khi chỉ muốn biết khuynh hướng chung và không cần số liệu chính xác đến thế, tôi sẽ nới lỏng còn 0.6 hay 0.5. Nhưng ở những trường hợp đó, tôi cố không phán đoán, chỉ dựa vào Hệ số tương quan thôi, mà còn vẽ biểu đồ phân bố dựa trên số liệu, để xem có tương quan (hoặc không).

Mức độ tương quan (giữa hai data thì mối liên kết chặt chẽ là bao nhiêu) có thể xác định bằng thị giác dựa vào biểu đồ phân bố.

Ta sẽ hiển thị hai data đó trên trục tung và trục hoành của biểu đồ phân bố. Nếu là tương quan hoàn toàn (Hệ số tương quan là 1 hay -1), nó sẽ nằm trên một đường thẳng, vì đó là mối quan hệ tỉ lệ tuyệt đối. Khi càng cách xa đường thẳng đó, thì Hệ số tương quan càng tiến gần về 0.

Khi tạo biểu đồ phân bố của các cửa hàng, ta có hình 4-9.

Khi xem hình trên, chắc bạn đã hình dung được mối quan hệ của vị trí số liệu trên biểu đồ với mỗi Hệ số tương quan rồi. Nghĩa là, giá trị Hệ số tương quan càng gần 0, thì quan hệ của trục tung và hoành (tỉ lệ hay đường thẳng) càng mỏng, data được phân bố rải rác, còn Hệ số càng gần 1 thì data càng gần đường thẳng phía trên bên phải.

Điểm mấu chốt

Định lượng điểm mạnh trong liên kết giữa các data bằng Hệ số tương quan.

Hãy kiểm chứng giả thuyết bằng Phân tích mối tương quan

DM có thật sự thu hút khách hàng không?

Vậy làm thế nào ta nắm được nguyên nhân chính dựa vào kết quả phân tích mối tương quan đây? Bạn có biết trong trường hợp của Yosuke, DM là một nguyên nhân không?

Bạn hãy nhớ lại giả thuyết của vấn đề này xem.

Đó là “Lượng khách sụt giảm có thể là do DM đã gửi không thu hút khách hàng hiệu quả”.

Nghĩa là nếu biết được rằng số DM đã gửi và Lượng khách là Mối tương quan chính (cùng chiều) thì ta có thể xác định càng gửi nhiều DM, lượng khách càng tăng. Nói cách khác DM được kỳ vọng sẽ thu hút khách hàng hiệu quả.

Mặt khác, nếu không nhìn ra được mối tương quan giữa hai số liệu đó, khách hàng sẽ không phản ứng với DM đã được gửi, DM đã không thu hút được họ, hay nói cách khác chi phí dành cho DM sẽ là lãng phí. Nếu điều đó là sự thật, ta có thể xác nhận đây chính là một nguyên nhân khiến Lượng khách hay Doanh số sụt giảm.

Từ kết quả ở hình 4-9, cụ thể thì từ Hệ số tương quan giữa các cửa hàng, ở cửa hàng B và C thì quan hệ giữa Số DM đã gửi và Lượng khách nằm ở trên mức quy định, nghĩa là DM đang hiệu quả trong việc thu hút khách hàng. Ngược lại cửa hàng A và D có thể nói là không hiệu quả.

Nhân đây, bên cạnh sự chặt chẽ trong mối quan hệ (tương quan) giữa các số liệu, ta cũng thử nhìn dưới khía cạnh Độ lớn, tức là Số DM đã gửi thực tế. Dưới đây là số mail trung bình tháng của các cửa hàng từ số liệu gốc.

Cửa hàng A: 53.3 mail/tháng

Cửa hàng B: 37.5 mail/tháng

Cửa hàng C: 55 mail/tháng

Cửa hàng D: 53.3 mail/tháng

Điều này cho thấy, ở cửa hàng D, số DM đã gửi là thấp nhất (= chi phí thấp), nhưng Lượng khách trên quy mô đó lại nhiều nhất, có thể nói chiến lược DM đang được phát huy một cách hiệu quả. Nếu nhìn ở kết quả/chi phí, thì đây là tình huống rất lý tưởng.

Cửa hàng C cũng vậy, vì có sự tương quan với Lượng khách, mặc dù có thể nói DM cũng mang lại hiệu quả, nhưng vì số lượng gửi nhiều, sau này có thể khó duy trì lượng khách tương đương nếu không tiếp tục thực hiện điều này.

Vấn đề nắm ở cửa hàng A và D.

Đặc biệt, khi chia thành nửa đầu năm và nửa cuối năm vốn có lượng bán sụt giảm, ta thấy rằng:

- Việc gia tăng số DM so với nửa đầu năm (từ 270 lên 370), nhưng lại không hiệu quả.

- Hệ số tương quan chỉ trong nửa đầu năm là 0.55, nhưng sang nửa cuối năm là 0.23, nghĩa là không thấy được hiệu quả DM.

Vì vậy ta có thể kết luận: Một trong những nguyên nhân gây sụt giảm Lượng khách của cửa hàng A (giảm Lượng bán) có thể là do DM thiếu hiệu quả. Đương nhiên điều ta nhận ra ở đây là sự thật rằng DM không phát huy hiệu quả thu hút khách hàng như mong đợi (việc sử dụng tiền cho hoạt động này là đang lãng phí). Đây có phải là nguyên nhân chủ yếu khiến “lượng khách sụt giảm” không, hay ngoài ra còn có nguyên nhân gì khác khiến khách hàng rời đi không,... ta có thể kết hợp với các giả thuyết khác, kiểm chứng và xác nhận được. Điều ý nghĩa thật sự ở đây là nếu “nắm được nguyên nhân cụ thể”, ta phải tìm hiểu toàn bộ giả thuyết giống như vậy.

Giống như trên, cửa hàng D vốn DM không hiệu quả, có lẽ nguyên nhân là do sự phân bố của Lượng khách ở mỗi tháng là lớn nhất trong số bốn cửa hàng. Ở đây ta có thể đoán rằng, vì phương pháp thu hút khách hàng bằng DM không hiệu quả, dẫn đến Lượng khách giảm, nhưng Sự phân bố lại lớn thêm. Dù không phải là nguyên nhân trực tiếp khiến Lượng khách sụt giảm, nhưng có thể nói vấn đề của cửa hàng D cũng nằm ở hiệu quả DM nữa.

Điểm mấu chốt

Ta sẽ biết nguyên nhân nằm ở đâu nếu biết có hay không Quan hệ tương quan giữa các data.

Phân tích mối tương quan dễ dàng bằng Excel

Tính nhanh chóng bằng hàm CORREL!

Việc phân tích mối tương quan bằng chỉ tiêu đơn giản Hệ số tương quan để xác nhận mối liên hệ giữa các data, ngay cả khi các data đó có đơn vị khác nhau (ở đây là “số mail” và “người”), ví dụ như Số DM đã gửi và Lượng khách, có ưu điểm vượt trội là dễ hiểu, phạm vi ứng dụng lại rất rộng.

Tuy nhiên, việc tính hệ số này bằng tay hay máy tính cầm tay thì khó thực hiện do công thức của nó phức tạp. Nhưng Excel lại có hàm CORREL để tính hệ số này, bạn cũng thử sử dụng xem sao nhé.

Hình 4-10 là ví dụ khi muốn tính hệ số tương quan giữa Lượng khách và số DM đã gửi của cửa hàng A.

Như trong hình 4-10, trong ngoặc là vùng của hai data, được ngăn cách bởi dấu phẩy. Để có được kết quả là Hệ số tương quan, ta chỉ mất vài giây mà thôi.

Chỉ cần như vậy, ta có thể phân tích mà không yêu cầu gì ở đơn vị của số liệu, ta có thể làm đi làm lại trong khoảng thời gian nhất định. Cách làm này đối với người sử dụng rất hấp dẫn. Bởi khi làm một phân tích sẽ mất nhiều thời gian, trường hợp không ra được kết quả, ta có thể làm lại bằng cách sử dụng data khác, hay thay đổi tiền đề một chút, nhờ đó giảm thiểu được thời gian đáng kể.

Với những người làm việc tại nơi hay bị giáng xuống chỉ thị “Những gì cậu hiểu thông qua data này, hãy mang đến cho tôi trước buổi chiều nay”, thì không thể thiếu phương pháp có thể thử đi thử lại, đến khi có kết quả mong muốn trong thời gian ngắn được. Trong hoàn cảnh áp lực phải có kết quả cụ thể, thì sự tiện lợi này chính là phao cứu sinh cho ta.

Như vậy, việc kiểm chứng dựa vào phân tích tương quan giữa “kết quả” và “nguyên nhân” bằng giả thuyết WHY, ta có thể nhìn thấy được nhiều điều. Với những gì nhìn thấy ví như: “Tôi đã cho là có liên quan nên đã làm, nhưng thực tế lại không như vậy” để phát hiện vấn đề, hay “hoạt động này đang phát huy hiệu quả rõ rệt”, là những phát hiện sẽ giúp ta nâng cao hiệu quả làm việc lên.

Yosuke: “Wow, hay quá! Trước giờ mình chỉ biết có Lượng khách, hay Số mail đã gửi, rồi dựa vào đó làm tới làm lui, nên chắc phần phân tích lúc trước không sâu rồi. Đúng là mình nhìn vào chỉ có “kết quả”, mà không giải thích được câu chuyện trong kết quả đó.

Quả đúng như vậy, nếu làm theo cách này, mình có tự tin để nêu nguyên nhân của cửa hàng là “Hiệu quả DM” rồi, giờ phải thêm phần trình bày và giải pháp cho vấn đề đó nữa. Mình thử tìm hiểu các giả thuyết khác giống vậy xem sao...”

Điểm lưu ý khi phân tích mối tương quan

Quan trọng là cách “đọc mối tương quan như thế nào”

Việc phân tích mối tương quan tiện lợi này giúp ta đào sâu và mở rộng phạm vi phân tích hơn, nhưng có vài điểm cần lưu ý khi sử dụng. Nếu bạn bỏ qua những điểm này, và phán đoán toàn bộ chỉ dựa vào Hệ số tương quan lấy từ hàm của Excel, thì có khả năng bạn sẽ gặp nguy. Tiếp theo tôi xin giới thiệu vài lưu ý quan trọng.

(1) Quan hệ tương quan lấy Quan hệ tỉ lệ làm tiền đề

Việc đánh giá có tương quan không sẽ dựa vào việc có Quan hệ tỉ lệ không. Quan hệ tỉ lệ là chỉ data của trục tung và trục hoành nằm trên một đường thẳng.

Tuy nhiên trong thực tế, những người có kinh nghiệm đều thấu hiểu một điều rằng không dễ dàng để giải thích bằng quan hệ đường thẳng.

Nhưng cũng là sai nếu ta cho rằng việc phân tích đơn giản mối tương quan lại chẳng có tác dụng gì.

Trong thực tế, điều quan trọng là không phải xem nó gần với đường thẳng bao nhiêu, mà chỉ cần biết khuynh hướng hai data đó có đi cùng nhau hay không, chính là thông tin quan trọng rồi.

Vì vậy, ví dụ khi so sánh kết quả có hệ số tương quan là 0.9 với 0.7, tôi sẽ không cho rằng vì 0.9 lớn hơn nên tốt hơn. Tôi sẽ bỏ qua tiêu chuẩn đã định (ví dụ là 0.7), và đưa ra kết luận giống nhau rằng cả 0.9 và 0.7 đều “có tương quan”. Còn phần chênh lệch đó tôi sẽ không đề cập đến, vì cái nào gần với đường thẳng hơn, không phải là mục đích đánh giá.

Tuy nhiên, ta không nên phó mặc việc tính Hệ số tương quan bằng máy hoàn toàn. Thường thì tôi muốn nắm rõ toàn bộ sự việc ngay cả khi nó không được thể hiện trên đường thẳng (hay đường cong).

Ví dụ ba trường hợp ở hình 4-11, nếu chỉ nhìn thoáng qua, ta nhận ra “tính quy tắc” ở đây. Khi nhìn vào, chắc có người sẽ cho rằng “Ở trục tung và trục hoành, data nằm rải rác không thấy tính liên hệ gì”. Nhưng Hệ số tương quan của các data này có lẽ bằng 0 hay gần bằng 0, vì chúng hoàn toàn không có quan hệ đường thẳng (tỉ lệ).

Nghĩa là ta không thể nói “Không có quan hệ tương quan = không có Tính quy tắc ở trục tung và trục hoành” được, vì ngay cả khi Hệ số tương quan bằng 0 thì về mặt logic Tính quy tắc vẫn có.

Tôi nghĩ trong thực tế, không ít trường hợp theo kiểu này. Nhưng nếu nhìn ra được trường hợp đặc thù này từ trước, ta sẽ không quên phải xác nhận bằng mắt trên biểu đồ phân bố, chứ không phải chỉ dựa vào Hệ số tương quan thôi.

(2) Xử lý khi số bị chệch

Trong tình huống nằm ngoài việc phân tích mối tương quan, khi so sánh với nhiều data lớn, những data có giá trị bị chệch ra, gọi là “Giá trị bị chệch”. Việc xuất hiện Giá trị bị chệch này do nhiều nguyên nhân, từ lỗi nhập liệu đơn thuần, đến điều kiện lấy data ở phần nào đó bị sai,...

Khi gặp trường hợp này, việc có đưa hay không Giá trị bị chệch nào vào phân tích cũng tác động lớn đến kết quả.

Ví dụ, giả sử ta sử dụng toàn bộ data có trong tay mà không suy nghĩ nhiều. Trong đó có một data bị chệch (hình 4-12 ở trên). Lý do đưa data này vào là do có thể ngày hôm đó cửa hàng cạnh tranh bên cạnh giảm giá đặc biệt, hay do ai đó trên mạng truyền tai nhau nên Lượng khách tăng đột biến. Hệ số tương quan bao gồm Số chệch đó là 0.39.

Nhưng với “phán đoán của người phân tích”, với lý do những ngày đặc thù đó không cần phải đưa vào phân tích, số chênh lệch bị trừ ra, và Hệ số tương quan nhảy vọt lên 0.78 (hình 4-12).

Vấn đề quan trọng không phải là cách nào thì đúng, mà chính người phân tích phải phán đoán, do Số liệu sẽ không chỉ cho ta thấy “làm thế nào thì tốt”, hay “vì có Số chệch nên hãy lưu ý nhé”.

Nếu chỉ để có kết quả mong muốn mà tùy tiện thêm vào hay bỏ ra Giá trị chệch này, cuối cùng chỉ mang lại thất bại.

Lượng dữ liệu càng lớn thì càng khó biết được có hay không Giá trị chệch. Tôi xin gợi ý một cách đơn giản để phát hiện khi nhìn là vẽ biểu đồ phân bố.

(3) Kết quả sẽ khác tùy vào vùng dữ liệu sử dụng (phải xác nhận lại Mục đích và Giả thuyết)

Tùy vào phạm vi hay vùng phân tích, mà kết quả sẽ rất khác nhau, mặc dù đều chung dữ liệu gốc. Giống với “giá trị lệch”, dữ liệu không tự động cảnh báo ta, mà người phân tích phải tự mình phán đoán.

Giả sử ta chỉ sử dụng trục hoành với số liệu là dưới 60 (hình 4-13), trong dữ liệu nhìn như “không có giá trị lệch” ở hình 4-12. Ví dụ nếu trục hoành là Số lần sử dụng thiết bị thể thao đó, thì trên 60 lần là những người thường xuyên sử dụng, dưới 60 là đối tượng ta phân tích để tăng tần suất sử dụng của họ lên. Trong trường hợp đó, Hệ số tương quan của những người dưới 60 lần này là 0.45. Ở đây không nói đến cái nào tốt, xấu hay đúng, sai, mà sự thật là nếu người phân tích không xét đến khía cạnh bối cảnh và phán đoán sai, sẽ dẫn đến kết quả sai mặc dù dữ liệu giống nhau. Do vậy, bạn đã biết rủi ro của việc “vì có data nên dùng thôi” là tai hại thế nào rồi đúng không.

(4) Thử nghi ngờ những Mối tương quan giả tạo… hãy để ý đến nguyên nhân thứ ba nhé.

Ta có thể tính được Hệ số tương quan nếu có dữ liệu. Nhưng mà đó cũng chỉ là “kết quả tính toán” thôi, nên việc đọc ý nghĩa của nó thế nào phụ thuộc vào người phân tích.

Ví dụ dù có được Hệ số tương quan cao giữa hai dữ liệu đó, cũng không có nghĩa là giữa chúng có “mối quan hệ trực tiếp” được. Ví dụ trường hợp tiếp theo đây có thể được gọi là Mối tương quan giả tạo.

Giả sử ta biết được mối tương quan rõ rệt giữa Kết quả thăm dò mức độ hài lòng của khách và Tổng doanh số. Nghĩa là Mức độ hài lòng của khách càng cao, thì Tổng doanh số càng cao.

Tuy nhiên ta phải chú ý không chỉ dựa vào kết quả này rồi xác định rằng: “Giữa Mức độ hài lòng của khách và Tổng doanh số có quan hệ trực tiếp.”

Nếu giả sử ở đây ta có “giảm giá”, thì nhờ giảm giá mà Mức độ hài lòng của khách cao, kéo theo Tổng doanh số cũng tăng cao. Trong trường hợp này, có thể nói “giảm giá” chính là nguyên nhân ảnh hưởng đến cả “Mức độ hài lòng của khách” và “Tổng doanh số” (hình 4-14). Nếu bỏ qua điều này mà chỉ tập trung các hoạt động, ngân sách cho việc nâng cao Độ hài lòng của khách nhằm tăng doanh số, thì chắc chắn không thể mong thu được kết quả như kỳ vọng.

Như vậy ta gọi việc có thể nhìn thấy mối tương quan trên số liệu, nhưng lại không có quan hệ trực tiếp giữa hai số liệu đó là “mối tương quan giả tạo”.

Điểm rắc rối của Mối tương quan giả tạo chính là thường không thể nhận ra nguyên nhân thứ ba đã bị che lấp như trường hợp “Tổng giảm giá” này. Khi ta chỉ tập trung vào những gì nhìn thấy, ở đây là dữ liệu, thì khó có thể nghĩ đến những điểm khác. Mà ngay cả dữ liệu đang phân tích cũng không thể hiện cho ta thấy rằng có hay không “thông tin bị che mất”.

Có những cách phân tích để xác nhận có hay không Mối tương quan giả tạo ở mức độ nào đó trong thống kê hay số học, tuy nhiên tôi nghĩ trong đời thường, ngoài trường hợp cần độ chính xác cao, ít khi nó được sử dụng.

Việc nhận biết “câu chuyện bị giấu đằng sau” đó sẽ phụ thuộc vào kiến thức và độ nhạy bén của người phân tích. Nếu người phân tích có kiến thức trong lĩnh vực phân tích thì tốt, nếu không có một cách hiệu quả là lắng nghe ý kiến hay lời khuyên của những người xung quanh.

Tôi cũng hay hỏi thăm những người làm trong lĩnh vực mà kết quả phân tích hay câu chuyện liên quan đến, bằng những câu như “tôi cũng biết giữa XX và YY có tương quan, nhưng anh xem thử bình thường nó có liên hệ với nhau chặt chẽ không?”

Nếu cảm nhận hay hiểu biết của họ khác với cái ta nhìn thấy, hãy xem lại thử có nguyên nhân nào mình không thấy, hoặc hỏi thử họ xem nguyên nhân là gì. Chỉ là cần lưu ý có trường hợp cách nhìn của những người đó một chiều, hay đôi khi họ sẽ không chấp nhận những gì mới mẻ (mặc dù đó là sự thật). Với tôi, những khi không cảm thấy hài lòng về bản phân tích của mình, tôi thường cố tham khảo thêm ý kiến của những người khác nhau, điều này nhằm tránh ý kiến một chiều hoặc cá nhân chủ nghĩa.

(5) Không kiểm chứng quan hệ nhân quả

Khi gặp mối tương quan giả tạo, chính người phân tích chứ không phải dữ liệu, sẽ tìm “câu chuyện” cho kết quả phân tích đó. Tôi có cảm giác con người hình như thích những câu chuyện dựa trên quan hệ nhân quả vốn dễ hiểu và dễ hình dung, nên thường kết quả phân tích Mối tương quan cũng được chuyển sang Quan hệ nhân quả một cách thiếu căn cứ.

Tất nhiên khi giải quyết vấn đề trên thực tế, ta phải hiểu được quan hệ giữa “kết quả” và “nguyên nhân” để tìm ra nguyên nhân, và đưa ra kết luận rằng “tôi đã biết được nguyên nhân là gì”. Vì thế, việc tìm thấy quan hệ nhân quả chính là một mục tiêu ta sẽ phải làm.

Tuy nhiên, kết quả phân tích mối tương quan không kiểm chứng quan hệ nhân quả giữa hai data (Có lẽ bạn sẽ ngạc nhiên khi nghe điều này).

Giống với trường hợp Mối quan hệ giả tạo, việc đưa ý nghĩa vào trong kết quả phân tích chính là lúc tạo ra Câu chuyện hay Lời giải thích.

Điều quan trọng ở đây chính là việc đưa ý nghĩa vào kết quả phân tích không phải là “kết quả do phân tích dữ liệu”, mà là phần việc người phân tích sẽ phải làm. Đây là lúc mà sự phỏng đoán, cái nhìn phiến diện, hiểu lầm dễ trà trộn vào, nên cần phải hết sức chú ý.

Có một phương pháp để xác nhận Quan hệ nhân quả một cách khách quan, có thể tránh được quan điểm phiến diện, đó là nới lỏng Hệ thời gian (timing) của hai data và phân tích. Vì “nguyên nhân” thường đi trước “kết quả”, nên nếu nới data được xác định là “nguyên nhân” sớm hơn một chút, có thể giảm đáng kể việc Quan hệ tương quan bị hủy, còn nếu để trễ hơn thì về mặt logic chắc chắn sẽ bị rối loạn. Nếu nhất định phải xác nhận bằng số liệu, bạn hãy thử làm xem sao nhé.

Thực tế trường hợp sử dụng phân tích tương quan, việc phán đoán xem cái nào là “nguyên nhân”, cái nào là “kết quả” tôi nghĩ là không phải quá khó. Nhưng nguy cơ không nhận ra được Mối tương quan giả tạo là khá cao.

Việc xác nhận và kiểm chứng tất cả các điểm lưu ý thì khó thực hiện được. Tuy nhiên, bạn cần biết những điểm này, để không nhảy ngay vào kết quả phân tích một cách thiếu suy nghĩ.

Điểm mấu chốt

Nhớ những điểm lưu ý khi đọc kết quả

Yosuke: “Khi liên kết hai kết quả của DM và việc Giảm lượng khách của cửa hàng A, cảm giác như mình đã nhìn thấu những điều trước đây không nhận ra. Đúng thật, nếu mà biết những điểm này, mình có thể nghĩ ra các phương án, chẳng hạn như điều tra thuộc tính của những ghi chép Mua bán trước đây, hay tuổi tác của đối tượng đã gửi DM của cửa hàng A, rồi đổi DM có nội dung phù hợp với thuộc tính đó, hoặc xem lại đối tượng gửi DM cho phù hợp với cửa hàng A hiện tại.

Nếu thế mình có thể trình bày một cách logic đề án mới này, cùng với kết luận đó, thì chắc chắn tính thuyết phục sẽ khác xa.

Cảm giác như mình đã có vũ khí tuyệt vời rồi. Giờ chỉ muốn làm sao có thể sử dụng cho thêm nhiều nhiều trường hợp hơn thôi”.

Chương 4: Những điểm phải làm để “suy nghĩ bằng số liệu/data”

Đề tài: Nắm được “nguyên nhân của vấn đề”.

1: Xây dựng giả thuyết nguyên nhân “kiểu WHY”.

2: Kiểm chứng giả thuyết bằng việc phân tích mối tương quan.

3: Để ý những điểm cần lưu ý khi phân tích mối tương quan, giải thích kết quả phân tích, và hiểu được nội dung ẩn sau đó.

Báo cáo nội dung xấu

Chi phí đọc tác phẩm trên Gác rất rẻ, 100 độc giả đọc mới đủ phí cho nhóm dịch, nên mong các bạn đừng copy.

Hệ thống sẽ tự động khóa các tài khoản có dấu hiệu cào nội dung.