Dữ liệu không cân bằng, khi chi tiết quan trọng – Chickgolden


Minh họa những kỹ thuật tiêu chuẩn, Hình ảnh của Tác giả

TÓM TẮT

Định nghĩa dữ liệu không cân bằng

Khi chúng ta nói về dữ liệu không cân bằng, ý của chúng ta là ít nhất một lớp được trình bày dưới mức. Ví dụ, khi xem xét vấn đề xây dựng một bộ phân loại, chúng ta hãy gọi nó là Idealisstic-Voter. Chúng tôi giao cho nó nhiệm vụ xác định các chính trị gia mà công chúng Mỹ thấy đáng tin cậy. Khi nhìn vào tập dữ liệu, chúng tôi nhận ra rằng hầu hết mọi mẫu đều không phổ biến.

Trong thuật ngữ phân loại, chúng tôi gọi các lớp có rất ít mẫu là các lớp thiểu số và các lớp có nhiều lớp đa số .

Vậy vấn đề là gì?

Giả sử có 100 chính trị gia, và chỉ một trong số họ được công chúng coi là đáng đáng tin cậy ; hãy gọi anh ta là Áp-ra-ham. Bây giờ chúng tôi hoàn toàn có thể nhanh gọn thiết kế xây dựng một Người bầu chọn lý tưởng. Điều đó đạt được Độ đúng mực là 99 % bằng cách nói đơn thuần ” toàn bộ những chính trị gia đều là những kẻ nói dối “, tức là phân loại tổng thể những chính trị gia là không đáng đáng tin cậy. Sự mất mát sẽ thấp và chúng tôi hoàn toàn có thể trình diễn xuất sắc về điểm số Người bầu chọn lý tưởng của chúng tôi tuyệt vời như thế nào so với những chỉ số phổ cập nhất .

Bạn đang đọc : Dữ liệu không cân đối, khi chi tiết cụ thể quan trọng

PRECISION = TP / (TP+FP) = 99%
ACCURACY = TP / (TP + FN) = 99 %
F1 = (2*PRECISION*RECALL)/(PRECISION+RECALL) = 99.5 %

Số liệu cân bằng

Bất cứ khi nào bạn đang làm việc với dữ liệu không cân bằng, hãy tạo thói quen xem xét các chỉ số cân bằng. Họ làm tương tự như những người bạn quen thuộc, nhưng ngoài ra, họ lấy điểm trung bình trên tất cả các lớp.

BALANCED_PRECISION=(P_TRUSTWORTHY + P_UNTRUSTWORTHY)/2=50%

Chúng tôi nhận ra rằng chúng tôi có một yếu tố, làm thế nào chúng tôi trọn vẹn hoàn toàn có thể giải quyết và xử lý nó ?

Lấy mẫu ngược và lấy mẫu xuống

Có lẽ cách đơn thuần nhất bạn trọn vẹn hoàn toàn có thể sử dụng để khiến Người bỏ phiếu lý tưởng tự giải quyết và xử lý yếu tố là trình diễn cho anh ta những giải pháp hòa giải và hài hòa và hợp lý hơn. Điều này có nghĩa là tích góp thêm tài liệu hoặc sử dụng kỹ thuật Upsampling đáng yêu .

Kỹ thuật này hoạt động để chúng ta nhân bản Áp-ra-ham yêu quý của mình, nghĩa là chúng ta nhân bản các thành viên của tầng lớp thiểu số. Khi chúng tôi đã cân bằng tập dữ liệu ở mức độ vừa đủ, chúng tôi sẽ nhận thấy rằng mô hình của chúng tôi thực sự phải học điều gì đó để đạt được điểm tốt!

Downsampling

Đối lập với Upsampling là Downsampling, hay còn gọi là Undersampling. Kỹ thuật này rất tuyệt nếu bạn có nhiều tài liệu hơn đủ để tiến hành việc làm của mình ( Điều này chưa khi nào xảy ra với tôi, nhưng tôi cho rằng những người thu thập dữ liệu lớn của quốc tế này đôi lúc trọn vẹn hoàn toàn có thể ở vị trí này ) .

Trong trường hợp này, bạn có thể loại bỏ một số trường hợp của lớp đa số. Bạn không cần phải đi 50–50, nhưng đủ để khiến Người bình chọn lý tưởng có động lực học hỏi điều gì đó. Điều tương tự đối với tất cả các kỹ thuật mà chúng ta đang thảo luận ngày hôm nay.

Tạo mẫu tổng hợp

Tạo những ví dụ tổng hợp, hình ảnh của tác giả
Được rồi, giờ đây toàn bộ tất cả chúng ta đang đi vào những điều mê hoặc. Làm thế nào về việc chúng tôi tạo ra tài liệu từ không khí loãng ? Làm thế nào về việc chúng tôi thêm 1 số ít Abrahams với kính kỹ thuật tuyệt vời ? Anh ấy chắc như đinh sẽ đáng đáng đáng tin cậy như vậy và còn giành được giải Cuộc bầu chọn dành cho giới trẻ !

Thêm một chút ϵps

Giả sử tập dữ liệu của chúng tôi có tuổi đối tượng. Chúng ta có thể thấy rõ rằng các chính trị gia đáng tin cậy duy nhất là 2020–1809 = 211 tuổi, 1809 là năm sinh của Abraham. Nhưng còn những chính trị gia có cùng thành tích nhưng đều 211.001 và 210.999 tuổi?

Có lẽ là giống nhau! Nhưng hãy cực kỳ cẩn thận khi sử dụng kỹ thuật này vì bạn đang làm sai lệch dữ liệu của mình. Kỹ thuật này có thể dễ dàng phản tác dụng, và bạn chỉ nên sử dụng nó khi bạn rất tự tin rằng đó là sự lựa chọn đúng đắn. Nhưng điều này đưa chúng ta đến một kỹ thuật tự động và phức tạp hơn một chút.

NHỎ

SMOTE là viết tắt của Kỹ thuật lấy mẫu quá mức thiểu số tổng hợp. Nó tạo ra các mẫu mới bằng cách quan sát cẩn thận các thuộc tính của tất cả các mẫu. Sau đó, nó tiến hành thay đổi các giá trị để chúng nằm trong phạm vi được quan sát trong lớp thiểu số của chúng tôi. Nghe có vẻ phức tạp, hãy xem một ví dụ đơn giản, và nó sẽ trở nên rõ ràng khi bạn nhấp chuột vào cái vỗ tay. Giả sử chúng ta thêm JFK vào tập dữ liệu và xem xét lại thời đại của các chính trị gia đáng tin cậy.

Minh họa SMOTE, Hình ảnh của Tác giả

Như chúng ta có thể thấy, khu vực được chỉ định là SMOTE AN TOÀN là khu vực mà chúng tôi có thể tự do tạo ra các mẫu tổng hợp mới! Bạn có thể tìm thấy lời giải thích sâu hơn ở đây. Điều đó thật hấp dẫn, nhưng tôi nghĩ điều quan trọng nhất là phải biết rằng những phương pháp như vậy tồn tại.

Sáng tạo

Chúng ta hoàn toàn có thể tìm thấy 1 số ít ví dụ đáng kinh ngạc về kỹ thuật này trong cảnh lái xe tự động hóa. Mặc dù tổng thể những đối thủ cạnh tranh cạnh tranh đối đầu lớn trong nghành này đã tích lũy vài petabyte tài liệu, nhưng những điều kiện kèm theo như trẻ nhỏ chạy trước xe hơi nên được kiểm tra trước khi thực sự gặp phải chúng. Những trường hợp này cũng hoàn toàn có thể xảy ra rất hiếm khi bạn sẽ không khi nào tìm thấy đủ tài liệu giảng dạy .
Xem thêm : Nuanced là gì
Tạo tài liệu Tổng hợp để kiểm tra những trường hợp cạnh như vậy và nhiều trường hợp cạnh khác dưới nhiều điều kiện kèm theo kèm theo ánh sáng và thời tiết khác nhau là điều bắt buộc. Người ta thường sử dụng GAN hoặc những mạng tựa như để quy đổi những mẫu đã có thành nhiều dạng khác, ví dụ, vào mùa đông hoặc khi mưa. Có nhiều cách để làm điều này. Bạn trọn vẹn hoàn toàn có thể xem một đoạn video ngắn minh họa điều này ở đây ( Tôi không link với họ và cũng không biết họ tốt như thế nào, nhưng họ có một video ngắn xuất sắc ; )

Thay đổi chức năng mất mát

Nhưng chúng tôi có một điều nữa ! Điều gì sẽ xảy ra nếu tôi nói với bạn rằng thay vì xử lý và giải quyết và xử lý yếu tố ở Lever tài liệu, tổng thể tất cả chúng ta trọn vẹn hoàn toàn có thể giải quyết và xử lý nó ở TT của thuật toán, hàm mất mát .

Trong những năm qua, nhiều cách tiếp cận đã được đề xuất, và thực sự không có một kích thước nào phù hợp với tất cả. Nó thường phụ thuộc nhiều vào tầm quan trọng của việc xác định nhóm thiểu số và loại chi phí nào xảy ra khi bạn phân loại sai một mẫu cho nhóm đa số.

Chức năng giảm cân, tự xác định

Một cách để trộn khoản lỗ như vậy đơn giản là nhân các số hạng trong đó nhóm thiểu số xảy ra với hằng số> 1. Điều này làm hiệu quả là khuyến khích mô hình chú ý nhiều hơn đến các trường hợp của tầng lớp thiểu số. Trong Keras, điều này được xây dựng trong một có thể được áp dụng mà không có thêm rắc rối

class_weights = {0: 1.,
                1: 50.}
model.fit(X_train, Y_train,class_weights=class_weights)
def loss_weighted(x,y_true):
y_pred=model.forward(x)
    if y_true==1:
        return 50*loss(y_pred,y_true)
    elif y_true==0:
        return 1*loss(y_pred,y_true)

Khi số lượng những lớp trở nên lớn hơn, thật tẻ nhạt để xác lập những thứ một cách rõ ràng, như tất cả chúng ta đã làm ở trên. Đối với yếu tố này, nhiều giải pháp đã được yêu cầu và một trong những khu công trình đáng chú ý quan tâm nhất là “ Tổn thất cân đối theo lớp dựa trên số lượng mẫu hiệu suất cao ” .
Những gì họ đề xuất kiến nghị một cách hiệu suất cao là xác lập lại hàm số tổn thất. Các tác giả thực thi điều này theo cách có tính đến lượng mẫu hiệu suất cao trên mỗi lớp. Để trấn áp tổn thất kết thúc ở phía nào của cân đối, người ta cũng hoàn toàn có thể kiểm soát và điều chỉnh nó bằng một siêu thông số kỹ thuật .
Mặc dù đây là một cái nhìn rất đơn thuần về quy trình của họ, nhưng tôi cảm thấy rằng nó đã chớp lấy được những góc nhìn quan trọng nhất cần lưu giữ trong trí nhớ của bạn. Nếu bạn từng gặp trường hợp bạn có nhiều lớp và sự mất cân đối đáng kể giữa những lớp, hãy bảo vệ vận dụng giải pháp này .

Phần kết luận

Xin chúc mừng, giờ đây bạn biết bạn hoàn toàn có thể làm gì khi gặp phải tài liệu mất cân đối. Có 1 số ít cách tiếp cận sống sót và việc lựa chọn cách tương thích cho yếu tố của bạn hoàn toàn có thể không phải khi nào cũng là một trách nhiệm thuận tiện. Nó sẽ nhờ vào nhiều vào nhu yếu kinh doanh thương mại của bạn để quyết định lượng thời hạn và nguồn lực bạn muốn dành để cân đối mọi thứ một cách công minh hơn. Nhận thức được những giải pháp tiềm năng là bước tiên phong để xử lý chúng !

Nếu bạn thích bài viết này, tôi rất vui được liên kết trên Twitter hoặc LinkedIn .
Nhận quyền truy vấn không lấy phí vào bộ sưu tập mã nồi hơi cá thể của tôi bằng cách ĐK vào list gửi thư của tôi .

ĐÁNH GIÁ post
Bài viết liên quan

Tư vấn miễn phí (24/7) 094 179 2255