Yaklaşık 2-3 ay önce karşılaştığım ve vay be dediğim bir eşleştirme algoritması tekniği olan “Fuzzy Matching Algorithms” hakkında teorik bilgiler eşliğinde konu hakkında bilgi vereceğim, Bundan önceleri Levenshtein algoritması kullanılarak bir eşik değer belirlenip uzaklıklar üzerinden benzerlikler bulunmaktaydı.. Yine bu uzaklık metriği fuzzy matching algoritması içerisine dahil edilebilmekte fakat pahalı bir algoritma olduğu için çok tercih edilmemekte.

Aşağıdaki görselleri bu algoritma hakkında aklınızda birşeyler oluşturabilmek için paylaşıyorum.

Bir çok metnin bulunduğu bir veri kümesinde bu işlemi gerçekleştirmek bir hayli zor olacaktır. (Matris işlemleri nedeni ile)

 

Veri kümesi 1

 Veri kümesi 2

Firmalar

Satış

 Firmalar

Müşteri Adedi
Ls Şirketi

300 TL

ABC Denetim

2114

ABC

400 TL

LS Limited Şirketi

2512

Esfa

500 TL

Esfa Reklam ve Ticaret

1123


Yukarıdaki tabloda paylaşılan iki veri kümesini Firma isimleri üzerinden birleştirmek istersek o zaman bu algoritmalar çok işimize yarayacaktır. 

Bu algoritmayı;

  • Veri kümelerini birleştirme, ön işleme veri hazırlama aşamalarında kullanabilirsiniz.
  • Soundex algoritması benzeri yapılar kurmak istediğinizde eğer yeterince büyük veri kümeleri elde edemiyorsanız kullanabilirsiniz.
Şimdilik bu kadar teorik bilgi paylaşıyorum, daha sonra sizlere bir uygulama sözüm olsun. 

İyi çalışmalar 🙂

http://www.datasciencecentral.com/profiles/blogs/fuzzy-matching-algorithms-to-help-data-scientists-match-similar

Bir Cevap Yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir