Cümleleri Etiketleme
Cümlenin Etiketlenmesi, daha geniş anlamda, cümlenin bağlamına göre fiil, isim vb. Etiketlerin eklenmesini ifade eder. POS etiketlerinin tanımlanması karmaşık bir süreçtir. Bu nedenle, bazı kelimeler cümlenin yapısına göre farklı (belirsiz) anlamlara sahip olabileceğinden, POS'un jenerik etiketlenmesi manuel olarak mümkün değildir. Metnin liste biçiminde dönüştürülmesi, listedeki her kelime belirli bir etiket için döngüye alındığından ve sayıldığından etiketlemeden önce önemli bir adımdır. Daha iyi anlamak için lütfen aşağıdaki koda bakın
import nltktext = "Hello Guru99, You have to build a very good site, and I love visiting your site."sentence = nltk.sent_tokenize(text)for sent in sentence:print(nltk.pos_tag(nltk.word_tokenize(sent)))
ÇIKTI
[('Hello', 'NNP'), ('Guru99', 'NNP'), (',', ','), ('You', 'PRP'), ('have', 'VBP'), ('build', 'VBN'), ('a', 'DT'), ('very', 'RB'), ('good', 'JJ'), ('site', 'NN'), ('and', 'CC'), ('I', 'PRP'), ('love', 'VBP'), ('visiting', 'VBG'), ('your', 'PRP$'), ('site', 'NN'), ('.', '.')]
Kod Açıklama
- Nltk içe aktarılacak kod (cümle belirteci ve sözcük belirteci gibi alt modülleri içeren doğal dil araç takımı.)
- Etiketleri yazdırılacak metin.
- Cümle İşaretleme
- For döngüsü, kelimelerin cümle üzerinden belirtildiği ve her kelimenin etiketinin çıktı olarak yazdırıldığı yerde uygulanır.
Corpus'ta iki tür POS etiketleyici vardır:
- Kural Tabanlı
- Stokastik POS Etiketleyicileri
1.Kural Bazlı POS Etiketleyici: Belirsiz anlam taşıyan kelimeler için bağlamsal bilgiye dayalı kural bazlı yaklaşım uygulanır. Bunu, önceki veya sonraki kelimenin anlamını kontrol ederek veya analiz ederek yapılır. Bilgi, kelimenin çevresinden veya kendi içinden analiz edilir. Bu nedenle kelimeler, büyük harf ve noktalama gibi belirli bir dilin gramer kurallarına göre etiketlenir. örneğin, Brill'in etiketleyicisi.
2. Stokastik POS Etiketleyici: Bu yöntem altında frekans veya olasılık gibi farklı yaklaşımlar uygulanır. Bir kelime eğitim setinde çoğunlukla belirli bir etiketle etiketlenmişse, test cümlesinde o belirli etiket verilir. Sözcük etiketi yalnızca kendi etiketine değil, aynı zamanda önceki etikete de bağlıdır. Bu yöntem her zaman doğru değildir. Başka bir yol, belirli bir etiketin bir cümlede oluşma olasılığını hesaplamaktır. Böylece son etiket, belirli bir etikete sahip bir kelimenin en yüksek olasılığının kontrol edilmesiyle hesaplanır.
Gizli Markov Modeli:
Etiketleme Sorunları, HMM kullanılarak da modellenebilir. Girdi belirteçlerini gözlemlenebilir bir sıra olarak ele alırken, etiketler gizli durumlar olarak kabul edilir ve amaç, gizli durum dizisini belirlemektir. Örneğin x = x 1 , x 2 ,…, x n burada x bir simge dizisidir, y = y 1 , y 2 , y 3 , y 4 … y n ise gizli dizidir.
HMM Modeli Nasıl Çalışır?
HMM, P (x, y) olan birleştirme dağıtımını kullanır; burada x, giriş dizisi / belirteç dizisi ve y, etiket dizisidir.
X için Etiket Dizisi argmax y1… .yn p (x1, x2,… .xn, y1, y2, y3,…) olacaktır. Metindeki etiketleri kategorize ettik, ancak bu tür etiketlerin istatistikleri çok önemlidir. Bir sonraki bölüm, istatistiksel çalışma için bu etiketleri saymaktır.