Tokenizasyon nedir?
Simgeleştirme , büyük miktarda metnin simge adı verilen daha küçük parçalara bölünmesi işlemidir. Bu belirteçler, kalıpları bulmak için çok kullanışlıdır ve kök bulma ve lemmatizasyon için bir temel adım olarak kabul edilir. Tokenizasyon, hassas veri öğelerini hassas olmayan veri öğeleriyle değiştirmeye de yardımcı olur.
Doğal dil işleme, Metin sınıflandırması, akıllı sohbet robotu, duygusal analiz, dil çevirisi vb. Gibi uygulamalar oluşturmak için kullanılır. Yukarıda belirtilen amaca ulaşmak için metindeki kalıbı anlamak hayati önem taşır.
Şimdilik, kök ayırma ve sözcük ayırma konusunda endişelenmeyin, bunları NLP (Doğal dil işleme) kullanarak metinsel veri temizleme adımları olarak değerlendirin. Kök belirleme ve tanımlamayı daha sonra öğreticide tartışacağız. Metin sınıflandırması veya spam filtreleme gibi görevler , Keras ve Tensorflow gibi derin öğrenme kitaplıklarının yanı sıra NLP'yi de kullanır.
Natural Language toolkit, ayrıca alt modüllerden oluşan çok önemli bir modül olan NLTK tokenize cümlelere sahiptir.
- kelime belirtmek
- cümle belirtmek
Kelimelerin simgeselleştirilmesi
Bir cümleyi kelimelere bölmek için word_tokenize () yöntemini kullanıyoruz . Kelime belirtme işleminin çıktısı, makine öğrenimi uygulamalarında metnin daha iyi anlaşılması için Veri Çerçevesine dönüştürülebilir. Ayrıca, noktalama işaretlerini kaldırma, sayısal karakter kaldırma veya kök bulma gibi diğer metin temizleme adımları için girdi olarak sağlanabilir. Makine öğrenimi modellerinin eğitilmesi ve bir tahmin yapabilmesi için sayısal verilere ihtiyacı vardır. Kelime şifreleme, metnin (dizenin) sayısal veri dönüşümüne önemli bir parçası haline gelir. Lütfen Bag of Words veya CountVectorizer hakkında bilgi edinin. Teoriyi daha iyi anlamak için lütfen aşağıdaki kelime belirteci NLTK örneğine bakın.
from nltk.tokenize import word_tokenizetext = "God is Great! I won a lottery."print(word_tokenize(text))Output: ['God', 'is', 'Great', '!', 'I', 'won', 'a', 'lottery', '.']
Kod Açıklama
- word_tokenize modülü NLTK kütüphanesinden içe aktarılır.
- Bir değişken "metin" iki cümleyle başlatılır.
- Metin değişkeni word_tokenize modülüne aktarılır ve sonuç yazdırılır. Bu modül, çıktıda görebileceğiniz noktalama işaretleriyle her kelimeyi parçalar.
Cümlelerin Simgeleştirilmesi
Yukarıdakiler için mevcut olan alt modül sent_tokenize'dir. Aklınızdaki açık bir soru , kelime belirtme seçeneğine sahip olduğumuzda neden cümle belirtme işlemine ihtiyaç duyulduğudur . Cümle başına ortalama kelimeleri saymanız gerektiğini düşünün, nasıl hesaplayacaksınız? Böyle bir görevi başarmak için, oranı hesaplamak için hem NLTK cümle belirtecine hem de NLTK sözcük belirtecine ihtiyacınız var. Bu çıktı, cevap sayısal olacağından makine eğitimi için önemli bir özellik olarak hizmet eder.
Cümle belirtmenin sözcük belirteçlemeden ne kadar farklı olduğunu öğrenmek için aşağıdaki NLTK belirteç örneğini kontrol edin.
from nltk.tokenize import sent_tokenizetext = "God is Great! I won a lottery."print(sent_tokenize(text))Output: ['God is Great!', 'I won a lottery ']
Biz 12 kelime ve iki cümleyi aynı girişi için.
Programın açıklaması:
- Önceki program gibi bir satırda, sent_tokenize modülünü içe aktardı.
- Aynı cümleyi aldık. NLTK modülündeki diğer cümle belirteçleri, cümleleri ayrıştırdı ve çıktıyı gösterdi. Bu işlevin her cümleyi kırdığı açıktır.
Kelime belirteçlerinin üzerindeki Python örnekleri, kelime ve cümle belirtme işleminin mekaniğini anlamak için iyi ayar taşlarıdır.
Özet
- NLP'de simgeselleştirme, büyük miktarda metnin simge adı verilen daha küçük parçalara bölünmesi işlemidir.
- Doğal dil işleme, Metin sınıflandırması, akıllı sohbet robotu, duygusal analiz, dil çevirisi vb. Gibi uygulamalar oluşturmak için kullanılır.
- Natural Language toolkit, ayrıca alt modüllerden oluşan çok önemli bir modül olan NLTK tokenize cümlesine sahiptir.
- Bir cümleyi kelimelere bölmek için word_tokenize () yöntemini kullanıyoruz. NLTK'daki kelime belirtecinin çıktısı, makine öğrenimi uygulamalarında metnin daha iyi anlaşılması için Veri Çerçevesine dönüştürülebilir.
- Yukarıdakiler için mevcut olan alt modül sent_tokenize'dir. Python NLTK'daki cümle belirteç, makine eğitimi için önemli bir özelliktir.