Text Preprocessing:
- Tokenization → convert sentences to words
- Stop words → {he, in, of ,to, the,….} ممكن تنشأ انت ليست من الستوب ورد اللي انت عايزها وممكن بردو تنزلها جاهزة وخد بالك وانت بتستعملها علي حسب التاسك اوقات في تاسكات تعبير عن المشاعر مينفعش اشيل كل الستوب ورد زي النفي لانها هتفرق وتاسكات تانية اشيل عادي
- Stemming → we search on the base of the word this process of reducing the words to their base word stem ( this not have any meaning) also called root word or base form
{going, gone, goes} these three words your stemming is→ go
هنا بيشيل الزائد من الكلمة فمش دايما بيرجع كمان كلمات صحيحة في المعجم او كلمات معبرة عن الكلمة اصلا زي
studies → studi
⇒ Advantages → stemming is really fast because it decrease the different words
⇒ Disadvantages → it’s remove the meaning of word because it convert it to base
⇒ Use cases→ Spam Classification
→ Review Classification
- Lemmatization → convert words to meaningful word
وبيهتم انه يرجع معني الكلمة Wordnetهنا بقي بيحول الكلمة لاصلها في المعجم وبيحتاج معاه قاموس زي
فبياخد باله ان كانت صفة ولا اسم ولا فعل وكدا
⇒ Advantages → return meaningful words
⇒ Disadvantage → is slow
⇒ Use cases → Text Summarization
→ Language Translation
→ Chat Bot