词干提取和词形还原
- 词干提取:
作用:去除后缀并输出词的词干。
porterStremmer/LancasterStremmer:
from nltk import PorterStemmer ,LancasterStemmer,word_tokenize
raw="My name is Maximus Decimus Meridius,commander of the armies of the North,General of the Felix legions and loyal servant to the true emperor\
,Marcus Aurelius .Father to a mudered son, husband to a murdered wife .And I will have my vengeance , in this life or the next."
token=word_tokenize(raw)
output:
porter =PorterStemmer()
pStems =[porter.stem(t) for t in token]
print(pStems)
output:
porter =LancasterStemmer()
pStems =[porter.stem(t) for t in token]
print(pStems)
output:
- 词形还原:字典匹配的过程,不仅仅是简单的去除或者替换后缀(优先使用)
from nltk import word_tokenize , PorterStemmer,WordNetLemmatizer
lemmatizer=WordNetLemmatizer()
print([lemmatizer.lemmatize(t) for t in ['armies','legions']])
output:
百锦再@新空间代码工作室: 这篇关于web安全中跨站脚本攻击XSS的文章简直是犹如一束明亮的光芒,深入浅出地解释了XSS的原理和危害,让我们对网络安全问题有了更清晰的认识。作者深入浅出地解释了XSS攻击的工作原理,为我们揭示了网络安全的重要性。这篇文章不仅让我们了解了XSS攻击的原理,更让我们认识到在网络世界中保护个人信息的重要性。感谢作者为我们提供了如此详尽而深刻的解析,期待更多的精彩文章!
ha_lydms: 我很喜欢作者对于时事的评论,总是能够给出独到的见解。
普通网友: 文章结构严谨有条,层次分明,读起来一点也不费劲,让人受益匪浅。【我也写了一些相关领域的文章,希望能够得到博主的指导,共同进步!】
CSDN-Ada助手: 多亏了你这篇博客, 解决了问题: https://ask.csdn.net/questions/7989251, 请多输出高质量博客, 帮助更多的人
山塘小鱼儿: If this is a private repository, make sure to pass a token having permission to this repo with `use_auth_token` or log in with `huggingface-cli login` and pass `use_auth_token=True`.