词形还原 Lemmatization

在英文当中,一些词会在不同的情况中有不同的形态:名词有单复数,动词有时态和语态,形容词有比较级。而在自然语言处理的一些场景中,这种形态的差异是没有意义的甚至有干扰作用,需要将不同形态的词转换为其 原型 ,这种处理就称为 “词形还原(Lemmatization/Lemmatisation)” ,得到的原型被称为 “词元(Lemma)” 。

https://github.com/michmech/lemmatization-lists

有不同语言的列表