Мне нужно повторить эксперимент. Эксперимент проводился на python 2.7 и spacy 1.8.2. Следующий сниппет дает разные результаты:

for raw_doc in spam + ham:
    doc = self.nlp(raw_doc)
    docs.append(' '.join(
        [token.lemma_ for token in doc if (token.is_alpha and not (token.is_oov or token.is_stop))]))

В среде Python 3.7 параметр token.is_oov всегда True, что приводит к пустому выбору. В то время как Spacy 1.8.2 дает приемлемый результат. Словарь здесь важен для идентичного повторения.

Сейчас я хочу повторить эксперимент в python 3.7 и spacy 2.3. Что мне теперь делать?


Я должен признать, что мой вопрос не очень хорошо сформулирован. Я допустил ошибки при установке языкового пакета spacy. Ссылка (https://github.com/explosion/spacy-models) является хорошей ссылкой.

Ответы (2)

Попробуйте получить старую версию модели en_core_web_sm 1.2.0, которая использовалась со старой либой spacy, с сайта https://github.com/explosion/spacy-models. Все старые модели spacy и en_core..models заархивированы там.

В интересующей вас среде попробуйте:

import en_core_web_sm
en_core_web_sm.__file__

2022 WebDevInsider