recs_searcher.preprocessing package

Submodules

recs_searcher.preprocessing._base_clear module

Алгоритмы для чистки текста.

class recs_searcher.preprocessing._base_clear.RemoveEmoji[исходный код]

Базовые классы: BaseTransformation

Алгоритм удаляет все эмодзи из текста.

_abc_impl = <_abc._abc_data object>
_transform(array: List[str]) List[str][исходный код]

Преобразование, применяемое к каждому текстовому элементу списка array.

Параметры

arrayList[str]

Список с текстом, который нужно преобразовать. Например, [„Hello! My nam3 is Harry :)“, „Понятно, а я Рон.“].

Returns

array: List[str]

Список с применёнными преобразованиями текста.

class recs_searcher.preprocessing._base_clear.RemoveHTML[исходный код]

Базовые классы: BaseTransformation

Алгоритм удаляет всю HTML-разметку из текста.

_abc_impl = <_abc._abc_data object>
_transform(array: List[str]) List[str][исходный код]

Преобразование, применяемое к каждому текстовому элементу списка array.

Параметры

arrayList[str]

Список с текстом, который нужно преобразовать. Например, [„Hello! My nam3 is Harry :)“, „Понятно, а я Рон.“].

Returns

array: List[str]

Список с применёнными преобразованиями текста.

class recs_searcher.preprocessing._base_clear.RemoveNumber[исходный код]

Базовые классы: BaseTransformation

Алгоритм удаляет все числа из текста.

_abc_impl = <_abc._abc_data object>
_transform(array: List[str]) List[str][исходный код]

Преобразование, применяемое к каждому текстовому элементу списка array.

Параметры

arrayList[str]

Список с текстом, который нужно преобразовать. Например, [„Hello! My nam3 is Harry :)“, „Понятно, а я Рон.“].

Returns

array: List[str]

Список с применёнными преобразованиями текста.

class recs_searcher.preprocessing._base_clear.RemovePunct[исходный код]

Базовые классы: BaseTransformation

Алгоритм удаляет все пунктуационные знаки из текста.

_abc_impl = <_abc._abc_data object>
_transform(array: List[str]) List[str][исходный код]

Преобразование, применяемое к каждому текстовому элементу списка array.

Параметры

arrayList[str]

Список с текстом, который нужно преобразовать. Например, [„Hello! My nam3 is Harry :)“, „Понятно, а я Рон.“].

Returns

array: List[str]

Список с применёнными преобразованиями текста.

class recs_searcher.preprocessing._base_clear.RemoveURL[исходный код]

Базовые классы: BaseTransformation

Алгоритм удаляет все ссылки из текста.

_abc_impl = <_abc._abc_data object>
_transform(array: List[str]) List[str][исходный код]

Преобразование, применяемое к каждому текстовому элементу списка array.

Параметры

arrayList[str]

Список с текстом, который нужно преобразовать. Например, [„Hello! My nam3 is Harry :)“, „Понятно, а я Рон.“].

Returns

array: List[str]

Список с применёнными преобразованиями текста.

class recs_searcher.preprocessing._base_clear.RemoveWhitespace[исходный код]

Базовые классы: BaseTransformation

Алгоритм удаляет все лишние пробелы в тексте.

_abc_impl = <_abc._abc_data object>
_transform(array: List[str]) List[str][исходный код]

Преобразование, применяемое к каждому текстовому элементу списка array.

Параметры

arrayList[str]

Список с текстом, который нужно преобразовать. Например, [„Hello! My nam3 is Harry :)“, „Понятно, а я Рон.“].

Returns

array: List[str]

Список с применёнными преобразованиями текста.

class recs_searcher.preprocessing._base_clear.SpacyClear(spacy_model_name: str, remove_punct: bool = True, remove_url: bool = True, remove_email: bool = True, remove_digit: bool = True, remove_quote: bool = True, remove_num: bool = True, remove_space: bool = True)[исходный код]

Базовые классы: BaseTransformation

Сборный алгоритм предобработки текстовых данных, основанный на библиотеке Spacy.

_abc_impl = <_abc._abc_data object>
_transform(array: List[str]) List[str][исходный код]

Преобразование, применяемое к каждому текстовому элементу списка array.

Параметры

arrayList[str]

Список с текстом, который нужно преобразовать. Например, [„Hello! My nam3 is Harry :)“, „Понятно, а я Рон.“].

Returns

array: List[str]

Список с применёнными преобразованиями текста.

class recs_searcher.preprocessing._base_clear.TextLower[исходный код]

Базовые классы: BaseTransformation

Алгоритм привод текст к нижнему регистру.

_abc_impl = <_abc._abc_data object>
_transform(array: List[str]) List[str][исходный код]

Преобразование, применяемое к каждому текстовому элементу списка array.

Параметры

arrayList[str]

Список с текстом, который нужно преобразовать. Например, [„Hello! My nam3 is Harry :)“, „Понятно, а я Рон.“].

Returns

array: List[str]

Список с применёнными преобразованиями текста.

recs_searcher.preprocessing._base_normalize module

Алгоритмы для нормализации текста.

class recs_searcher.preprocessing._base_normalize.LemmatizeSpacy(spacy_model_name: str)[исходный код]

Базовые классы: BaseTransformation

Алгоритм лемматизации слов с помощью Spacy-моделей.

_abc_impl = <_abc._abc_data object>
_transform(array: List[str]) List[str][исходный код]

Преобразование, применяемое к каждому текстовому элементу списка array.

Параметры

arrayList[str]

Список с текстом, который нужно преобразовать. Например, [„Hello! My nam3 is Harry :)“, „Понятно, а я Рон.“].

Returns

array: List[str]

Список с применёнными преобразованиями текста.

class recs_searcher.preprocessing._base_normalize.RemoveStopwordsSpacy(spacy_model_name: str)[исходный код]

Базовые классы: BaseTransformation

Алгоритм удаления стоп-слов с помощью Spacy-моделей.

_abc_impl = <_abc._abc_data object>
_transform(array: List[str]) List[str][исходный код]

Преобразование, применяемое к каждому текстовому элементу списка array.

Параметры

arrayList[str]

Список с текстом, который нужно преобразовать. Например, [„Hello! My nam3 is Harry :)“, „Понятно, а я Рон.“].

Returns

array: List[str]

Список с применёнными преобразованиями текста.

Module contents