recs_searcher.preprocessing package
Submodules
recs_searcher.preprocessing._base_clear module
Алгоритмы для чистки текста.
- class recs_searcher.preprocessing._base_clear.RemoveEmoji[исходный код]
Базовые классы:
BaseTransformationАлгоритм удаляет все эмодзи из текста.
- _abc_impl = <_abc._abc_data object>
- _transform(array: List[str]) List[str][исходный код]
Преобразование, применяемое к каждому текстовому элементу списка array.
Параметры
- arrayList[str]
Список с текстом, который нужно преобразовать. Например, [„Hello! My nam3 is Harry :)“, „Понятно, а я Рон.“].
Returns
- array: List[str]
Список с применёнными преобразованиями текста.
- class recs_searcher.preprocessing._base_clear.RemoveHTML[исходный код]
Базовые классы:
BaseTransformationАлгоритм удаляет всю HTML-разметку из текста.
- _abc_impl = <_abc._abc_data object>
- _transform(array: List[str]) List[str][исходный код]
Преобразование, применяемое к каждому текстовому элементу списка array.
Параметры
- arrayList[str]
Список с текстом, который нужно преобразовать. Например, [„Hello! My nam3 is Harry :)“, „Понятно, а я Рон.“].
Returns
- array: List[str]
Список с применёнными преобразованиями текста.
- class recs_searcher.preprocessing._base_clear.RemoveNumber[исходный код]
Базовые классы:
BaseTransformationАлгоритм удаляет все числа из текста.
- _abc_impl = <_abc._abc_data object>
- _transform(array: List[str]) List[str][исходный код]
Преобразование, применяемое к каждому текстовому элементу списка array.
Параметры
- arrayList[str]
Список с текстом, который нужно преобразовать. Например, [„Hello! My nam3 is Harry :)“, „Понятно, а я Рон.“].
Returns
- array: List[str]
Список с применёнными преобразованиями текста.
- class recs_searcher.preprocessing._base_clear.RemovePunct[исходный код]
Базовые классы:
BaseTransformationАлгоритм удаляет все пунктуационные знаки из текста.
- _abc_impl = <_abc._abc_data object>
- _transform(array: List[str]) List[str][исходный код]
Преобразование, применяемое к каждому текстовому элементу списка array.
Параметры
- arrayList[str]
Список с текстом, который нужно преобразовать. Например, [„Hello! My nam3 is Harry :)“, „Понятно, а я Рон.“].
Returns
- array: List[str]
Список с применёнными преобразованиями текста.
- class recs_searcher.preprocessing._base_clear.RemoveURL[исходный код]
Базовые классы:
BaseTransformationАлгоритм удаляет все ссылки из текста.
- _abc_impl = <_abc._abc_data object>
- _transform(array: List[str]) List[str][исходный код]
Преобразование, применяемое к каждому текстовому элементу списка array.
Параметры
- arrayList[str]
Список с текстом, который нужно преобразовать. Например, [„Hello! My nam3 is Harry :)“, „Понятно, а я Рон.“].
Returns
- array: List[str]
Список с применёнными преобразованиями текста.
- class recs_searcher.preprocessing._base_clear.RemoveWhitespace[исходный код]
Базовые классы:
BaseTransformationАлгоритм удаляет все лишние пробелы в тексте.
- _abc_impl = <_abc._abc_data object>
- _transform(array: List[str]) List[str][исходный код]
Преобразование, применяемое к каждому текстовому элементу списка array.
Параметры
- arrayList[str]
Список с текстом, который нужно преобразовать. Например, [„Hello! My nam3 is Harry :)“, „Понятно, а я Рон.“].
Returns
- array: List[str]
Список с применёнными преобразованиями текста.
- class recs_searcher.preprocessing._base_clear.SpacyClear(spacy_model_name: str, remove_punct: bool = True, remove_url: bool = True, remove_email: bool = True, remove_digit: bool = True, remove_quote: bool = True, remove_num: bool = True, remove_space: bool = True)[исходный код]
Базовые классы:
BaseTransformationСборный алгоритм предобработки текстовых данных, основанный на библиотеке Spacy.
- _abc_impl = <_abc._abc_data object>
- _transform(array: List[str]) List[str][исходный код]
Преобразование, применяемое к каждому текстовому элементу списка array.
Параметры
- arrayList[str]
Список с текстом, который нужно преобразовать. Например, [„Hello! My nam3 is Harry :)“, „Понятно, а я Рон.“].
Returns
- array: List[str]
Список с применёнными преобразованиями текста.
- class recs_searcher.preprocessing._base_clear.TextLower[исходный код]
Базовые классы:
BaseTransformationАлгоритм привод текст к нижнему регистру.
- _abc_impl = <_abc._abc_data object>
- _transform(array: List[str]) List[str][исходный код]
Преобразование, применяемое к каждому текстовому элементу списка array.
Параметры
- arrayList[str]
Список с текстом, который нужно преобразовать. Например, [„Hello! My nam3 is Harry :)“, „Понятно, а я Рон.“].
Returns
- array: List[str]
Список с применёнными преобразованиями текста.
recs_searcher.preprocessing._base_normalize module
Алгоритмы для нормализации текста.
- class recs_searcher.preprocessing._base_normalize.LemmatizeSpacy(spacy_model_name: str)[исходный код]
Базовые классы:
BaseTransformationАлгоритм лемматизации слов с помощью Spacy-моделей.
- _abc_impl = <_abc._abc_data object>
- _transform(array: List[str]) List[str][исходный код]
Преобразование, применяемое к каждому текстовому элементу списка array.
Параметры
- arrayList[str]
Список с текстом, который нужно преобразовать. Например, [„Hello! My nam3 is Harry :)“, „Понятно, а я Рон.“].
Returns
- array: List[str]
Список с применёнными преобразованиями текста.
- class recs_searcher.preprocessing._base_normalize.RemoveStopwordsSpacy(spacy_model_name: str)[исходный код]
Базовые классы:
BaseTransformationАлгоритм удаления стоп-слов с помощью Spacy-моделей.
- _abc_impl = <_abc._abc_data object>
- _transform(array: List[str]) List[str][исходный код]
Преобразование, применяемое к каждому текстовому элементу списка array.
Параметры
- arrayList[str]
Список с текстом, который нужно преобразовать. Например, [„Hello! My nam3 is Harry :)“, „Понятно, а я Рон.“].
Returns
- array: List[str]
Список с применёнными преобразованиями текста.