Pastein: import nltk from nltk.tokenize import word_tokenize # Если данные для русского языка ещё не загружены, раскомментировать строку ни

Загрузка данных

import nltk
from nltk.tokenize import word_tokenize

# Если данные для русского языка ещё не загружены, раскомментировать строку ниже:
# nltk.download('punkt_tab')

text = "Привет, мир! Я изучаю NLP."

# Токенизация на слова с указанием русского языка
tokens = word_tokenize(text, language='russian')

# Выводим полученный список токенов
print(tokens)




import nltk
from nltk.tokenize import sent_tokenize

# Если данные для русского языка ещё не загружены, раскомментировать строку ниже:
# nltk.download('punkt_tab')

text = "Сегодня хороший день. Завтра будет дождь."

# Токенизация на предложения с указанием русского языка
sentences = sent_tokenize(text, language='russian')

# Выводим полученный список предложений
print(sentences)

Больше возможностей при регистрации: