import nltk
from nltk.tokenize import word_tokenize
# Если данные для русского языка ещё не загружены, раскомментировать строку ниже:
# nltk.download('punkt_tab')
text = "Привет, мир! Я изучаю NLP."
# Токенизация на слова с указанием русского языка
tokens = word_tokenize(text, language='russian')
# Выводим полученный список токенов
print(tokens)
import nltk
from nltk.tokenize import sent_tokenize
# Если данные для русского языка ещё не загружены, раскомментировать строку ниже:
# nltk.download('punkt_tab')
text = "Сегодня хороший день. Завтра будет дождь."
# Токенизация на предложения с указанием русского языка
sentences = sent_tokenize(text, language='russian')
# Выводим полученный список предложений
print(sentences)