Как да използвате Tokenizers в Hugging Face Transformers?

Kak Da Izpolzvate Tokenizers V Hugging Face Transformers



Обработката на естествен език (NLP) работи върху необработената форма на данните. Моделите за машинно обучение се обучават върху сложни данни, но не могат да разберат необработените данни. Тази необработена форма на данни трябва да има някаква числена стойност, свързана с нея. Тази стойност определя стойността и важността на думата в данните и на тази база се извършват изчисления.

Тази статия предоставя ръководство стъпка по стъпка за използването на Tokenizers в Hugging Face Transformers.

Какво е токенизатор?

Tokenizer е важна концепция на НЛП и основната му цел е да преведе необработения текст в числа. За тази цел съществуват различни техники и методологии. Заслужава обаче да се отбележи, че всяка техника служи за определена цел.
Как да използвате Tokenizers в Hugging Face Transformers?







Как да използвате Tokenizers в Hugging Face Transformers?

Библиотеката на токенизатора трябва първо да бъде инсталирана, преди да я използвате и да импортирате функции от нея. След това обучете модел с помощта на AutoTokenizer и след това осигурете вход за извършване на токенизация.



Hugging Face въвежда три основни категории токенизация, които са дадени по-долу:



  • Токенизатор, базиран на думи
  • Токенизатор, базиран на знаци
  • Токенизатор, базиран на поддуми

Ето ръководство стъпка по стъпка за използване на Tokenizers в Transformers:





Стъпка 1: Инсталирайте Transformers
За да инсталирате трансформатори, използвайте командата pip в следната команда:

! пип Инсталирай трансформатори



Стъпка 2: Импортиране на класове
От трансформатори, внос тръбопровод , и AutoModelForSequenceClassification библиотека за извършване на класификация:

от тръбопровод за импортиране на трансформатори, AutoModelForSequenceClassification

Стъпка 3: Импортиране на модел
AutoModelForSequenceClassification ” е метод, който принадлежи към Auto-Class за токенизация. The from_pretrained() се използва за връщане на правилния клас на модела въз основа на типа на модела.

Тук сме посочили името на модела в „ modelname ” променлива:

modelname = 'distilbert-base-uncased-finetuned-sst-2-английски'
pre_trainingmodel =AutoModelForSequenceClassification.from_pretrained ( modelname )

Стъпка 4: Импортирайте AutoTokenizer
Въведете следната команда за генериране на токени чрез предаване на „ modelname ” като аргумент:

от трансформатори импортирайте AutoTokenizer

генерирания токен =AutoTokenizer.from_pretrained ( modelname )

Стъпка 5: Генерирайте токен
Сега ще генерираме жетони върху изречение „Обичам добрата храна“ с помощта на „ генерирания токен ” променлива:

думи =generatetoken ( „Обичам добрата храна“ )
печат ( думи )

Резултатът е даден, както следва:

Кодът към горното Google Co е дадено тук.

Заключение

За да използвате Tokenizers в Hugging Face, инсталирайте библиотеката с помощта на командата pip, обучете модел с помощта на AutoTokenizer и след това предоставете входа за извършване на токенизация. Като използвате токенизация, присвоете тегла на думите, въз основа на които са подредени, за да запазите значението на изречението. Този резултат също определя тяхната стойност за анализ. Тази статия е подробно ръководство за това как да използвате Tokenizers в Hugging Face Transformers.