Как да използвате Tokenizers в Hugging Face Transformers?

Обработката на естествен език (NLP) работи върху необработената форма на данните. Моделите за машинно обучение се обучават върху сложни данни, но не могат да разберат необработените данни. Тази необработена форма на данни трябва да има някаква числена стойност, свързана с нея. Тази стойност определя стойността и важността на думата в данните и на тази база се извършват изчисления.

Тази статия предоставя ръководство стъпка по стъпка за използването на Tokenizers в Hugging Face Transformers.

Какво е токенизатор?

Tokenizer е важна концепция на НЛП и основната му цел е да преведе необработения текст в числа. За тази цел съществуват различни техники и методологии. Заслужава обаче да се отбележи, че всяка техника служи за определена цел.
Как да използвате Tokenizers в Hugging Face Transformers?

Как да използвате Tokenizers в Hugging Face Transformers?

Библиотеката на токенизатора трябва първо да бъде инсталирана, преди да я използвате и да импортирате функции от нея. След това обучете модел с помощта на AutoTokenizer и след това осигурете вход за извършване на токенизация.

Hugging Face въвежда три основни категории токенизация, които са дадени по-долу:

Токенизатор, базиран на думи
Токенизатор, базиран на знаци
Токенизатор, базиран на поддуми

Ето ръководство стъпка по стъпка за използване на Tokenizers в Transformers:

Стъпка 1: Инсталирайте Transformers
За да инсталирате трансформатори, използвайте командата pip в следната команда:

! пип Инсталирай трансформатори

Стъпка 2: Импортиране на класове
От трансформатори, внос тръбопровод , и AutoModelForSequenceClassification библиотека за извършване на класификация:

от тръбопровод за импортиране на трансформатори, AutoModelForSequenceClassification

Стъпка 3: Импортиране на модел
„ AutoModelForSequenceClassification ” е метод, който принадлежи към Auto-Class за токенизация. The from_pretrained() се използва за връщане на правилния клас на модела въз основа на типа на модела.

Тук сме посочили името на модела в „ modelname ” променлива:

modelname = 'distilbert-base-uncased-finetuned-sst-2-английски'
pre_trainingmodel =AutoModelForSequenceClassification.from_pretrained ( modelname )

Стъпка 4: Импортирайте AutoTokenizer
Въведете следната команда за генериране на токени чрез предаване на „ modelname ” като аргумент:

от трансформатори импортирайте AutoTokenizer

генерирания токен =AutoTokenizer.from_pretrained ( modelname )

Стъпка 5: Генерирайте токен
Сега ще генерираме жетони върху изречение „Обичам добрата храна“ с помощта на „ генерирания токен ” променлива:

думи =generatetoken ( „Обичам добрата храна“ )
печат ( думи )

Резултатът е даден, както следва:

Кодът към горното Google Co е дадено тук.

Заключение

За да използвате Tokenizers в Hugging Face, инсталирайте библиотеката с помощта на командата pip, обучете модел с помощта на AutoTokenizer и след това предоставете входа за извършване на токенизация. Като използвате токенизация, присвоете тегла на думите, въз основа на които са подредени, за да запазите значението на изречението. Този резултат също определя тяхната стойност за анализ. Тази статия е подробно ръководство за това как да използвате Tokenizers в Hugging Face Transformers.

Как да използвате Tokenizers в Hugging Face Transformers?

Какво е токенизатор?

Как да използвате Tokenizers в Hugging Face Transformers?

Заключение

Категория

Популярни Публикации

Как да промените изображението при задържане на мишката с помощта на CSS

Как да овърклокнете GPU и CPU на Raspberry Pi.

Как да използвате функцията PHP date_sunrise() и date_sunset().

Как да изтриете хранилище в GitHub

Как да актуализирате драйверите на NVIDIA на Ubuntu 22.04 LTS

Как мога да използвам заместващи символи за `cp` на група файлове с AWS CLI

Как да инсталирате Roblox на Linux Mint 21

Как да наименувате или преименувате Docker контейнери

Пандите и състоянието

Как да създадете разширение за Chrome

Как да инсталирате CMake на Fedora Linux

Как да SSH в екземпляр на EC2

Как да създадете настолни приложения с помощта на Windows Forms

Как да импортирам уеб шрифт на Google в CSS?

Как да промените услугата Systemd

Numpy Празен масив

Филтърни изрази на DynamoDB: Всичко, което трябва да знаете

Как да изберете произволни редове от матрица в MATLAB?

SQL Server Създаване на база данни

Как да възстановите изгубената парола за вход в Roblox