Как да свържете наборите от данни в Hugging Face

Kak Da Sv Rzete Naborite Ot Danni V Hugging Face



Библиотеката „набори от данни“ от Hugging Face предоставя удобен начин за работа и манипулиране на наборите от данни за задачи за обработка на естествен език. Една полезна функция, която се предлага от библиотеката, е concatenate_datasets(), която ви позволява да свържете множество набори от данни в един набор от данни. Следва кратък преглед на функцията concatenate_datasets() и как да я използвате.

concatenate_datasets()

Описание:

Библиотеката „datasets“ на Hugging Face предоставя функцията concatenate_datasets(). Използва се за свързване на множество набори от данни, като ги комбинира в един набор от данни по определена ос. Тази функция е особено полезна, когато имате множество набори от данни, които споделят една и съща структура и искате да ги обедините в единен набор от данни за по-нататъшна обработка и анализ.







Синтаксис:



от набори от данни импортиране concatenate_datasets

конкатениран_набор от_данни = concatenate_datasets ( набори от данни , ос = 0 , инфо = Нито един )

Параметри:

набори от данни (списък с набор от данни): Списък с набори от данни, които искате да свържете. Тези набори от данни трябва да имат съвместими характеристики, което означава, че имат една и съща схема, имена на колони и типове данни.



ос (int, незадължително, default=0): Оста, по която трябва да се извърши конкатенацията. За повечето NLP набори от данни се използва стойността по подразбиране 0, което означава, че наборите от данни са свързани вертикално. Ако зададете ос = 1, наборите от данни се свързват хоризонтално, като се предполага, че имат различни колони като характеристики.





инфо (datasets.DatasetInfo, по избор): Информацията за свързания набор от данни. Ако не е предоставена, информацията се извлича от първия набор от данни в списъка.

Се завръща:

конкатениран_набор от_данни (Набор от данни): Полученият набор от данни след свързване на всички входни набори от данни.



Пример:

# Стъпка 1: Инсталирайте библиотеката с набори от данни

# Можете да го инсталирате с помощта на pip:

# !pip инсталиране на набори от данни

# Стъпка 2: Импортирайте необходимите библиотеки

от набори от данни импортиране load_dataset , concatenate_datasets

# Стъпка 3: Заредете наборите от данни за преглед на филми в IMDb

# Ще използваме два набора от данни на IMDb, единият за положителни отзиви

#и още един за отрицателни отзиви.

# Заредете 2500 положителни отзива

dataset_pos = load_dataset ( 'imdb' , разделяне = 'влак[:2500]' )

# Заредете 2500 отрицателни отзива

dataset_neg = load_dataset ( 'imdb' , разделяне = 'влак[-2500:]' )

# Стъпка 4: Свържете наборите от данни

# Свързваме двата набора от данни по ос = 0, както са направили

същата схема ( същите функции ) .

конкатениран_набор от_данни = concatenate_datasets ( [ dataset_pos , dataset_neg ] )

# Стъпка 5: Анализирайте свързания набор от данни

# За простота, нека преброим броя на положителните и отрицателните

# отзива в свързания набор от данни.

num_positive_reviews = сума ( 1 за етикет в

конкатениран_набор от_данни [ 'етикет' ] ако етикет == 1 )

брой_отрицателни_ревюта = сума ( 1 за етикет в

конкатениран_набор от_данни [ 'етикет' ] ако етикет == 0 )

# Стъпка 6: Показване на резултатите

печат ( „Брой положителни отзиви:“ , num_positive_reviews )

печат ( „Брой отрицателни отзиви:“ , брой_отрицателни_ревюта )

# Стъпка 7: Отпечатайте няколко примерни рецензии от свързания набор от данни

печат ( ' Някои примерни отзиви:' )

за аз в диапазон ( 5 ) :

печат ( f „Преглед {i + 1}: {concatenated_dataset['text'][i]}“ )

Изход:

Следното е обяснението за програмата за библиотека „набори от данни“ на Hugging Face, която обединява два набора от данни за преглед на филми IMDb. Това обяснява целта на програмата, нейното използване и стъпките, включени в кода.

Нека предоставим по-подробно обяснение на всяка стъпка в кода:

# Стъпка 1: Импортирайте необходимите библиотеки

от набори от данни импортиране load_dataset , concatenate_datasets

В тази стъпка импортираме необходимите библиотеки за програмата. Нуждаем се от функцията „load_dataset“, за да заредим наборите от данни за преглед на филми в IMDb, и „concatenate_datasets“, за да ги свържем по-късно.

# Стъпка 2: Заредете наборите от данни за преглед на филми в IMDb

# Заредете 2500 положителни отзива

dataset_pos = load_dataset ( 'imdb' , разделяне = 'влак[:2500]' )

# Заредете 2500 отрицателни отзива

dataset_neg = load_dataset ( 'imdb' , разделяне = 'влак[-2500:]' )

Тук използваме функцията „load_dataset“, за да извлечем два поднабора от набора от данни на IMDb. „dataset_pos“ съдържа 2500 положителни отзива, а „dataset_neg“ съдържа 2500 отрицателни отзива. Използваме параметъра split, за да посочим диапазона от примери за зареждане, което ни позволява да изберем подмножество от целия набор от данни.

# Стъпка 3: Свържете наборите от данни

конкатениран_набор от_данни = concatenate_datasets ( [ dataset_pos , dataset_neg ] )

В тази стъпка ние свързваме двете подмножества на набора от данни IMDb в един набор от данни, наречен „concatenated_dataset“. Използваме функцията „concatenate_datasets“ и я предаваме със списък, който съдържа двата набора от данни за конкатенация. Тъй като и двата набора от данни имат едни и същи характеристики, ние ги свързваме по ос = 0, което означава, че редовете са подредени един върху друг.

# Стъпка 4: Анализирайте свързания набор от данни

num_positive_reviews = сума ( 1 за етикет в

конкатениран_набор от_данни [ 'етикет' ] ако етикет == 1 )

брой_отрицателни_ревюта = сума ( 1 за етикет в

конкатениран_набор от_данни [ 'етикет' ] ако етикет == 0 )

Тук извършваме прост анализ на свързания набор от данни. Използваме разбирането на списъка заедно с функцията „сума“, за да преброим броя на положителните и отрицателните отзиви. Ние итерираме през етикет“ на „concatenated_dataset“ и увеличава броя всеки път, когато срещнем положителен етикет (1) или отрицателен етикет (0).

# Стъпка 5: Показване на резултатите

печат ( „Брой положителни отзиви:“ , num_positive_reviews )

печат ( „Брой отрицателни отзиви:“ , брой_отрицателни_ревюта )

В тази стъпка отпечатваме резултатите от нашия анализ – броя на положителните и отрицателните отзиви в свързания набор от данни.

# Стъпка 6: Отпечатайте няколко примерни рецензии

печат ( ' Някои примерни отзиви:' )

за аз в диапазон ( 5 ) :

печат ( f „Преглед {i + 1}: {concatenated_dataset['text'][i]}“ )

И накрая, показваме няколко примерни рецензии от свързания набор от данни. Преминаваме през първите пет примера в набора от данни и отпечатваме текстовото им съдържание, като използваме колоната „текст“.

Този код демонстрира директен пример за използване на библиотеката „набори от данни“ на Hugging Face за зареждане, свързване и анализиране на наборите от данни за преглед на филми в IMDb. Той подчертава способността на библиотеката да рационализира обработката на NLP набор от данни и демонстрира нейния потенциал за изграждане на по-сложни модели и приложения за обработка на естествен език.

Заключение

Програмата Python, която използва библиотеката „набори от данни“ на Hugging Face, успешно демонстрира свързването на два набора от данни за преглед на филми на IMDb. Като зарежда подмножествата от положителни и отрицателни отзиви, програмата ги комбинира в един набор от данни с помощта на функцията concatenate_datasets(). След това прави прост анализ, като преброява броя на положителните и отрицателните отзиви в комбинирания набор от данни.

Библиотеката „набори от данни“ опростява процеса на обработка и манипулиране на наборите от данни за НЛП, което я прави мощен инструмент за изследователи, разработчици и практикуващи НЛП. Със своя удобен за потребителя интерфейс и обширни функционалности, библиотеката позволява безпроблемна предварителна обработка, изследване и трансформация на данни. Програмата, която е показана в тази документация, служи като практически пример за това как библиотеката може да се използва за рационализиране на задачите за конкатенация и анализ на данни.

В сценарии от реалния живот тази програма може да служи като основа за по-сложни задачи за обработка на естествен език, като анализ на настроението, класификация на текст и езиково моделиране. Използвайки библиотеката „набори от данни“, изследователите и разработчиците могат ефективно да управляват мащабните набори от данни, да улеснят експериментирането и да ускорят разработването на най-съвременни модели на НЛП. Като цяло, библиотеката с „набори от данни“ на Hugging Face е основен актив в преследването на напредъка в обработката и разбирането на естествен език.