Метод за прегръщане на лицето Filter().

Metod Za Pregr Sane Na Liceto Filter



Hugging Face има няколко модела и набори от данни за обработка на естествен език (NLP). Тези огромни масиви от данни съдържат много информация, която помага за точното обучение на модела. Понякога обаче не се нуждаем от целия набор от данни, защото се нуждаем само от малка част от него, за да отговорим на текущите си нужди. Ако искаме да използваме същия набор от данни, както обикновено, с цялата информация, обучението и оптимизацията на модела отнемат много време, което е загуба на време.

И така, имаме нужда от някакъв метод или пакет, който може да извлече съответната информация от наборите от данни. На прост език можем да кажем, че се нуждаем от допълнителна опция за филтриране, за да филтрираме наборите от данни според нашите изисквания.

Hugging Face предоставя различни опции за филтриране на наборите от данни, което помага на потребителите да създават персонализирани набори от данни, които съдържат само примери или информация, която отговаря на конкретни условия.







Метод Select().

Този метод работи със списък от индекси, което означава, че трябва да дефинираме списък. В този списък трябва да споменем всички стойности на индекса на тези редове, които искаме да извлечем. Но този метод работи само за малки набори от данни, а не за огромни набори от данни, тъй като не можем да видим целия набор от данни, ако е в GB (гига байтове) или TB (тера байтове).



Пример :

нов_набор от данни = набор от данни. изберете ( [ 0 , единадесет , двадесет и едно , Четири пет , петдесет , 55 ] )

печат ( само ( нов_набор от данни ) )

В този пример използвахме метода „избор“, за да филтрираме необходимата информация от набора от данни.



Метод Filter().

Методът filter() преодолява проблемите с процеса select(), тъй като няма конкретно условие. Методът filter() връща всички редове, които отговарят на определена ситуация или условие.





Пример: Ние запазваме тази програма на Python с името „test.py“.

от набори от данни импортиране load_dataset

# Стъпка 1: Заредете набора от данни
набор от данни = load_dataset ( 'imdb' )

# Стъпка 2: Дефинирайте функцията за филтриране
деф персонализиран_филтър ( пример ) :
'''
Персонализирана функция за филтриране за запазване на положителни примери
настроение (етикет == 1).
'''

връщане пример [ 'етикет' ] == 1

# Стъпка 3: Приложете филтъра, за да създадете нов филтриран набор от данни
филтриран_набор от_данни = набор от данни. филтър ( персонализиран_филтър )

# Стъпка 4: Проверете наличните имена на колони във филтрирания набор от данни
печат ( „Налични колони във филтрирания набор от данни:“ ,
филтриран_набор от_данни. имена на колони )

# Стъпка 5: Достъп до информация от филтрирания набор от данни
филтрирани_примери = филтриран_набор от_данни [ 'влак' ]
брой_филтрирани_примери = само ( филтрирани_примери )

# Стъпка 6: Отпечатайте общия брой филтрирани примери
печат ( „Общо филтрирани примери:“ , брой_филтрирани_примери )

Изход:



Обяснение:

Ред 1: Импортираме необходимия пакет load_dataset от наборите от данни.

Ред 4: Зареждаме набора от данни „imdb“, използвайки load_dataset.

Редове от 7 до 12: Дефинираме функцията за персонализирано филтриране персонализиран_филтър за да запазите примерите с положително настроение (етикет == 1). Тази функция връща само онези редове, чиято стойност на етикет е 1.

Ред 15: Този ред показва, че наборът от данни има данните за преглед на филма „imdb“. Сега прилагаме филтърната функция към тази база данни, за да отделим положителните отзиви от базата данни, която допълнително се съхранява във „filtered_dataset“.

Редове 18 и 19: Сега проверяваме какви имена на колони са налични във filtered_dataset. И така, кодът „filtered_dataset.column_names“ предоставя подробности за нашите изисквания.

Редове 22 и 23: В тези редове филтрираме колоната „влак“ на filtered_dataset и отпечатваме общия брой (дължина) на колоната с влак.

Ред 26: В този последен ред отпечатваме резултата от ред номер 23.

Filter() с индекси

Методът filter() може да се използва и с индекси, както се вижда в режим select(). Но за това трябва да споменем, че ключовата дума „with_indices=true“ трябва да бъде посочена извън метода filter(), както е показано в следния пример:

нечетен_набор от_данни = набор от данни. филтър ( ламбда пример , idx: idx % 2 != 0 , с_индекси = Вярно )

печат ( само ( нечетен_набор от_данни ) )

В този пример използвахме метода filter(), за да филтрираме необходимата информация от набора от данни, включително само онези редове, които са странни.

Пълните подробности за всеки параметър на метода filter() можете да намерите тук връзка .

Заключение

Библиотеката с набори от данни Hugging Face предоставя мощен и лесен за използване набор от инструменти за ефективна работа с различни набори от данни, особено в контекста на обработката на естествен език (NLP) и задачи за машинно обучение. Функцията filter(), представена в програмата, позволява на изследователите и практиците да извличат съответните подгрупи от данни чрез дефиниране на дефинирани от потребителя критерии за филтриране. Използвайки тази функционалност, потребителите могат без усилие да създават нови набори от данни, които отговарят на специфични условия, като поддържане на положителни настроения във филмови ревюта или извличане на конкретни текстови данни.

Тази демонстрация стъпка по стъпка илюстрира колко лесно е да заредите набор от данни, да приложите персонализираните функции за филтриране и да получите достъп до филтрираните данни. В допълнение, гъвкавостта на функционалните параметри позволява персонализирани операции за филтриране, включително поддръжка за многократна обработка за големи набори от данни. С библиотеката с набор от данни Hugging Face потребителите могат да рационализират своите данни.