Pandas Dataframe Unique

Pandas Dataframe Unique



Най-популярната библиотека на Python, която се използва в науката за данни, се нарича Pandas. Той предлага на програмистите на Python високопроизводителни, лесни за употреба инструменти за анализ на данни. След като разберете основните функции и как да ги използвате, Pandas е мощен инструмент за промяна на данни. В „pandas“ стандартните методи за съхраняване на данни в таблична форма са DataFrames. Можем да използваме някои „pandas“ методи за получаване на уникалните стойности в колоната „pandas“ DataFrame. Когато трябва да получим уникални стойности в колоните на DataFrame и не искаме дублиране на стойности в колоната „pandas“ на DataFrame, можем да използваме методите, които „pandas“ предоставя за това. Нека да разгледаме такива методи в това ръководство, заедно с някои примери и изходни данни за получаване на уникални стойности в колоната „панди“ на DataFrame.

Методи за получаване на уникални стойности в колоните на DataFrame „pandas“.

Можем да използваме два метода за получаване на уникалните стойности в колоните на DataFrame „pandas“. Изпускаме дублиращите се стойности и получаваме само уникалните стойности в колоните на DataFrames. Методите, които „пандите“ предоставят за изпълнение на тази задача са:







  • Чрез използване на метода unique().
  • Чрез използване на метода drop_dupliactes().

Сега ще използваме и двата метода в кодовете на „pandas“ за получаване на уникалните стойности в колоните на DataFrame на „pandas“.



Пример # 01

Приложението „Spyder“ се използва тук за генериране на тези „pandas“ кодове, за да използва тези методи, които ни помагат да получим уникалните стойности в колоните на „pandas“ DataFrame. Трябва да импортираме модулите „pandas“, които са необходими за кода „pandas“, преди да създадем DataFrame. Използвайки термина „импортиране“ и поставяйки „панди като pd“, ние импортираме тези модули.



Сега, с помощта на „pd“, можем бързо да получим функциите или методите „pandas“. След това поставяме „Subject_data“, в който добавяме „Име“, а в „Име“ добавяме данните за името, които са „Роман, Уилям, Питър, Смит, Джон, Мили, Томас и Джеймс“. След това добавяме данните за темата в „Subj“, които са „Математика, Икономика, Наука, Математика, Статистика, Статистика, Статистика и Компютър“. След това преобразуваме тези „Subject_data“ в „Subject_df“ DataFrame, като използваме метода „pd.DataFrame()“. Поставяме „Subject_df“ в метода „print()“, така че да се показва на терминала.





Сега искаме да получим уникалните стойности в колоната „Subj“ на „pandas“ DataFrame. За тази цел тук използваме метода „unique()“ и добавяме името на колоната, а също и името на DataFrame, както е показано по-долу. Добавяме този метод в „print()“, така че резултатът да се показва и на терминала.



Сега натискаме „Shift+Enter“, за да получим резултата от този код и той се изобразява на терминала и също е показан тук, който съдържа DataFrame с всички стойности. Това е оригиналният DataFrame, който добавихме в кода и под него се показват уникалните стойности на колоната „Subj“. Той премахва дублиращите се стойности и показва уникалните стойности на колоната „Subj“ на DataFrame.

Пример # 02

Ние създаваме „Sample_list“, който съдържа известна информация. Вмъкваме „Лейла, 21, 28, 31, 14 и 39“, която ще се появи като първата колона, когато преобразуваме този списък в DataFrame. След това добавяме „Lusy, 31, 25, 34, 26 и 21“ като втория ред на DataFrame. След това имаме „Петър, 38, 20, 20, 35 и 24“ и „Лейла 38, 23, 39 24, 23“, които ще бъдат третият и четвъртият ред на DataFrame. Също така вмъкваме още три данни, които са „Стела, 21, 24, 24, 28, 31“, „Лейла, 33, 32, 26, 30, 25“ и също „Питър, 21, 21, 31, 21, 29“ .

Сега преобразуваме „Sample_list“ в „DF_Sample“, което е името на DataFrame тук, като поставим функцията „pd.DataFrame()“. Също така задаваме името на колоните на тази DataFrame и тези имена са „Име, Ass_1, Ass_2, Ass_3, Ass_4 и Ass_5“. След това използваме „print()“, който помага при показването на DataFrame „DF_Sample“. Сега използваме друг метод в този пример за получаване на уникалните стойности в колоната на DataFrame. Този метод е методът „drop_duplicates()“ на „pandas“.

В метода „drop_duplicates()“ задаваме името на колоната, където искаме да получим уникалните стойности в колоната на DataFrame. Получаваме уникални стойности на колоната „Име“, като изпускаме дублиращите се стойности в тази колона с помощта на метода „drop_duplicates()“ и рендираме тези уникални стойности с помощта на функцията „print()“ тук.

Имената, които се дублират, се премахват и уникалните стойности се изобразяват след прилагане на метода „drop_duplicates()“. Можете да забележите, че името „Лейла“ се появява в три клетки на колоната „Име“. Но когато методът „drop_duplicates()“ се приложи към тази колона, всички дублиращи се стойности се премахват и едно име „Layla“ се появява на екрана. След премахване на дублиращите се стойности се появи новата DataFrame, която съдържа уникалните стойности в тази колона „Име“. По този начин можем да премахнем дублиращите се стойности и да получим уникалната стойност в колоната на DataFrame с помощта на метода „drop_duplicates()“.

Пример # 03

Същата DataFrame се използва отново и сега прилагаме метода „unique()“ тук. С метода „unique()“ поставяме името на колоната, както и името на DataFrame, върху който искаме да приложим този метод „unique()“ за получаване на уникалните стойности. Това ще изобрази само уникалните стойности на тази колона и няма да покаже тези стойности под формата на DataFrame.

Тук DataFrame съдържа седем стойности в колоната „Име“, но когато приложим метода „unique()“ към тази колона, се появяват само четири стойности и това са уникалните стойности на тази колона. Не рендира дублирани стойности.

Пример # 04

DataFrame, който създаваме в този пример, е „F_G_df“. Вмъкваме „My_fruits“ и „my_Vegs“ в този DataFrame. Колоната „My_fruits“ съдържа „Ябълка, портокал, ябълка, круша, личи, ябълка, ябълка, круша и ябълка“. След това имаме „My_Vegs“, който съдържа имената на зеленчуците, които са „Chilli, Bringle, Carrot, Potato, Potato, Carrot, Onion, Garlic и Ginger“. Тази DataFrame съдържа само две колони.

Сега получаваме уникалните стойности и в двете колони с помощта на метода „unique()“. Споменаваме името на DataFrame. След това поставете първото име на колоната. След това използваме метода append(). В това приложение отново поставяме името на DataFrame и името на втората колона и поставяме метода „unique()“. Това ще получи уникалните стойности на двете колони и след това ще добави уникалните стойности на двете колони и ще ги покаже на екрана.

Първо се визуализира DataFrame, съдържащ всички стойности. След това се прилага методът „unique()“ и уникалните стойности на двете колони се изобразяват по-долу. В този код получаваме уникалните стойности в множеството колони на DataFrame, като използваме метода „unique()“.

Заключение

Пълното обяснение за получаване на уникалните стойности в колоната на DataFrame се намира в това ръководство. Обсъдихме методите „unique()“ и „drop_duplicates()“, които ни помагат да получим уникалните стойности на колоната на DataFrame. Проучихме как да използваме тези методи в кода „pandas“, като използваме тези методи тук в нашите кодове. Ние илюстрирахме различни примери в това ръководство и ви показахме как да получите уникалните стойности на една колона, като използвате метода „unique()“, както и метода „drop_duplicates()“. Също така проучихме как да получим уникалните стойности в множество колони, като използваме метода „unique()“ в това ръководство.