Как да създадете вграждане от списък с английски изречения

Kak Da S Zdadete Vgrazdane Ot Spis K S Anglijski Izrecenia



Замисляли ли сте се някога, когато комуникираме с нашите машини (компютри) и им даваме инструкции да изпълнят конкретна задача вместо нас, като например да извършим конкретно търсене или да преведем от един език на друг, как компютърът разбира и обработва това? Всичко това се прави чрез подполето за изкуствен интелект на обработката на естествен език. Компютърът разбира числовите стойности и техниката на НЛП за „вграждане на думи“ преобразува думата и текстовете, които даваме като вход на компютрите, в този цифров вектор, така че компютърът да може да го разпознае. Няколко други процеса на НЛП се случват извън това взаимодействие човек-компютър чрез езикови модели, но ние ще разгледаме думата вграждане подробно в това ръководство.

Синтаксис:

Различни функции попадат в обработката на естествения език за вграждане на думи в текста. Тази статия обхваща функцията „word2vec“ за тази цел. За да стане по-ясно, вграждането на думи преобразува нашите текстови входове във векторно представяне, където тези думи, които имат повече или по-малко същите контекстуални значения, са дали същото представяне.

Алгоритъмът „word2vec“ е модел на невронна мрежа, който се обучава по такъв начин, че научава вграждането на думите, като първо прогнозира контекста на думата, в който се появява. Този модел приема текста като вход. След това за всяка дума в текста се създава векторно представяне за тази дума. Този модел се основава на идеята, че думите, които изглежда имат същия контекст, имат еднакви значения. Синтаксисът за „word2vec“ е както следва:







$ Word2Vec(изречения, min_count)

Този алгоритъм има два параметъра, които са „изречения“ и „минимален_брой“. Изречението е променливата, където се съхранява списъкът с изречения или текстът под формата на изречения и minimum_count говори за стойността на броя 1, което означава, че всяка от думите в текста, която се е появила по-малко от една, трябва да бъде игнорирана .



Пример 1:

В този пример създаваме вграждания на думи за думите, които съществуват в списъка с английски изречения. За да създадем думата „вграждане“, трябва да използваме модела „word2vec“. Този модел е пакет от библиотеката „gensim“ на Python. Трябва да имаме инсталиран Gensim в нашите хранилища на библиотека на Python, за да работим с „word2vec“.



За да приложим този пример, ще работим върху онлайн компилатора на Python „google colab“. За да инсталирате gensim, използвайте командата „pip install gensim“. Това започва изтеглянето на тази библиотека с всички свързани с нея пакети. След като бъде инсталиран, импортирайте пакета „word2vector“ от gensim.





За да обучим този модел „word2vec“, трябва да създадем набор от данни за обучение. За целта създаваме списък с изречения, който съдържа четири до пет английски изречения. Ние запазваме този списък в променливата „training_data“.

Следващата ни стъпка след създаването на набора от данни за обучение е да обучим модела „word2vec“ върху тези данни. И така, наричаме модела. Ние даваме данните за обучение във входните параметри на този модел, които сме записали във променливата „вход“. След това посочваме втория параметър, който е „minimum_count“. Задаваме стойността му равна на „1“. Резултатът от този модел на обучение се записва в променливата „trained_model“.



След като приключим с обучението на модела, можем просто да получим достъп до модела с префикса „wv“, който е думата векторен модел. Можем също така да имаме достъп до речника на нашите думи на токена и да ги отпечатаме с метода, както следва:

vocabof_tokens = списък (model.wv.vocab)

Моделът представлява обучения модел в нашия случай. Сега имаме достъп до векторното представяне на една дума в списъка на изречението, което в нашия случай е „ябълка“. Ние правим това, като просто извикваме обучения модел. Предаваме думата, чието векторно представяне искаме да отпечатаме като „модел. wv [‘ябълка’]” към неговия входен аргумент. След това отпечатваме резултатите с функцията „печат“.

от като нация модели импортиране Word2Vec

тренировъчни_данни = [ [ 'ябълка' , 'е' , 'на' , 'сладка' , 'ябълка' , 'за' , 'word2vec' ] ,
[ 'това' , 'е' , 'на' , 'втори' , 'ябълка' ] ,
[ 'тук' , 'друг' , 'ябълка' ] ,
[ 'един' , 'сладка' , 'ябълка' ] ,
[ 'и' , 'Повече ▼' , 'сладка' , 'ябълка' ] ]

модел = Word2Vec ( тренировъчни_данни , min_count = 1 )
печат ( модел )
vocabof_токени = списък ( модел. wv . индекс_към_ключ )
печат ( vocabof_токени )
печат ( модел. wv [ 'ябълка' ] )

От споменатия по-рано изход и код се показва вграждането на думата за думата „ябълка“. В примера първо създадохме набор от данни за обучение. След това обучихме модел върху него и обобщихме модела. След това, използвайки модела, получихме достъп до лексиката на думите. След това показахме вграждането на думата за думата „ябълка“.

Пример 2:

Използвайки библиотеката gensim, нека създадем друг списък с изречения. Обучете нашия модел за всяка дума в изречението, за да създадете вграждане на дума с помощта на модела „word2vec“. Първо, от пакета на библиотеката gensim се импортира моделът „word2vec“. След това създаваме друг набор от данни, който ще бъде списъкът с двете изречения в него. Всяко изречение в списъка има четири думи.

Сега запазваме този списък в променливата „данни“. След това извикваме модела „word2vec()“ и подаваме данните към аргументите на този модел със стойност minimum_count, която е равна на „1“. Ето как обучаваме нашия модел. Сега той е в състояние и може да научи вграждането на думи на думите, които съществуват в изреченията, които присъстват в списъка, като предсказва контекста, в който съществуват. За да тестваме резултатите от нашия модел, ние просто предаваме дума като „куче“ в нашите данни към модела. След това отпечатваме резултатите с помощта на функцията “print()”.

от като нация модели импортиране Word2Vec
данни = [ [ 'заек' , 'има' , 'зъби' ] , [ 'куче' , 'има' , 'уши' ] ]
модел = Word2Vec ( данни , min_count = 1 )
печат ( модел. wv [ 'куче' ] )

Можем да наблюдаваме векторното представяне на думата, която подадохме към модела като негов вход от предишния фрагмент на изхода.

Заключение

Това ръководство демонстрира метода за създаване на вграждане на думи за думите, които съществуват в списъка с английски изречения. Научихме за библиотеката „gensim“ на Python, която предоставя модела „word2vec“ за създаване на вграждане на думи. Освен това научихме за входните параметри, как да обучим модела „word2vec“ върху данните за обучение и как да представим думата в представяне на вектора.