Какво представляват списъците за обхождане в AWS?

Данните оказаха огромно влияние върху растежа на компаниите, тъй като много от тях силно зависят от тях, за да получат прозрения чрез това. Метаданните са данните за данните, които обясняват данните, така че данните да могат да се използват за извличане на максимална информация от тях. Метаданните съдържат информация като местоположението на данните, структура на схемата, тип данни или неща като собственик на данни.

Това ръководство ще обясни роботите за списъци в AWS.

Какво представляват списъците за обхождане в AWS?

Crawler е компонент на AWS Glue, който се използва за обхождане на местоположението на данните и извежда тази информация обратно в каталога. Информацията, която роботът събира, може да бъде типове данни на данните, структура на схема или с други думи, той събира метаданни. Crawler може да се използва и с каталога с данни, който се използва, когато данните се преместват в Glue екосистемата, докато се използват ETL задания и др.

Какво представлява Amazon Glue Service?

AWS Glue е услуга на Amazon Extract Transform and Load, която позволява на потребителя да организира, локализира, премества и трансформира всички данни. AWS Glue е без сървър, тъй като потребителят не изисква да осигурява и конфигурира сървърите или да управлява жизнените цикли. Каталогът с данни и роботите са компонентите на AWS Glue, който действа като постоянно хранилище на метаданни:

Как да създадете робот на AWS?

За да създадете робот в AWS, посетете услугата AWS Glue от конзолата за управление на AWS:

Насочете се към „ Обхождащи машини ”, като щракнете върху името й от левия панел:

Кликнете върху „ Създаване на робот ” бутон:

Въведете името на робота и щракнете върху „ Следващия ” бутон:

Изберете опцията за картографиране за залепващи таблици и щракнете върху „ Добавете източник ”, за да получите данни от:

Изберете услугата S3 и щракнете върху „ Прегледайте S3 ”, за да получите местоположението на източника:

Просто изберете папката S3 и щракнете върху „ Избирам ” бутон:

След като местоположението бъде добавено към източника, просто щракнете върху „ Добавете източник на данни S3 ” бутон:

Кликнете върху „ Следващия ” бутон:

Кликнете върху „ Създайте нова IAM роля ” от бутона „ Конфигурирайте настройките за сигурност ” раздел:

Въведете името на ролята и щракнете върху „ Създавайте ” бутон:

След това просто щракнете върху „ Следващия ” бутон:

Изберете целевата база данни и въведете името, което ще се използва за таблицата:

Планирайте робота за „ При поискване “ и щракнете върху „ Следващия ” бутон:

Прегледайте конфигурацията и щракнете върху „ Създаване на робот ” бутон:

Роботът е създаден успешно и може да се използва за извличане на данните от източника, като щракнете върху „ Бягай ” бутон:

Това е всичко за обхождащите списъци в AWS.

Заключение

ListCrawler е компонентът на услугата AWS Glue, който може да се използва за обхождане на информация от източници и връщане към каталога. Каталозите с данни и роботите могат да се използват за събиране на данни за получаване на информация за данните, която е известна като метаданни. Потребителят може също да създаде робот от AWS Glue, за да получи данни от услугата S3 или други източници и да постави създадени таблици в базата данни. Това ръководство обяснява ListCrawlers в AWS и как да ги създадете.

Какво представляват списъците за обхождане в AWS?