Skip to content

lo1ol/cv_parser

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Парсер веб-сайтов для кадрового агентства


ОПИСАНИЕ:

Парсер для веб-сайтов, получающий следующую информацию:

  • start_time: время начала работы модуля

  • main_link: сайт, который необходимо распарсить

  • company_name: название компании

  • company_links: список, который содержит ссылки на следующие страницы:

    1. Контакты (contacts)
    2. О компании (about)
    3. Вакансии (vacancies)
    4. Наша команда (staff)
  • about: краткая информация о компании

  • vacancies: список, который содержит информацию о вакансиях в компании:

    1. Название вакансии (vacancy)
    2. Информация о вакансии или требования (requirements)
    3. Опыт работы (experience)
    4. Ссылка на вакансию (link)
    5. Дата публикации вакансии (date)
  • team: список, который содержит информацию о персонале компании:

    1. Полное имя сотрудника (name)
    2. Информация о сотруднике, должность (info)
    3. Ссылка на его персональную страницу (link)
    4. Ссылка на его фото (photo)
  • emails: почтовые адреса с описанием

  • phones: телефоны с описанием

  • social_networks: социальные сети на странице со ссылками

  • messengers: мессенджеры на странице со ссылками

  • requisites: юридические реквизиты организации

  • address: список, содержащий все адреса организации

ИСПОЛЬЗОВАНИЕ:

python cv_parser.py <yourdomain> [-p|--path <example/example1.json>] [-t|--test]

-p: позволяет сохранить файл с результатом парсера в папку, указанную в аргументе

-t: режим разработчика (не рекомендуется использовать!)

Примеры JSON-файлов с выгруженными результатами находятся в папке examples:

python cv_parser.py aeroem.ru -p examples/example1.json
python cv_parser.py 2050.digital -p examples/example2.json
python cv_parser.py digitalaround.ru -p examples/example3.json

ЧТО НЕОБХОДИМО ДОДЕЛАТЬ:

  • Работа с вложенными структурами (например, страница "Контакты" имеет ссылку на подконтакт "Филиал в Новосибирске")
  • Нахождение контактов сотрудников компании

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%