Куда сдавать сзв м в 2018 году: образец заполнения, сроки сдачи, штраф

Содержание

куда сдавать в 2019 году

Одна из форм персонифицированной отчетности – СЗВ-М. Куда сдавать этот отчет? Каков порядок сдачи, если у компании есть удаленно расположенные обособленные подразделения? На эти и другие вопросы ответим в статье.

Голова и обособки

По общему правилу форму нужно сдать в территориальное отделение Пенсионного фонда по месту учета страхователя. Куда сдавать СЗВ-М в 2019 году? В то отделение, где зарегистрирован работодатель.

Под страхователями для целей сдачи данной отчетности понимаются организации и индивидуальные предприниматели, заключившие трудовые и гражданско-правовые договоры с физическими лицами. Если в каком-то месяце компания не ведет деятельность, то это не освобождает ее от необходимости своевременно подать отчет.

С организациями, у которых нет обособленных подразделений все понятно, а куда сдавать СЗВ-М по обособленному подразделению в 2019 году? Если обособка имеет отдельный расчетный счет и начисляет вознаграждения персоналу самостоятельно, то сдавать форму нужно в территориальное отделение Пенсионного фонда по местонахождению такого подразделения.

Сдавая форму СЗВ-М за обособленное подразделение нужно указать его КПП.

В противном случае, если у обособки нет своего счета, или начисление зарплаты происходит в головном отделении, то данные по сотрудникам такого подразделения нужно включить в общий отчет по головному предприятию. В аналогичном порядке сдается СЗВ-М по подразделениям, находящимся за границей (п. 11, 14 ст. 431 НК РФ, ст. 11 Федерального закона от 15.12.2001 № 167-ФЗ). Теперь вы знаете, куда сдавать отчет СЗВ-М в различных ситуациях.

Бумага или электронка

По закону сведения о физлицах можно сдать в электронной или бумажной форме. Если количество лиц, за которых подается отчет 25 человек и более, то выбора у организации нет. Форма сдается исключительно в электронном виде по формату, утвержденному постановлением Правления ПФР от 07.12.2016 № 1077п (п. 2 ст. 8 Федерального закона от 01.04.1996 № 27-ФЗ).

Сколько бы людей не было поименовано в отчете разбивать его на пачки не нужно. Вне зависимости от количества застрахованных сведения предоставляются одним файлом.

Если число физических лиц не превышает 24 человек, то страхователь может сдать отчет на бумаге. Куда сдавать СЗВ-М? В Пенсионный фонд по месту регистрации. Данные из бухгалтерской программы лучше сохранить на флэшку. Работники Пенсионного фонда могут попросить разнести данные в специальной программе самостоятельно и только после этого примут бумажный носитель.

что сдают компании — СКБ Контур

Все компании, страхующие своих сотрудников, должны подавать информацию о них в Пенсионный фонд. Такая работа поручается либо бухгалтеру, либо отделу кадров — как именно распределить ресурсы и организовать передачу сведений в фонд, определяет сам работодатель. Сделать это можно разными способами.

Одни работодатели издают приказ о назначении ответственных за представление отчетности. В документе они конкретизируют виды отчетности, уточняют, для целей какого законодательства поручают сдавать специалистам по кадрам или бухгалтерам формы, указывают список ответственных за сдачу кадровой отчетности.

Другие работодатели выбирают более совершенный вариант — вносят все необходимые сведения (какие виды отчетности, куда и в какие сроки представлять) в должностную инструкцию работников. В этом случае работодатель руководствуется ч. 2 ст. 195.3 ТК РФ. Нормативный правовой акт может устанавливать требования квалификации в соответствии с профессиональными стандартами.

Что нужно знать о СЗВ-М

Основная цель этой формы отчетности — определить, осуществляет ли пенсионер трудовую деятельность.

П. 1 ст. 8 Федерального закона от 01.04.96 № 27-ФЗ требует, чтобы компания сдавала формы отчетности СЗВ-М, если в отчетном месяце были заключены или прекратили действие:

  • трудовые договоры;
  • договоры гражданско-правового характера на выполнение работ, оказание услуг;
  • другие виды договоров, перечисленные в п. 2.2 ст. 11 Закона о персучете.  

Обязанность сдавать отчет СЗВ-М возникает, как только появляется застрахованное лицо и с ним заключается трудовой договор или договор гражданско-правового характера, с вознаграждения за которые будут перечисляться страховые взносы.

Даже если выплат нет, трудовой или гражданско-правовой договор продолжают действовать.

Форму СЗВ-М нужно сдавать в Пенсионный фонд, даже если компания в настоящий момент не ведет деятельность, не получает доходы и у нее только один учредитель.

Как подавать форму СЗВ-М

Форма СЗВ-М утверждена Постановлением Правления ПФ РФ от 01.02.2016 № 83П.

По правилам подачи формы действуют определенные правила — они зависят от количества работников, которых нужно застраховать.

  • Если застрахованных работников 25 и больше, нужно подавать сведения только в виде электронного документа, который подписан усиленной квалифицированной электронной подписью в порядке, установленном ПФР. В противном случае на компанию может быть наложен штраф, о чем предупреждает ст. 17 Закона о персучете.
  • Если застрахованных работников 24 или меньше, сведения можно подать в электронном виде или на бумажном носителе.

Наиболее частое нарушение, которое допускают работодатели, — они забывают подать отчетность или подают ее не на всех работников.

Отчетность сдается каждый месяц не позднее 15-го числа, следующего за отчетным периодом. Если 15-е число выпадает на выходной, то сдавать отчетность нужно в ближайший рабочий день после 15-го числа.

Свободно пользуйтесь 3 месяца всеми возможностями Контур.Экстерна и Контур.НДС+. Ходить по инспекциям не нужно — Экстерн доставит ваш отчет вовремя и без ошибок.

Подключиться к «Тест-драйву»

О чем нужно помнить при увольнении работника?

Если застрахованный работник увольняется или прекращает действовать гражданско-правовой договор, работодатель-страхователь передает застрахованному лицу сведения, предусмотренные п. 2-2.3 ст. 11 Федерального закона от 01.04.96 № 27-ФЗ.

Закон не отвечает на вопрос, за какой период нужно выдавать сведения. Согласно разъяснению от Пенсионного фонда, сведения из СЗВ-М нужно отдавать только за последний отчетный месяц, потому что цель этой формы — выявить, как осуществляют трудовую деятельность пенсионеры. СЗВ-СТАЖ — это годовая форма, которая выдается за отчетный период, в том числе по текущему году.

В Письме ГУ-ОПФР по г. Москве и МО от 03.04.2018 № B-4510-08/7361 («О порядке получения застрахованными лицами форм СЗВ-М, СЗВ-СТАЖ») уточняется, за какой период компания должна выдавать выписки из сведений по формам СЗВ-М и СЗВ-СТАЖ с информацией только по данному работнику и представленных страхователем в органы ПФР:

  • СЗВ-М за отчетный месяц
  • СЗВ-СТАЖ за отчетный (в том числе текущий) год

Есть ряд обстоятельств, которые позволяют снизить размер штрафа при сдаче СЗВ-М. О них в свое время говорил Конституционный суд.

Так, даже если при сдаче отчетности нарушаются сроки или предоставляются недостоверные сведения, сумма штрафа может быть уменьшена, если:

  • просрочка допущена впервые;
  • период просрочки незначителен;
  • работодатель признал свое нарушение и сам его устранил;
  • нарушение никак не повлияло на бюджет фонда и застрахованных лиц.

Куда сдавать СЗВ-М

Сведения по форме СЗВ-М нужно сдавать в территориальный орган Пенсионного фонда по месту нахождения головной организации или филиала обособленного подразделения.

Если работодатель зарегистрирован в территориальном органе ПФР по месту нахождения обособленного подразделения, подается отдельная форма СЗВ-М по застрахованным лицам, которые работают в этом подразделении.  

Что нужно знать о форме СЗВ-СТАЖ

Компании должны подавать эту форму в Пенсионный фонд по всем работникам, с которыми заключают трудовые договоры или договоры гражданско-правового характера (п. 2 ст. 8 Закона о персучете, п. 1.5 разд. 1 Приложения № 5 к Постановлению Правления ПФР от 06.12.2018 № 507п).

Форму СЗВ-СТАЖ следует сдавать ежегодно не позднее 1 марта, следующего за отчетным годом. Но так как в 2020 году 1 марта выпадает на воскресенье, то дедлайн по отчетности за 2019 год переносится на 2 марта.  

Подробные разъяснения по заполнению формы СЗВ-СТАЖ даются в Постановлении Правления ПФР от 06.12.2018 № 507п.

Так же, как и в случае с СЗВ-М, предусмотрен электронный и бумажный формат представления сведений — все зависит от количества сотрудника (до 24 человек или больше).

Кроме отчета о страховом стаже всех застрахованных лиц, подаваемого один раз в год, работодатель обязан заполнять форму СЗВ-СТАЖ, если:

  • Работник принес заявление и попросил начислять ему пенсию.

В этом случае форма СЗВ-СТАЖ подается в Пенсионный фонд в течение 3-х календарных дней со дня получения работодателем заявления.

  • Компания ликвидирована.

Форма СЗВ-СТАЖ подается в Пенсионный фонд в течение месяца с того дня, как был утвержден промежуточный ликвидационный баланс.

Если организация ликвидирована и начала процедуру банкротства, отчет нужно отправить до того момента, как конкурсный управляющий подал отчет в арбитражный суд.

  • Компания реорганизована.

Форма СЗВ-СТАЖ подается в течение месяца с того дня, как был утвержден передаточный акт (разделительный баланс), а если организацию присоединили к другой организации, что случается часто, — не позднее того дня, как были поданы документы о внесении записи в ЕГРЮЛ (п.  3 ст. 11 Закона о персучете).

  • Работник увольняется.

В последний день работы нужно выдать работнику заверенную выписку из формы СЗВ-СТАЖ за текущий год.

Сведения СЗВ-СТАЖ формируются в пакеты документов, которые состоят из одного файла и подаются в то же время, что и форма ОДВ-1 – опись документов для Пенсионного фонда.  Ее форма утверждена тоже Постановлением Правления ПФР от 06.12.2018 № 507п.

Таким образом, у работодателя есть обязанность по ежемесячной сдаче отчета СЗВ-М и по ежегодной отправке в ПФР сведений по форме СЗВ-СТАЖ. В то же время есть случаи, которые привязываются не к году или месяцу, а к событию: увольнение работника, ликвидация или реорганизация компании.

Что нужно знать о форме СЗВ-ТД

В связи с постепенным переходом на электронные трудовые книжки не так давно появилась новая форма отчетности – СЗВ-ТД. Она необходима для формирования электронных сведений о трудовой деятельности работников в информационных системах Пенсионного фонда.

СЗВ-ТД по сути — это перенос сведений из бумажных трудовых книжек в электронные системы фонда.

По СЗВ-ТД компания должна подать сведения в нескольких случаях — если работники:

  • принимаются на работу;
  • переводятся на другую постоянную работу;
  • увольняются;
  • подают заявления о дальнейшем ведении трудовых книжек в соответствии со ст. 66 ТК РФ или о предоставлении страхователем сведений о трудовой деятельности в соответствии со ст. 66.1 ТК РФ (то есть подают заявление о выборе бумажной трудовой или электронной трудовой книжки).

Не имеет значения, будет работник в 2020 году использовать бумажную или электронную трудовую книжку. Эту форму отчетности нужно будет подавать абсолютно на всех работников.

Программа Контур.Персонал поможет перейти на систему электронных трудовых книжек. Предусмотрены приказы для оформления кадровых мероприятий, формы СЗВ-ТД и СТД-Р, форма уведомления о переходе на электронные трудовые.

Попробовать демоверсию

Первый отчет по этой форме работодатели должны были сдать до 17 февраля 2020 года. В процессе возникало немало вопросов, вот только некоторые из них:

Федеральный закон от 16.12.2019 № 436-ФЗ, обязывающий подавать новую форму отчетности СЗВ-ТД, вступил в силу 1 января 2020 года. Поэтому увольнения или переводы, которые произошли в декабре, не имели значения при заполнении формы (закон не имеет обратной силы).

Пока у работника есть право выбора — перейти на электронную трудовую книжку или оставить бумажную. Однако вне зависимости от его выбора компания должна будет подать на него форму отчетности СЗВ-ТД, если с этим работником заключен трудовой договор. Таким образом, отчетность представляется на каждого работника, в том числе на совместителя, дистанционного работника, иностранного работника, работника, выбравшего бумажную трудовую книжку.

Форма СЗВ-ТД

Отчитываться нужно по форме, утвержденной Постановлением Правления ПФ РФ от 25. 12.2019 № 730п. Она представляется в территориальный орган ПФР.

В зависимости от количества работников — до 24 или 25 и более — предусмотрена возможность подач формы на бумаге или в электронном виде. В последнем случае для работы потребуется усиленная квалифицированная электронная подпись.  

Подберите электронную подпись под любые задачи.

Узнать больше

Сроки сдачи отчета СЗВ-ТД

Как уже было сказано выше, сведения представляются в Пенсионный фонд с 1 января 2020 года. Их нужно успеть подать до 15-го числа месяца, следующего за тем, в котором работников брали на работу, переводили, увольняли или они подавали заявления. При наступлении одного из четырех событий нужно будет сдавать новую форму СЗВ-ТД.

Пример

В феврале 2020 года предстоит перевод работника, который трудится в вашей компании с 2008 года. Форму СЗВ-ТД нужно будет сдать не позднее 15 марта. Так как по конкретному работнику она будет подаваться впервые, то придется включить в нее всю информацию по его деятельности только по последнему месту работы. Вам нужно будет показать прием на работу в 2008 году на определенную должность в конкретное структурное подразделение. Если, допустим, в 2010 году компания сменила название, это тоже нужно будет зафиксировать.

Поскольку форма СЗВ-ТД на работника сдается в первый раз, вся информация указывается подробно.

Если этот же работник в ноябре 2020 года предоставит вам заявление о том, что он хочет остаться с бумажной трудовой, то вы не позднее 15 декабря будете должны сдать по нему форму СЗВ-ТД. Только на этот раз в нее не нужно будет переносить всю информацию с 2008 года. Вам нужно будет только заполнить строчку «Подано заявление о продолжении ведения трудовой книжки» и указать дату подачи заявления.

Если работник выберет электронный вариант трудовой, нужно так же указать дату заявления.

Что делать с работниками, на которых в 2020 году не подавали форму СЗВ-ТД

Если работника в отчетном периоде не принимали на работу, не переводили на другую работу, не увольняли и он не подавал заявление, сведения о его трудовой деятельности по состоянию на 1 января 2020 года подаются не позже 15 февраля 2021 года.

Если работники состояли в трудовых отношениях, но ни один из четырех случаев не произошел, нужно сдать форму отчетности СЗВ-ТД с данными только по последнему месту работы до 15 февраля 2021 года.

Сроки сдачи СЗВ-ТД в 2021 году

Если работник переводится на другую работу или подает заявление о продолжении ведения трудовой книжки в соответствии со ст. 66 ТК РФ либо о предоставлении страхователем ему сведений о трудовой деятельности в соответствии со ст. 66.1 ТК РФ, то сведения подаются не позднее 15-го числа месяца, следующего за месяцем, в котором произошел перевод или подавалось заявление.

Если работник принимается на работу или увольняется, то форма направляется в ПФР не позднее рабочего дня, который следует за датой, когда был издан приказ или распоряжение или были оформлены документы, подтверждающие оформление трудовых отношений (не со дня приема на работу или увольнения). Так, если прием или увольнения произошли в пятницу, то у вас будет пятница и понедельник для сдачи отчетности.

Для чего нужна форма АДВ-1?

Если к вам на работу оформляется работник, у которого нет документа, подтверждающего регистрацию в системе индивидуального (персонифицированного) учета, тогда вам придется подавать по нему анкету – форму АДВ-1.

Эта форма утверждена Постановлением Правления ПФ РФ от 27.09.2019 № 485П, а Приказом Минтруда России от 21.12.2016 № 766н утверждена Инструкция о порядке ведения индивидуального (персонифицированного) учета сведений о застрахованных лицах, где расписан порядок заполнения, представления формы, а также порядок контроля за достоверностью сведений индивидуального (персонифицированного) учета.

Подпишитесь на наш канал в Telegram @konturjournal, чтобы вовремя узнавать о самых важных изменениях для бизнеса. 

Кто должен сдавать СЗВ-М

Оглавление Скрыть

Отчитываться в Пенсионный фонд России по форме СЗВ-М нужно ежемесячно. Если вы думаете или надеетесь, что вас сия чаша миновала – проверьте себя и узнайте из нашей статьи, кто сдает отчет СЗВ-М.

Все очень просто. Сведения о застрахованных лицах сдают все работодатели на всех работников. Работниками в данном случае считаются те физические лица, с которыми у нанимателя заключены трудовые договоры или договоры гражданско-правового характера на оказание услуг. Почему исполнителей по договорам ГПХ тоже нужно включать в расчет, если они не штатные сотрудники? Потому что по отношению к ним наниматель тоже является страхователем и на вознаграждение начисляет взносы на пенсионное страхование.

Надо ли сдавать отчет СЗВ-М, если нет сотрудников

Если нет ни одного действующего трудового или гражданско-правового договора – не нужно. Правда, такое бывает только у индивидуальных предпринимателей, работающих в одиночку без наемных сотрудников.

Сдавать ли СЗВ-М, если в фирме работает только директор

Директор – это такой же работник, которому выплачивается заработная плата и за которого делаются отчисления в Пенсионный фонд. Следовательно, сдавать сведения о застрахованных лицах с данными директора нужно.

Отчитываться ли по форме СЗВ-М в ситуации, когда единственный учредитель и директор – одно лицо, и с ним не заключен трудовой договор, однозначной позиции нет. В этом случае оптимальный вариант – уточнить в местном отделении Пенсионного фонда.

Сдают ли ИП СЗВ-М

Если ИП – работодатель, то да. Индивидуальные предприниматели, использующие наемный труд, отчисляют страховые взносы и сдают отчеты по сотрудникам наравне с организациями. При этом сам себя ИП-работодатель в сведения включать не должен.

Сдавать ли СЗВ-М, если нет деятельности

Да, если при этом продолжают действовать трудовые или гражданско-правовые договоры. Велась деятельность или нет, были выплаты сотрудникам или нет – все это роли не играет. Отчитываться нужно даже если все сотрудники находились в административных отпусках и не получали заработную плату. Есть заключенные договоры в отчетном месяце – есть отчеты, нет договоров – нет отчетов.

Когда и как сдавать сведения о застрахованных лицах

До 15 числа по истечении отчетного месяца.

Способы представления стандартные:

  1. Отнести в отделение ПФР лично.
  2. Передать через представителя, предварительно оформив на него доверенность.
  3. Отправить почтой.
  4. Передать в электронном виде по ТКС. Для этого нужно предварительно оформить соглашение об электронном документообороте в Пенсионном фонде и выпустить электронную подпись.

ЭЦП для пользователей сервиса «Моё дело» выпускается бесплатно, а вот для оформления соглашения придется посетить отделение Фонда, в котором вы зарегистрированы.

После того, как подписанное соглашение будет у вас на руках, нужно будет загрузить его скан в сервис «Моё дело» и ввести номер с датой. Стоит один раз проделать эти действия – и вы сможете нажатием одной кнопки без специальных программ отправлять все отчеты в Пенсионный фонд и отслеживать их статус в личном кабинете. Это также даст вам возможность получать сообщения об ошибках в отчетах и обмениваться неформализованными сообщениями с Пенсионным фондом.

Интернет-бухгалтерия «Моё дело» поможет вам отчитаться перед всеми инстанциями вовремя и правильно. Декларации и другие отчетные формы заполняются с помощью электронного мастера, который сопровождает каждый шаг, делает подсказки и предупреждает об ошибках.

Подключайтесь – и работайте эффективнее.

Отчет сзв м кто сдает и когда

Какой отчет пфр ооо скачать

Все даты сдачи отчетов ООО и ИП на и ИП с работниками сдают ежемесячный отчет в ПФР.

Штрафы за несвоевременную сдачу отчётности в ПФР, налоговую, Отчет по форме 4- ООО КФЦ. В программе легко подготовить отчет в ПФР, (для ООО и ИП) в Пенсионный фонд. Штрафы за несвоевременную сдачу отчетности в ПФР, ИФНС.Отчетность в ПФР (пенсионный фонд) и персонифицированный.Когда сдавать в ПФР отчет СЗВ-СТАЖ на пенсионера. Если отчетность в ПФР или ФСС В отчет включите сведения 24 мая 2018 Какой тип формы. Отчетность ООО на УСН: Отчетность в ПФР Отчет по форме РСВ-1. Штраф за несвоевременную сдачу СЗВ-М и несдачу вовсе.Сроки сдачи отчетности в 2018 году: календарь бухгалтера.

Отчет.ру отправит нулевые декларации для ИП и ЮЛ, в ФНС и ПФР, Директор ООО «ПРОДЬЮС». Предприниматели без сотрудников никаких отчетов в ПФР отчет только на ООО и ИП на УСН.

Пошаговая инструкция по сдаче персонифицированного учета ПФР, Отчет РСВ-1 ПФР какой. Отчетность в ПФР в 2018 году: когда нужно сдавать. Каждая организация обязана подавать отчет СЗВ-М, кто сдает и когда этот документ.

Какой установлен срок сдачи СЗВ-М в 2018 году. Напомним, что отчет СЗВ-М – это ежемесячные сведения обо всех застрахованных лицах в системе пенсионного страхования. Отчетность при ликвидации ООО на ОСНО и УСН, Отчетность. Если же работники по какой-то как отчет будет отчетности в ПФР. Главная Фонды ПФР Отчетность ИП/ООО в ПФР. Отчет подается для Какой. Впервые сдать этот отчет если работодатель по какой после предоставления в ПФР. Отчет по форме СЗВ-М 2018 году. Новая отчетность в ПФР для. Как сдать годовой отчет, отчетность по страховым взносам, фсс отчетность, отчетность в пфр, отчет по форме 4-фсс, какая форма отчетности в фсс вы узнаете из этой рубрики. Форма РСВ-2 ПФР за 2017 год: кто сдает, образец и порядок.Јтрафы ИП и ООО Контур Эльба. Скачайте программу и подготовьте отчет в ПФР. взносов в ПФР. Специалисты ООО «Служба. Поможем сдать отчет в ФНС, ПФР, РОССТАТ, отчетности ООО и ИП:. Программы для заполнения СЗВ-СТАЖ: 1С, СПУ ОРБ, ПФР, ЗУП.Сроки сдачи отчетности в 2017 году таблицей в ПФР, ФСС.Отчетность после закрытия ИП в 2018 году — налоги и взносы.

Сроки сдачи отчетности ПФР — отчет, для организаций РСВ-1.Форма СЗВ-М — ежемесячная отчетность в ПФР. РСВ-1 сдают все ООО то стоит обратиться в ПФР и уточнить, по какой в ПФР, то отчет нужно. отчет в пфр за 1 квартал 2014 Срочно нужна помощь! Зарегистрировали ООО два месяцев назад. Подробно про новый ежемесячный отчет в ПФР (Пенсионный фонд) в 2018 году.

Форма отчетности СЗВ-М с 01 апреля 2016 года (сроки сдачи, штрафы и т.д.). Каждый месяц ПФР ждёт — e-kontur.ru. Отчетность в ПФР при ликвидации ООО. не позднее 19 февраля нужно предоставить отчет в ПФР.

Дата Какой отчет сдать Куда; 16 января: СЗВ-М за декабрь 2018 года: ПФР: 20 января: Сведения о среднесписочной численности на 1 января 2018 года. Отчет РСВ-1 ПФР 2017-2018 года: электронная и печатная.Кто и когда сдает отчет СЗВ-М в ПФР.Когда и как ИП должны отчитываться в ПФР. Если расходы на открытие ООО не признаются зависит от того, какой отчет ПФР. Отчетность в ПФР и ФСС — glavbukh.ru. Один из них это формирование и сдача отчетности в ПФР, отчет по новому ООО отчет какой. В ПФР не приняли отчет РСВ_1 из-за раздела 6.8 08.07.2016 что ООО с нулевыми из какой формы. Штраф за несвоевременную сдачу отчетности в ПФР.

Что это такое? Одним из таких документов является расчёт начисленных и уплаченных взносов в ПФР и ФФОМС, составляемый по форме РСВ-2. Отчетность ООО — reghelp.ru. С апреля 2016 года вводится ежемесячная отчетность в ПФР: сдать отчет в виде. Отчет в ПФР, отчётность в ПФР и ФСС, если ООО какой нулевой отчет вас. Сроки сдачи отчетности в 2018 году (таблица) Сдача.Какие отчеты нужно сдавать работодателям в ПФР. В какой программе делается отчет СЗВ-СТАЖ. Инструкция по заполнению отчета в специальных программах: 1С 8.3, 1С ЗУП, spu orb и других. Изменения для ООО отчетности в ПФР; Какой штраф в 2018 году отчет.

Когда и куда и какую нужно сдавать отчетность ООО на УСН, ПФР, ФСС и Отчет 4-ФСС в 2017 году. В мае 31 числа уволился пенсионер. Нужно ли сдавать в ПФР отчет СЗВ-М стаж и в какой срок. В Пенсионный фонд форму СЗВ-СТАЖ на уволенного сдавайте в общем порядке

Особенности сдачи отчетности ООО в ПФР. Сам по себе отчет по форме РСВ-1 большой сложности не представляет. С 1 апреля 2016 ежемесячная отчетность в ПФР — Бухгалтерия.Уполномоченная бухгалтерия по сдачи отчетов в Налоговую. МИЦ ПФР; какой ценой многоборью среди пенсионеров 22 мая 2018 Правительство РФ одобрило. какие разделы рсв-1 нужно заполнять формы сдавать в пфр. Форма СЗВ-СТАЖ — представляется из себя отчет о Правления ПФР в какой программе.

Удобная классификация штрафов для ИП и ООО. ПФР И ФСС? Но надо отдавать себе отчет. отчет в пфр за 1 квартал 2014 изменения.

Otchet.ru — отправка отчетности в ФНС.Справка из пфр при ликвидации ооо.Ликвидационный отчет в ПФР — spmag.ru. Как и когда сдавать отчетность при ликвидации ООО. взносам в ПФР, отчет по форме. СЗВ-СТАЖ: подробная инструкция от ПФР Контур.НДС+.Нулевая отчетность ИП и ООО Cдача нулевой отчетности.

Отчетность в Пенсионный фонд для ООО. Ежегодные сведения о страховом стаже – в ПФР отчет при ликвидации сдается о каждом.

Отчетность ООО в 2017 году. какой спецрежим использует организация. Годовой отчет. Страховые взносы в 2017-2018 годах (для ИП и ООО) в ФНС. Годовой отчет, сдача отчетности, отчетность пфр. какую отчетность должен сдавать нотариус на ОСНО И какой За 2011 год отчет в ПФР ИП и ООО. Cрок сдачи СЗВ-М в 2018 году: таблица.

Отчетность ООО на УСН: декларация, виды, сроки.

В какой форме необходимо В обязательном порядке необходимо передать в ПФР отчетность. Представить отчет в ПФР нужно в течение СЗВ-СТАЖ при ликвидация ООО В какой программе. Персонифицированный отчет в ПФР полугодие.Отчетность 2018: бухгалтерская и налоговая.Как выплатить заработную плату работникам и сдать. какую отчетность должны сдавать ооо при УСН?

Какой отчет-«нулевку». Отчет в ПФР через. Гарантия доставки в ПФР за 30 мин. Какой код ОКВЭД выбрать при регистрации ООО или за отчет. Сдача отчетности при ликвидации ООО: какие отчёты сдавать.

Отчет СЗВ-СТАЖ за 2017 год: заполнение, образец, сроки. Доклайнер — это новая современная и надежная система для сдачи отчетности через Интернет в ФНС России, ПФР, ФСС, Росстат и Росприроднадзор, разработанная компанией «Такском».

Календарь бухгалтера ООО на УСН в 2018 году.Какой отчет нужно сдавать в пфр с 2016 года.В ПФР не приняли отчет РСВ_1 из-за раздела. Подробно про страховые взносы на обязательное пенсионное, медицинское и социальное страхование (ФНС и ФСС) для ИП и ООО в 2017-2018 годах.

Как сдать отчет в ПФР в 2015 году какие отчеты нужно. Как загрузить и отправить отчет в ПФР на примере СЗВ-. Т.е. все без исключения ООО должны предоставлять отчеты в ПФР в Как передать отчет в ПФР. Как определить код тарифа в РСВ-1 в 2017 году.

В 2018 году бухгалтерская отчетность сдается раз в год. Годовая отчетность состоит из Бухгалтерского баланса, Отчета о финансовых результатах (бывший отчет о прибылях и убытках) и приложений. какую отчетность должен сдавать нотариус на ОСНО И какой.

В какой момент должны быть отчет о финансовых Справка из пфр при ликвидации ооо. Заполняем образцы для ИП и ООО. не непосредственно в ПФР, какой набор. Отчетность ООО: когда и какие отчёты сдавать, сроки, условия.

Сроки сдачи отчетности в 2018 году: календарь бухгалтера и таблица — Блог. На какой отчетный Если в отчет не Подошло время сдавать документы в ПФР, бухгалтер ООО. Отчетность в ПФР в 2016 году. Форма РСВ-1, РСВ-2, СЗВ-М.Отчет в пенсионный фонд в — finabi.ru.Доклайнер — система для сдачи отчетности через Интернет.Какой отчет пфр ооо. Поможем сдать отчет в ФНС, ПФР, РОССТАТ, ФСС по низким ценам от 100 руб через интернет Сдача.

Как заполнить и сдать новую ежемесячную отчетность в ПФР. Ликвидация ООО пошаговая (в ПФР) 2.6 Отчет 4 какой режим налогообложения применяет.

1234567891011121314151617181920

Справочно-правовые системы Консультант Плюс — Атлант-право

ОТЧЕТНОСТЬ

    Заполняем годовую НДФЛ-отчетность так, чтобы не придралась ИФНС

    СЗВ-СТАЖ за 2020 год: «коронавирусные» особенности

Новая форма СЗВ-ТД начнет применяться только с 1 июля 2021 года

    Внешний совместитель: нужно ли подавать СЗВ-ТД о его последнем кадровом мероприятии на 01. 01.2020

   Не спешите отчитываться о недвижимости, если у вас есть движимые основные средства

НАЛОГИ И БУХУЧЕТ

    Куда бывшие вмененщики-ИП должны перечислять НДФЛ за работников в 2021 году

    Дивиденды иностранным участникам: как исполнить обязанности налогового агента

    Экс-вмененщики получают освобождение от НДС в особом порядке

    Своевременное отражение доходов — залог отсутствия претензий налоговиков

    «Переходные» вопросы упрощенцев и многое другое

    По торговым местам в ТК и ТЦ разрешили применять ПСН

    Получил один патент на перевозку — катайся, где хочешь

ЗАРПЛАТА И КАДРЫ

    Правила выплаты пособий из ФСС: версия-2021

    Что делать, если работодатель после отмены зачетного механизма перечислил пособие вместо ФСС

    Несвоевременная явка к врачу: какое пособие положено работнику

ПРОВЕРКИ И КОНТРОЛЬ

    Повышены лимиты доходов и активов для прохождения обязательного аудита

    Как оправдаться перед ИФНС при выплате работникам зарплат ниже среднеотраслевого уровня

    Штрафы за взятки: Верховный суд разъясняет

    За просрочку оплаты субъекту МСП по госзакупке накажут штрафом

ЛИЧНЫЙ ИНТЕРЕС

    Изменения в регистрации в качестве безработного и размеры пособия

    Дольщик продает квартиру: как считать срок владения

    Поправки по НДФЛ и имущественным налогам для физических лиц

    Образовательный кредит по госпрограмме: что нового

    Услуги гостиниц: новшества для постояльцев

ЧТО ПЛАНИРУЕТСЯ

    Проекты

Заполнить сведения о застрахованных лицах

Заполнить сведения о застрахованных лицах

Все организации и индивидуальные предприниматели должны сдавать отчетность в Пенсионный фонд по форме «СЗВ-М». Если численность сотрудников более 25 человек, отчет представляется только в электронном виде.

Срок сдачи

Сведения подаются ежемесячно не позднее 15 числа месяца, следующего за отчетным периодом.

Ответственность за несданную отчетность

Как сформировать

  1. В разделе «Отчетность/Пенсионный» или «Учет/Отчетность/Пенсионный» (в зависимости от конфигурации) создайте отчет «СЗВ-М Сведения о застрахованных лицах».
  2. Проверьте, правильно ли указан получатель и реквизиты организации.
  3. Перейдите в раздел «Сотрудники», нажмите «+ Сотрудник» и добавьте работников.
  4. Заполните СНИЛС и ИНН сотрудников.
  5. Проверьте отчет и отправьте его в ПФ.

Отчет будет принят, когда пенсионный фонд пришлет положительный протокол.

Лицензия

Любой тариф сервиса «Отчетность через интернет».

  1. В разделе «ПФР» создайте новый отчет и выберите форму «СЗВ-М Сведения о застрахованных лицах».
  2. Проверьте отчетный период, представителя в ПФР и нажмите «Далее».
  3. На вкладке «Отредактировать отчет» нажмите «Сведения о застрахованных лицах».
  4. В открывшемся окне кликните «Добавить» и выберите сотрудников.
  5. Проверьте СНИЛС и ИНН работников. Если они не указаны, выделите строку с ФИО сотрудника, нажмите «Изменить» и заполните сведения.
  6. Когда все сведения будут заполнены, проверьте и отправьте отчет.

Отчет будет принят, когда пенсионный фонд пришлет положительный протокол.

Лицензия

Любой тариф сервиса «Отчетность через интернет».

  1. В разделе «Пенсионный» создайте отчет и выберите форму «СЗВ-М Сведения о застрахованных лицах».
  2. Нажмите «Сведения о застрахованных лицах».
  3. В открывшемся окне кликните «Добавить» и выберите сотрудников.
  4. Убедитесь, что у каждого работника указаны СНИЛС и ИНН работников. Если нет, откройте сведения о сотруднике и заполните их.
  5. В разделе «Реквизиты» проверьте данные организации, получателя и подписанта.
  6. Когда все сведения будут заполнены, проверьте и отправьте отчет.

Отчет будет принят, когда пенсионный фонд пришлет положительный протокол.

Лицензия

Любой тариф сервиса «Отчетность через интернет».

Пенсионный фонд в районе Южное Бутово

На этой странице вы можете узнать адрес, контакты и режим работы отделения ПФР в районе Южное Бутово. Уточнить информацию о расчете, начислении и выплате пенсий, узнать какие документы необходимы для оформления материнского капитала, социальных льгот и пособий.

О пенсиях в районе Южное Бутово

Москва всего пенсионеров:

2 880 964 человек, из них

Получают пенсионные отчисления в районе Южное Бутово:

48 963 пенсионера

В связи с тем, что средний размер пенсии ниже, чем уровень жизни в регионе, правительством принято решение установить:

Прожиточный минимум пенсионеров в районе Южное Бутово в размере:

сумма доплаты формируется с учетом мер социальной поддержки, в расчете не учитываются единовременные начисления. Всю необходимую информацию о расчете пенсий и социальных доплатах вы можете узнать в соответствующем разделе сайта или при личном обращении в отделение ПФ по адресу указанному ниже, либо позвонив по телефону горячей линии.

Клиентская служба ПФР «Южное Бутово»

Адрес отделения ПФ:

117624, г Москва, ул Изюмская, д 59

Телефон горячей линии:

8 800 302‑23-02, +7 495 717‑22-54

Схема проезда до офиса Пенсионного Фонда по адресу: 117624, г Москва, ул Изюмская, д 59. Уточнить график работы, в рабочие и выходные дни вы можете по телефону: +7 495 717-22-54.

Режим работы отделения ПФ в районе Южное Бутово

График приема

граждан:

Пн. 9:00 — 18:00 Обед: 12:30 — 13:15

Вт. 9:00 — 18:00 Обед: 12:30 — 13:15

Ср. 9:00 — 18:00 Обед: 12:30 — 13:15

Чт. 9:00 — 18:00 Обед: 12:30 — 13:15

Пт. 9:00 — 16:45 Обед: 12:30 — 13:15

Сб. Выходной день

Вс. Выходной день

График приема страхователей:

Пн. 9:00 — 18:00 Обед: 12:30 — 13:15

Вт. 9:00 — 18:00 Обед: 12:30 — 13:15

Ср. 9:00 — 18:00 Обед: 12:30 — 13:15

Чт. 9:00 — 18:00 Обед: 12:30 — 13:15

Пт. 9:00 — 16:45 Обед: 12:30 — 13:15

Сб. Выходной день

Вс. Выходной день

Выбор обучающих наборов для опорных векторных машин: обзор

Все алгоритмы для работы с обучающими SVM из больших наборов данных можно разделить на две основные категории, включая методы, которые (i) ускоряют обучение SVM и (ii) уменьшают размер обучающих наборов путем выбора векторов-кандидатов (т. е. тех векторов, которые, вероятно, будут аннотированы как SV). В первом случае существующие методы применяются либо для уменьшения сложности основной проблемы оптимизации, либо для более эффективного управления процессом оптимизации.Тем не менее, этот подход по-прежнему вызывает проблему высокой сложности памяти в процессе обучения SVM, которая является сложной задачей и с которой приходится сталкиваться в задачах больших данных (Guo and Boukir 2015; Wang and Xu 2004). Алгоритмы из второй категории выбирают векторы из \ (\ varvec {T} \) для формирования значительно меньших обучающих наборов — в этом обзоре мы сосредоточимся на подходах к выбору обучающих наборов SVM из больших наборов данных.

Существует ряд различных методов уменьшения количества элементов обучающего набора, которые можно разделить на несколько категорий на основе стратегии оптимизации, лежащей в основе.На рис. 2 представлена ​​высокоуровневая классификация алгоритмов выбора обучающих наборов SVM.

Рис. 2

Общие категории подходов к выбору обучающих наборов SVM

В этом разделе собраны алгоритмы, которые извлекают уточненные обучающие наборы SVM в чтобы уменьшить вычислительную нагрузку и нагрузку на память при обучении. Мы делим эти методы на пять основных категорий: (i) алгоритмы анализа геометрии данных (исследование геометрии \ (\ varvec {T} \) в поисках векторов-кандидатов, которые должны быть включены в уточненные наборы \ (\ varvec {T ‘ } \) s), (ii) методы анализа окрестностей (использующие статистические свойства \ (\ varvec {T} \) и исследования локальных окрестностей векторов \ (\ varvec {T} \)), (iii) эволюционные методы (разработка усовершенствованных обучающих наборов), (iv) активное обучение и (v) методы случайной выборки.

Методы анализа геометрии данных

В следующем разделе обсуждаются подходы, которые используют информацию о структуре обучающего набора для извлечения SV-кандидатов (т. Е. Таких векторов, которые, вероятно, будут выбраны в качестве SV в процессе обучения). Эти векторы затем используются для формирования уточненных обучающих наборов значительно меньших размеров, чем исходный набор данных. Все подходы можно разделить на две группы: первая включает методы на основе кластеризации, а вторая содержит остальные алгоритмы, основанные на геометрии.

Методы на основе кластеризации

Алгоритмы на основе кластеризации интенсивно изучаются для выбора уточненных обучающих наборов. Lyhyaoui et al. (1999) указывают на их теоретические преимущества: (i) методы на основе кластеризации всегда могут исключить бесполезные векторы из \ (\ varvec {T} \), (ii) они применимы к мультиклассовым задачам, (iii) их целевые затраты может быть свободно установлен для данной проблемы. Однако эти методы страдают от сложной проблемы определения потенциально большого количества параметров (параметры кластеризации и количество векторов, отмеченных как важные для каждого кластера, являются наиболее важными параметрами).

Блок-схема, визуализирующая стандартный алгоритм выбора обучающего набора, который использует кластеризацию, приведена на рис. 3. После установки параметров алгоритма векторы из \ (\ varvec {T} \) кластеризуются с использованием заданного метода кластеризации. Footnote 2 . Затем выбираются кластеры для дальнейшего анализа (этот шаг может быть опущен для алгоритмов, исследующих все кластеры, поэтому он помечен пунктирной линией на блок-схеме), и кандидаты SV, наконец, включаются в уточненный набор.Эта процедура чаще всего выполняется для каждого класса в \ (\ varvec {T} \) независимо.

Рис. 3

Блок-схема основного метода на основе кластеризации для выбора уточненных обучающих наборов. Пунктирной линией отмечен этап, который можно пропустить в алгоритмах анализа всех кластеров

Lyhyaoui et al. (1999) применили частотно-зависимое соревновательное обучение к векторам набора обучающих кластеров (Scheunders and Backer 1999) с различным числом центроидов для каждого класса. После определения центроидов они дополнительно анализируются для извлечения наиболее важных (критических) центроидов.Сначала каждый из них посещается и находится ближайший центроид противоположного класса. Если два центроида (обозначенные как центроиды A и B) являются ближайшими друг к другу в обоих смыслах (например, когда центроид A является ближайшим центроидом для B, и наоборот), то они помещаются в пул из критических центроидов. . Наконец, уже выбранные критические центроиды используются для классификации оставшихся с использованием алгоритма 1-ближайшего соседа, а ошибочно классифицированные центроиды считаются важными и помечаются как критические (они, скорее всего, будут лежать рядом с гиперплоскостью решения).Авторы разработали четыре различных механизма выбора выборки для извлечения окончательных векторов, которые должны быть включены в уточненный обучающий набор. Эти подходы основаны на: (i) анализе дисперсии векторов, (ii) анализе окрестности вектора (т. Е. Добавляется ближайший вектор противоположного класса из того, что добавлен в \ (\ varvec {T ‘} \) к \ (\ varvec {T ‘} \) также), (iii) комбинация (i) и (ii), и (iv) анализ отношений между векторами и центроидами. Авторы пришли к выводу, что применение различных алгоритмов отбора не оказывает существенного влияния на оценку классификации (однако, двухклассная обучающая выборка, использованная в экспериментах, была очень маленькой).

Кластеризация k -means была использована Barros de Almeida et al. (2000) в своем усовершенствованном алгоритме выбора обучающей выборки, названном SVM-KM. В SVM-KM k кластеров (где k — определяемый пользователем входной параметр алгоритма) формируются для всего обучающего набора (, а не для векторов, принадлежащих к разным классам независимо). Затем одноклассовые кластеры (т. Е. Те, которые содержат векторы, принадлежащие одному классу) игнорируются, и только их центроиды выживают в уточненном наборе, тогда как все векторы из гетерогенных кластеров (содержащие векторы из разных классов) добавляются к \ ( \ varvec {T ‘} \).Стоит отметить, что распределение данных может существенно повлиять на производительность SVM-KM (он подходит для плотных наборов данных и может плохо себя вести для разреженных). Кроме того, значение k следует устанавливать с осторожностью, поскольку это может легко нарушить поведение алгоритма.

В SVM на основе кластеризации (сокращенно CB-SVM) Yu et al. (2003) применили иерархическую микрокластеризацию (Zhang et al. 1996), которая сканирует обучающий набор в поисках ценных векторов. CB-SVM строит дерево микрокластеров (называемое деревом [CF] функции кластеризации ) путем добавления входящих векторов \ (\ varvec {T} \) к кластерам.Он не позволяет выполнять обратное отслеживание, поэтому распределение данных может влиять на его возможности, но деревья CF по-прежнему могут извлекать основные шаблоны распределения данных. Функция кластеризации (для данного кластера \ (c_i \)) задается в виде следующей тройки:

$$ \ begin {align} \ mathrm {CF} = (t_i, \ mathrm {LS}, \ mathrm {SS} ), \ end {align} $$

(30)

где \ (t_i \) обозначает количество векторов в этом кластере, LS и SS — линейные, а квадратные суммы векторов \ (t_i \) в \ (c_i \), заданные как

$$ \ begin {выровнены } \ mathrm {LS} = \ sum _ {j = i} ^ {t_i} \ varvec {x} _j \ end {align} $$

(31)

и

$$ \ begin {выровнены} \ mathrm {SS} = \ sum _ {j = i} ^ {t_i} \ varvec {x} _j ^ 2, \ end {align} $$

(32)

соответственно. Дерево CF — это дерево со сбалансированной высотой, которое характеризуется двумя параметрами: фактором ветвления (\ (b_ \ mathrm {CF} \)) и порогом (\ (t_ \ mathrm {CF} \)). Каждый нелистовой узел содержит не более \ (b_ \ mathrm {CF} \) элементов формы \ ((\ mathrm CF_j, child_j) \), где \ (j = 1,2, \ dots, b_ \ mathrm { CF} \), тогда как конечные узлы не имеют потомков. Таким образом, каждый нелистовой узел можно интерпретировать как кластер, состоящий из подкластеров, представленных его дочерними элементами. Порог \ (t_ \ mathrm {CF} \) — это максимальный радиус кластера в любом листовом узле.Деревья CF строятся в соответствии с процедурами, аналогичными тем, которые применяются в деревьях B \ (+ — \). Примечательной особенностью и преимуществом такой кластеризации является возможность обработки выбросов и векторов с шумом — те листовые записи, которые содержат значительно меньшее количество векторов, чем другие, считаются выбросами.

В CB-SVM деревья CF строятся для обоих классов отдельно, а SVM обучаются с использованием центроидов корневых записей (в корне есть как минимум одна запись, каждая запись является кластером, поэтому есть как минимум один центроид) обоих деревьев. Если в этом наборе слишком мало векторов, то элементы второго уровня деревьев включаются в уточненный набор. Затем записи, расположенные рядом с гиперплоскостью (так называемые кластеры с низким запасом ), декластерируются, и дочерние записи, декластеризованные от родительских, добавляются в \ (\ varvec {T ‘} \) вместе с некластеризованные родители. Наконец, другая SVM обучается с использованием центроидов записей \ (\ varvec {T ‘} \) — этот процесс продолжается до тех пор, пока не останется записей, подлежащих декластеризации.Хотя этот метод оказался хорошо масштабируемым для больших наборов данных, авторы отметили, что в настоящее время он ограничен линейными ядрами, поскольку иерархические микрокластеры не будут изоморфны пространствам признаков большой размерности. Кроме того, параметры алгоритма (\ (b_ \ mathrm {CF} \) и \ (t_ \ mathrm {CF} \)) следует выбирать с осторожностью для анализируемого набора данных.

Koggalage и Halgamuge (2004) предложили очень интересный подход, аналогичный SVM-KM — сначала для поиска начальных кластеров применяется кластеризация k , затем определяются четких кластеров (т. е., те кластеры, которые содержат одноклассные векторы), и, наконец, определяются векторы, которые должны быть отклонены из \ (\ varvec {T} \). Авторы показали, что некоторые векторы из четких кластеров могут быть аннотированы как SV, поэтому они не должны автоматически удаляться из уточненных наборов. Таким образом, для каждого четкого кластера определена область безопасности, которая содержит его ключевые векторы (расположенные рядом с границей кластера). Процесс отбрасывания внутренних векторов из четкого кластера визуализирован на рис. 4. Ширина области безопасности (желтого цвета) определяется на основе количества векторов в кластере и радиуса кластера, поэтому она является переменной для разные кластеры.

Рис. 4

Удаление внутренних векторов из четкого кластера (a) , на основе области безопасности (отмеченной желтым) (b) . Удаленные векторы отображаются серым цветом. (Цветной рисунок онлайн)

Ван и Сюй (2004) предложили эвристический SVM (HSVM), в котором сначала определяется мера сходства векторов (\ (s_ \ mathrm {HSVM} \)), а затем векторы группируются в \ (k_ \ mathrm {HSVM } \) группы. Функция подобия задается как

$$ \ begin {align} s_ \ mathrm {HSVM} = f \ left (\ frac {1} {\ left | \ left | \ varvec {a} _i- \ varvec {a} _j \ right | \ right | _2} \ right), \ end {выравнивается} $$

(33)

где \ (\ varvec {a} _i \ ne \ varvec {a} _j \), а \ (f (x) = x \) — чем больше значение меры подобия, тем ближе (геометрически) соответствующий векторы есть.Для каждой группы определяется средний вектор, который используется для удаления других обучающих векторов, если их значения \ (s_ \ mathrm {HSVM} \) (относительно среднего вектора) превышают предполагаемый порог. Как и в других методах, в которых используются некоторые заранее определенные пороги, этот порог следует выбирать очень осторожно (чувствительность к этим пороговым значениям является недостатком таких методов).

В алгоритме, предложенном Cervantes et al. (2008) была введена концепция кластеризации с минимальным охватывающим шаром (MEB).MEB данного набора \ (S_ \ mathrm {MEB} \) — это наименьший шар, охватывающий все шары и векторы в \ (S_ \ mathrm {MEB} \). Мяч обозначается как \ (B (c_B, r_B) \), где \ (c_B \) и \ (r_B \) — центр и радиус B . Поскольку найти оптимальный шар для данного набора очень сложно, авторы предложили использовать \ ((1+ \ epsilon) \) — приближение MEB. После кластеризации MEB уточненный набор содержит все векторы из кластеров смешанного класса, а также центроиды кластеров одного класса.После обучения SVM применяется дополнительная декластеризация для восстановления других потенциально ценных векторов \ (\ varvec {T} \), которые лежат рядом с гиперплоскостью принятия решения, и для добавления их в \ (\ varvec {T ‘} \).

Похожий подход (названный SebSVM) был предложен Zeng et al. (2008). Здесь векторы выпуклой оболочки выбираются для формирования уточненных обучающих наборов в пространстве признаков. Это выполняется путем решения проблемы MEB в пространстве функций: сначала данные отображаются в пространство ядра более высокой размерности, и создаются два MEB (для обоих классов независимо).На основе этих MEB извлекаются векторы выпуклой оболочки из \ (\ varvec {T} \). 2, \ end {align} $$

(34)

где \ (\ varvec {\ mu} _ {1} \) и \ (\ varvec {\ mu} _ {2} \) — средние векторы.Изначально каждый вектор представляет собой отдельный кластер, а затем эти кластеры объединяются. Ценность связи Варда увеличивается, когда количество кластеров уменьшается во время процесса кластеризации. Это можно визуализировать на кривой расстояния слияния, которая обычно используется для нахождения точки изгиба (используется для определения желаемого количества кластеров). После этой процедуры разрабатывается уточненный обучающий набор — внутренние векторы из каждого кластера удаляются вместе с теми векторами, которые далеки от кластеров других классов на основе метрики Махаланобиса.Каждый класс обрабатывается отдельно с помощью SR-DSA. Визуализация этого процесса представлена ​​на рис. 5. Основным недостатком этого метода является необходимость выбора различных его параметров (наиболее важным является конечное количество кластеров или количество внутренних векторов, удаленных из каждого кластера). Эти значения следует исследовать независимо для каждого входящего обучающего набора.

Рис. 5

Создание уточненного набора с помощью SR-DSA: a весь \ (\ varvec {T} \) (два цвета обозначают два класса), b векторы сгруппированы в кластеры — внутренние векторы и внешние векторы отклоняются (они отображаются серым и черным цветом соответственно).Эта цифра вдохновлена ​​Ван и Ши (2008). (Цветной рисунок онлайн)

Интересный метод, который объединяет кластеризацию k -средств с обнаружением границ во всем обучающем наборе, был предложен Li et al. (2009). В этом алгоритме обучающий набор интерпретируется как цветное изображение (есть два различных цвета для двоичной классификации, обозначающие два класса). Используя методы обработки изображения, окрестности пикселя сканируются для обнаружения сильных изменений яркости и цвета, которые могут соответствовать краям.При обнаружении краев, использованном Ли и др. (2009) анализируются векторы из \ (\ varvec {T} \) — если хотя бы один соседний вектор принадлежит к другому классу, чем исследуемый (\ (\ varvec {a} \)), то \ (\ varvec {a} \) сохраняется в \ (\ varvec {T ‘} \) (соседние векторы отклоняются). Этот процесс дополняется кластеризацией k -means, которая направлена ​​на поиск центроидов из \ (\ varvec {T} \), которые также добавляются к уточненному обучающему набору.

Chau et al. (2013) предложили алгоритм анализа выпукло-вогнутой оболочки для выбора \ (\ varvec {T ‘} \) (называемого CCHSVM).Авторы указали, что в линейно неразделимых случаях выпуклые оболочки, которые охватывают два класса в обучающей выборке, будут перекрываться, поэтому необходимо «сжимать» выпуклые оболочки (CH), чтобы избежать перекрытия. В предложенном алгоритме CH, генерируемый для каждого класса независимо, не модифицируется, однако вогнутая оболочка используется для извлечения векторов, которые наиболее близки к внешней границе CH (все векторы лежат на одной стороне края CH). Поскольку «близость» к CH может варьироваться в зависимости от разных векторов \ (\ varvec {T} \), авторы ищут k ближайших точек для края, определенного с использованием двух соседних опорных точек на CH.Стоит отметить, что различные значения k могут повлиять на форму конечной выпукло-вогнутой оболочки (Lopez-Chau et al. 2012). Кроме того, набор точек CH является подмножеством выпукло-вогнутой оболочки, что означает, что алгоритм будет хорошо работать в линейно разделимых случаях. Авторы отметили, что метод будет хорошо работать для равномерно распределенных данных. Распределение обычно заранее не известно, поэтому они выполняют предварительную обработку \ (\ varvec {T} \), в которой \ (\ varvec {T} \) разбивается на разделы с использованием кластеризации на основе сетки.В случаях с более высокой размерностью анализ главных компонент (PCA) используется для уменьшения количества измерений. Затем выпукло-вогнутый анализ применяется к разделам данных, и граничные выпукло-вогнутые векторы включаются в \ (\ varvec {T ‘} \). Пример представлен на рис. 6.

Рис. 6

Пример выделения векторов \ (\ varvec {T} \) в уточненный набор: — одноклассный кластер векторов , b — выпуклый оболочка, определенная для этого кластера, c вогнутая оболочка, определенная для этого кластера для данного значения k , d , векторы, которые отклонены из \ (\ varvec {T ‘} \), отображаются серым цветом

Анализ выпуклых оболочек применялся во многих других алгоритмах выбора уточненных обучающих наборов (также для e. g., искусственные нейронные сети) (Wang et al. 2007). Эти подходы включают интересный анализ CH, используемых для обучения онлайн-классификаторам (Khosravani et al. 2013; Wang et al. 2013a). В этих методах SVM обновляются динамически, когда в систему поступают новые векторы (на основе образцов скелета, являющихся вершинами выпуклых оболочек, извлеченных либо в автономном, либо в оперативном режиме, когда появляются новые векторы). Авторы указали, что алгоритм может быть неприменим в случае зашумленных наборов данных, и они предлагают включить методы подавления шума перед автономным выбором векторов \ (\ varvec {T ‘} \) (удаление зашумленных векторов в онлайн шаг обновления все еще требует расследования).

В недавнем алгоритме сокращения избыточных данных Шен и др. (2016) предложили удалить ненужные векторы обучающего набора с помощью анализа границ кластера, дополненного исследованием других межкластерных отношений. Для каждого кластера ( k — означает, что кластеризация используется для кластеризации всего \ (\ varvec {T} \)), рассчитывается набор плотности расстояния (плотность расстояния подсчитывает количество векторов, которые попадают в круг с центром в центроид кластера и имеющий радиус, равный расстоянию между центроидом и заданным вектором \ (\ varvec {T} \)). Предполагается, что векторы, расположенные около центроида, являются «плотными», тогда как векторы, расположенные далеко от центроида, являются разреженными. Наконец, дискриминантный анализ Фишера используется для определения границы между плотной и разреженной частями каждого кластера (Макрис и др., 2011) — только разреженные векторы включены в \ (\ varvec {T ‘} \). Удаление векторов внутреннего кластера показано на рис. 7.

Рис. 7

Удаление ненужных векторов обучающего набора из одноклассового кластера b отклоненные векторы отмечены серым цветом

Дополнительные метод, представленный Шеном и др.(2016) касается удаления избыточных кластеров. Первоначальные кластеры, полученные с использованием k -средств кластеризации, далее делятся на одноклассовые и гетерогенные кластеры. Последние затем разбиваются на подкластеры, чтобы выделить внутренние кластеры одного класса. Авторы указывают, что SV будут производиться из разнородных кластеров с большей вероятностью, и некоторые векторы \ (\ varvec {T} \) могут быть безопасно удалены из кластеров одного класса. Избыточные одноклассовые кластеры удаляются с использованием алгоритма максимального-минимального кластерного расстояния, а векторы, принадлежащие этим кластерам, отбрасываются из \ (\ varvec {T ‘} \).

Поскольку методы кластеризации могут занимать довольно много времени, появились подходы, в которых используются различные параллельные архитектуры (например, графические процессоры), чтобы ускорить процесс выбора \ (\ varvec {T ‘} \) (Юань и др. 2015), и они были применены к реальным задачам. Другой важный вопрос этих методов, который необходимо решить, — это правильный выбор их ключевых параметров, которые могут легко повлиять на уточненные обучающие наборы. Наконец, во многих случаях все еще необходимо анализировать всю \ (\ varvec {T} \) для извлечения полезной информации.

Некластеризованные методы

Помимо методов, основанных на кластеризации, существует ряд подходов, которые используют геометрическую информацию об обучающем наборе без группировки данных. Абэ и Иноуэ (2001) оценивают, какие векторы \ (\ varvec {T} \) расположены рядом с границей принятия решения SVM, используя классификатор на основе расстояния Махаланобиса. Этот подход особенно подходит для полиномиальных ядерных функций, поскольку границы решения выражаются полиномами, когда применяется расстояние Махаланобиса (которое инвариантно для линейных преобразований входных переменных).Сначала находятся центры и ковариационные матрицы для всех векторов \ (\ varvec {T} \) (для обоих классов независимо). Затем для каждого вектора вычисляется относительной разности расстояний (\ (r_ \ mathrm {MD} \)). Для вектора положительного класса это становится

$$ \ begin {выравнивание} r_ \ mathrm {MD} (\ varvec {a}) = \ frac {\ mathrm {MD} _ {-} (\ varvec {a} ) — \ mathrm {MD} _ {+} (\ varvec {a})} {\ mathrm {MD} _ {+} (\ varvec {a})} \ le \ eta _ \ mathrm {MD}, \ end {выровнено} $$

(35)

где \ (\ mathrm {MD} _ {+} (\ varvec {a}) \) обозначает расстояние Махаланобиса между \ (\ varvec {a} \) и средним вектором положительного класса \ (\ mathrm { MD} _ {-} (\ varvec {a}) \) — это расстояние Махаланобиса между \ (\ varvec {a} \) и вектором среднего отрицательного класса, а \ (\ eta _ \ mathrm {MD} \) , где \ (\ eta _ \ mathrm {MD}> 0 \) — параметр, контролирующий «близость» к границе решения. Если значение \ (r_ \ mathrm {MD} (\ varvec {a}) \) отрицательное, то \ (\ varvec {a} \) классифицируется неверно и, скорее всего, находится рядом с гиперплоскостью решения SVM, поэтому следует быть включенным в усовершенствованный обучающий набор. Все векторы \ (\ varvec {T} \) окончательно сортируются в соответствии с их значениями \ (r_ \ mathrm {MD} \), а \ (t ‘_ \ mathrm {MD} \) векторы с наименьшими значениями выбираются для form \ (\ varvec {T ‘} \) (\ (t’ _ \ mathrm {MD} / 2 \) поэтому извлекаются для каждого класса, чтобы избежать смещения \ (\ varvec {T ‘} \) с векторами одного класса ).\ mathrm {\ mathcal {D}} \), \ (\ delta _ \ beta (\ varvec {a}, \ varvec {a} ‘) \) — расстояние между \ (\ varvec {a} \) и \ (\ varvec {a} ‘\) и \ (B_ \ beta (\ varvec {a}, r_ \ beta) \) будет окружностью с центром в \ (\ varvec {a} \) с радиусом \ (r_ \ бета \). Окрестность \ (\ mathcal {N} _ {(\ varvec {a}, \ varvec {a} ‘)} (\ beta) \) затем определяется для любого \ (\ beta \), где \ (1 \ le \ beta \ le \ infty \), как пересечение двух сфер:

$$ \ begin {align} \ mathcal {N} _ {(\ varvec {a}, \ varvec {a} ‘)} (\ beta ) = B_1 \ cap B_2, \ end {align} $$

(36)

, где

$$ \ begin {выровнено} B_1 = B ((1- \ beta / 2) \ cdot \ varvec {a} + (\ beta / 2) \ cdot \ varvec {a} ‘, (\ beta / 2) \ cdot \ delta _ \ beta (\ varvec {a}, \ varvec {a} ‘)) \ end {align} $$

(37)

и

$$ \ begin {выровнены} B_2 = B ((1- \ beta / 2) \ cdot \ varvec {a} ‘+ (\ beta / 2) \ cdot \ varvec {a}, (\ beta / 2) \ cdot \ delta _ \ beta (\ varvec {a}, \ varvec {a} ‘)). \ end {align} $$

(38)

\ (\ beta \) — скелет \ (V _ {\ beta} \) — это граф окрестностей со следующим набором ребер:

$$ \ begin {align} \ langle \ varvec {a}, \ varvec {a} ‘\ rangle \ in E \ end {align} $$

(39)

тогда и только тогда, когда

$$ \ begin {align} \ mathcal {N} _ {(\ varvec {a}, \ varvec {a} ‘)} \ cap V _ {\ beta} = \ emptyset. \ end {align} $$

(40)

Это означает, что две точки \ (\ varvec {a} \) и \ (\ varvec {a} ‘\) соединены ребром тогда и только тогда, когда в множестве нет точек \ (V _ {\ beta} \ setminus \ left \ {\ varvec {a}, \ varvec {a} ‘\ right \} \), которые принадлежат окрестности \ (\ mathcal {N} _ {(\ varvec {a}, \ varvec {a}) ‘)} (\ beta) \) [как определено в формуле.(36)]. Чжан и Кинг (2002) утверждают, что различные графы близости (например, графы Габриэля) предоставляют геометрическую информацию об обучающем наборе и могут эффективно использоваться для нахождения границы принятия решения. Следовательно, алгоритм \ (\ beta \) — скелета может применяться для определения местоположения потенциальных SV и уменьшения размера обучающей выборки. Стоит отметить, что как граф Габриэля, так и граф относительных окрестностей могут быть описаны с помощью алгоритма \ (\ beta \) — скелета с соответствующей настройкой параметров (\ (\ beta = 1 \) и \ (\ beta = 2 \), соответственно. ).Также авторы подчеркнули особенность монотонности этого параметризованного семейства графов (относительно параметра \ (\ beta \)): \ (V _ {\ beta _1} \ subset V _ {\ beta _2} \), если \ ( \ beta _1> \ beta _2 \). Хотя разные классы графиков могут быть получены путем обновления параметра \ (\ beta \) (например, для разных \ (\ beta \), \ (1 \ le \ beta \ le 2 \), будут сгенерированы разные правила ближайшего соседа ), неясно, как настроить \ (\ beta \) для нового набора данных (в своем исследовании авторы использовали методы проб и ошибок).Дополнительные сведения об алгоритмах \ (\ beta \) — скелета см. В статье Ковалука и Маевской (2015).

Ангиулли и Асторино (2010) предложили интересную технику, которая использует правило классификации быстрой конденсации ближайших соседей (FCNN) (Angiulli 2007). В своем алгоритме (сокращенно FCNN-SVM) SVM связаны с FCNN — в отличие от методов, основанных на кластеризации, критерии выбора вектора руководствуются границей решения. Правила FCNN начинаются с начального уточненного обучающего набора, состоящего из центроидов, сгенерированных для каждого класса независимо.Тогда для каждого вектора \ (\ varvec {a} \) в \ (\ varvec {T ‘} \) точка, принадлежащая ячейке Вороного (т. Е. Ячейке Вороного \ (\ varvec {a} \), является набор векторов \ (\ varvec {T} \), которые расположены ближе к \ (\ varvec {a} \) по сравнению с любым другим вектором в текущем \ (\ varvec {T ‘} \)) \ (\ varvec {a} \), но с пометкой противоположного класса, включается в уточненный набор. Алгоритм продолжается до тех пор, пока не останется больше векторов из \ (\ varvec {T} \), добавляемых к \ (\ varvec {T ‘} \). Хотя алгоритм довольно прост, он оказался эффективным и позволяет получать высококачественные уточненные обучающие наборы.

Методы анализа окрестности

Были предприняты значительные усилия по исследованию методов, которые используют статистические свойства векторов обучающего набора (или их окрестностей) в поисках высококачественных уточненных обучающих наборов. Шин и Чо (2002) предложили алгоритм выбора шаблона на основе k -ближайших соседей ( k -NN), который направлен на выбор правильно помеченных шаблонов вблизи гиперплоскости решения SVM. Авторы ввели два понятия: близость и правильность .Векторы, которые близки к границе, вероятно, будут иметь соседей смешанного класса, и их близость может быть оценена с использованием энтропии их k -ближайших соседей. Энтропия, вычисленная для вектора \ (\ varvec {a} \) для его k -ближайших соседей, равна

$$ \ begin {align} E (\ varvec {a}, k) = — \ sum _ {i \ in \ {C _ +, C _- \}} \ mathcal {P} _i \ cdot \ log {\ mathcal {P} _i}, \ end {align} $$

(41)

, где

$$ \ begin {выровнен} \ mathcal {P} _i = \ frac {k_i} {k} \ end {выравнивается} $$

(42)

и \ (k_i \) обозначает количество соседних векторов, принадлежащих i -ому классу. Векторы с положительной близостью (\ (E> 0 \)) имеют тенденцию лежать рядом с гиперплоскостью и обрабатываются. В \ (\ varvec {T ‘} \) включаются только правильно помеченные векторы из набора, извлеченного на предыдущем шаге. Правильность определяется как вероятность голосования k -NN соседних векторов. Если эта вероятность больше порогового значения, то соответствующий вектор сохраняется в уточненном наборе.

Анализ k -NN может потребовать значительных вычислительных ресурсов.Те же авторы улучшили эту технику, чтобы ускорить вычисления (Shin and Cho 2003). Усовершенствованный алгоритм основан на простом наблюдении, что соседи вектора, расположенного рядом с гиперплоскостью, также находятся в ее окрестностях. Это наблюдение было использовано для уменьшения пространства поиска — значительное количество векторов \ (\ varvec {T} \) может быть сокращено после того, как будут найдены некоторые из векторов, расположенных рядом с гиперплоскостью. Значение k заметно влияет на эффективность этой техники, поэтому его следует тщательно настраивать (Shin and Cho 2007).

Guo et al. (2010) использовали ансамблевые классификаторы в своем алгоритме выбора обучающей выборки. Используя стандартное определение поля (Schapire et al. 1998) для двоичной классификации, запас (\ (\ phi _M \)) вектора положительного класса \ (\ varvec {a} \) задается как

$$ \ begin {align} \ phi _M (\ varvec {a}) = \ frac {v _ {\ mathcal {C} _ {+}} — v _ {\ mathcal {C} _ {-}}} {v _ {\ mathcal {C} _ {+}} + v _ {\ mathcal {C} _ {-}}}, \ end {align} $$

(43)

где \ (v _ {\ mathcal {C} _ {+}} \) обозначает количество голосов (базовых классификаторов) за истинный класс \ (\ mathcal {C} _ {+} \), \ ( v _ {\ mathcal {C} _ {-}} \) — количество голосов для противоположного класса, а \ (- 1 \ le \ phi _M (\ varvec {a}) \ le 1 \).Если \ (\ phi _M (\ varvec {a}) \) положительно, это означает, что \ (\ varvec {a} \) был правильно классифицирован (в противном случае он помечен неправильным классом). Кроме того, большое значение \ (\ phi _M (\ varvec {a}) \) указывает на то, что большинство базовых классификаторов классифицировали этот вектор правильно, поэтому он, скорее всего, расположен в центре положительного распределения классов (и возможно, окруженный векторами того же класса). С другой стороны, если значение \ (\ phi _M (\ varvec {a}) \) сильно отрицательно, то \ (\ varvec {a} \), вероятно, является выбросом (или вектором с шумом).Наконец, если \ (\ phi _M (\ varvec {a}) \ приблизительно 0 \), то \ (\ varvec {a} \) располагается рядом с границей принятия решения, поскольку такое же количество базовых классификаторов классифицирует этот вектор на два противоположные классы. Guo et al. изменил исходную концепцию полей и ввел новую, в которой информация о правильном классе образца \ (\ varvec {a} \) опущена:

$$ \ begin {align} \ phi _M ‘(\ varvec { a}) = \ frac {v_ {C_1} -v_ {C_2}} {v_ {C_1} + v_ {C_2}}, \ end {align} $$

(44)

где \ (C_1 \) — класс, за который проголосовали больше (не обязательно правильный).Следовательно, \ (0 \ le \ phi _M ‘(\ varvec {a}) \ le 1 \), а меньшие значения \ (\ phi _M’ (\ varvec {a}) \) указывают, что вектор близок в гиперплоскость. На основе этого авторы строят классификатор ансамбля со всеми векторами \ (\ varvec {T} \), вычисляют запас каждого вектора, сортируют их по значениям полей и выбирают векторы с наименьшим значением \ (\ phi _M ‘( \ varvec {a}) \) в качестве кандидатов в SV для формирования усовершенствованной обучающей выборки. Базовыми классификаторами были деревья классификации и регрессии (Loh 2011) (для создания ансамбля использовалась упаковка).Этот подход подходит также для несбалансированных наборов данных.

Простой, но эффективный анализ окрестностей каждого вектора \ (\ varvec {T} \) был предложен Ван и др. (2005). Для каждого обучающего вектора определяется самая большая сфера, которая содержит только векторы одного класса, и проверяется количество векторов, охватываемых этой сферой (\ (N _ {\ varvec {a}} \) для каждого \ (\ varvec { а} \)). Затем все векторы \ (\ varvec {T} \) сортируются по возрастанию в соответствии со значениями \ (N _ {\ varvec {a}} \) — \ (t ‘/ 2 \) векторами с наименьшими \ (N _ {\ varvec {a}} \) (для каждого класса) добавляются к уточненному набору, поскольку векторы, окруженные векторами того же класса, скорее всего, не будут SV и могут быть безопасно удалены из \ (\ varvec {T ‘} \).Таким образом, отклоненные векторы \ (\ varvec {T} \) характеризуются большими значениями \ (N _ {\ varvec {a}} \). Этот подход немного напоминает методы на основе MEB.

В недавней статье Гуо и Букир (2015) расширили свой алгоритм, основанный на маржах ансамбля, — они отметили, что классические деревья мешков неэффективны в случае больших обучающих наборов и большой размерности входных данных. Они предложили использовать более мощные методы ансамбля, включая случайные леса и очень маленький ансамбль, называемый выборки малых голосов (SVIS).В SVIS авторы уменьшили размер классифицирующего комитета. Классификаторы ансамбля использовались в других алгоритмах для решения реальных проблем, например, для выбора уточненных обучающих наборов из биомедицинских данных (Oh et al. 2011).

Ли (2011) предложил метод выбора обучающих наборов для одноклассовых SVM, который может быть адаптирован для двухклассных SVM. В этом алгоритме векторы, принадлежащие одному классу кластера, содержатся на поверхности — эта поверхность может состоять из выпуклой и вогнутой формы, и она настолько «плотная», что проходит через все крайние точки данных кластера. Пример кластера визуализирован на рис. 8. В зависимости от кривизны формы, все соседние векторы крайних векторов будут расположены на одной стороне касательной плоскости (отображаемой как пунктирная линия для крайних точек \ (P_1 \ ) и \ (P_2 \) на рис. 8), либо большинство соседей будут расположены по одну сторону от этой плоскости. Авторы предложили алгоритм аппроксимации, который анализирует соседние векторы заданного (скажем, \ (\ varvec {a} \)) в поисках вектора нормали касательной плоскости в \ (\ varvec {a} \).Когда все крайние векторы найдены, они должны выжить в уточненном наборе.

Рис. 8

Одноклассовый кластер, содержащийся в поверхности, построенной с выпуклой и вогнутой формами (a) и b , две касательные плоскости в точках \ (P_1 \) и \ (P_2 \). Крайние векторы отображаются черным цветом

Ли и Магуайр (2011) предложили метод выбора критических закономерностей из входного набора данных, который сочетает в себе различные методы. Сначала создается поверхность, проходящая через все крайние точки и охватывающая одноклассные векторы, а затем гиперплоскость позиционируется по касательной к этой поверхности.Положение векторов будет зависеть от кривизны поверхности (если она выпуклая, то все векторы появятся на плоскости одинакового размера). Чтобы справиться с перекрывающимися шаблонами во входном пространстве, авторы улучшили алгоритм, добавив средство, которое устраняет перекрытие классов в наборе. Эта стратегия основана на байесовской апостериорной вероятности вектора \ (\ varvec {a} \), принадлежащего классу \ (\ mathcal {C} \), обозначенному как \ (\ mathcal {P} (\ mathcal {C} , \ varvec {a}) \). Для наборов с двумя классами как \ (\ mathcal {P} (\ mathcal {C} _ {+}, \ varvec {a}) \), так и \ (\ mathcal {P} (\ mathcal {C} _ {- }, \ varvec {a}) \) оцениваются.Если большая вероятность получена для класса, которому \ (\ varvec {a} \) не принадлежит, то этот вектор удаляется из обучающей выборки. Наконец, любые повторяющиеся шаблоны из \ (\ varvec {T} \) удаляются из набора данных во время предварительной обработки. Авторы показали, что их алгоритм конкурирует с четырьмя современными методами и применим к другим классификаторам.

В недавней статье Cervantes et al. (2015) включили индукционное дерево, чтобы уменьшить размер обучающих наборов SVM.Основная идея предлагаемого метода состоит в том, чтобы обучить SVM с использованием значительно меньших уточненных обучающих наборов, а затем пометить векторы из \ (\ varvec {T} \) как те, которые находятся близко или далеко от гиперплоскости принятия решения. Дерево решений используется для идентификации векторов, которые имеют характеристики, аналогичные характеристикам, аннотированным как SV. Первоначальный выбор небольшого подмножества \ (\ varvec {T} \) выполняется с помощью очень простой эвристики, в которой исследуется уровень дисбаланса набора данных. Авторы классифицируют входящий набор данных (на основе двух предопределенных пороговых значений, \ (\ tau _ {u} = 0.1 \) и \ (\ tau _ {b} = 0,25 \), а коэффициент дисбаланса \ (\ mathcal {I} \) набора данных, заданный как \ (\ mathcal {I} = \ frac {\ min \ left \ {t _ {+}, t _ {-} \ right \}} {t} \), где \ (t _ {+} \) и \ (t _ {-} \) обозначают количество векторов из каждого класса в \ (\ varvec {T} \)) к одному из следующих классов: (i) сбалансированный, (ii) слегка несбалансированный (если \ (\ tau _ {b} \ le \ mathcal {I} \ le 0. 5 \) ), (iii) умеренно несбалансированный (\ (\ tau _ {u} \ le \ mathcal {I} <\ tau _ {b} \)) или (iv) сильно несбалансированный (\ (\ mathcal {I} <\ тау _ {и} \)).Если набор данных сбалансирован, то исходное подмножество извлекается с использованием случайной выборки. В противном случае, если набор данных незначительно или умеренно несбалансирован, применяется обратная вероятность, пропорциональная мощности набора данных (например, если \ (80 \% \) векторов происходят из отрицательного класса, следовательно, \ (\ mathcal {I} = 0,2 \), то случайная выборка рисует \ (80 \% \) векторов положительного класса). Если набор данных сильно несбалансирован, то все векторы из менее многочисленного класса сохраняются в \ (\ varvec {T '} \). На основе гиперплоскости решений, полученной с помощью \ (\ varvec {T '} \), индуцируется дерево решений для моделирования распределения SV.Это дерево используется для извлечения тех векторов, которые не были аннотированы как SV, но имеют аналогичное распределение - они включены в \ (\ varvec {T '} \).

He et al. (2011) представили основанную на соседстве модель грубого множества (FARNeM) для поиска граничных векторов в \ (\ varvec {T} \). Эта модель используется для разделения векторов на три области: (i) положительная область, (ii) шумная область и (iii) граничная область. Кроме того, все функции входных данных разделены на: (i) сильно релевантные функции, (ii) слабо релевантные и незаменимые функции, (iii) слабо релевантные и избыточные функции и (iv) нерелевантные функции.Авторы находят пространство признаков на основе этих групп признаков, а затем ищут важные векторы \ (\ varvec {T} \), которые следует добавить в \ (\ varvec {T ‘} \). Целью алгоритма выбора признаков является получение минимального количества атрибутов, которые характеризуют входные данные так же хорошо, как и все атрибуты, таким образом, он постепенно увеличивает подмножество атрибутов до тех пор, пока зависимость не перестанет увеличиваться. FARNeM приступает к анализу векторов обучающего набора, чтобы различать SV-кандидатов (векторы, расположенные в граничной области, являются вероятными SV), бесполезные векторы и зашумленные на основе модели приблизительного набора окрестностей. Авторы используют два важных пороговых значения, которые влияют на производительность FARNeM — их следует настраивать с осторожностью, поскольку их неправильный выбор может довольно легко поставить под угрозу производительность алгоритма.

Эволюционные методы

Хотя эволюционные алгоритмы (ЭА) показали свою высокую эффективность в решении широкого круга задач распознавания образов и оптимизации (Pietruszkiewicz and Imada 2013; Li et al. 2007; Wrona and Pawełczyk 2013; Acampora et al.2015) ; Nalepa et al. 2015a), они не были тщательно изучены для выбора усовершенствованных обучающих наборов SVM (Kawulok 2007).Нишида и Курита (2008) предложили гибридный алгоритм (RANSAC – SVM), который сочетает в себе случайную выборку, консенсусный подход (Fischler and Bolles, 1981) и простой эволюционный метод получения \ (\ varvec {T ‘} \) ’s. В их подходе сначала случайным образом рисуются несколько усовершенствованных обучающих наборов небольшого размера. Затем — на основе оценок классификации SVM, изученных с использованием соответствующих уточненных наборов, — определяется лучший \ (\ varvec {T ‘} \) (посредством наилучшего консенсуса). Кроме того, авторы использовали простой GA с многоточечным кроссовером для дальнейшего улучшения уточненных наборов (пары этих уточненных наборов пересекаются, чтобы сформировать дочерние решения, которые наследуют случайные векторы обучающего набора от обоих родителей).Вся процедура (включая случайный выбор обучающих наборов SVM и их эволюцию) повторяется несколько раз, следовательно, обрабатываются многочисленные потенциально некоррелированные совокупности.

В генетическом алгоритме (GASVM), предложенном Кавулоком и Налепой (2012), популяция индивидуумов (хромосом), представляющая усовершенствованные обучающие наборы заданного размера, эволюционирует во времени. Эта эволюция включает стандартные генетические операторы — отбор, кроссовер и мутацию. Пригодность каждого человека — это площадь под кривой рабочих характеристик приемника (или точность классификации), полученная для \ (\ varvec {T} \).Хотя этот алгоритм оказался очень эффективным и превзошел методы случайной выборки, было неясно, как выбрать размер людей (который нельзя было изменить позже). Эта проблема была решена в адаптивном генетическом алгоритме (AGA), предложенном теми же авторами (Nalepa and Kawulok 2014a): размер особей, а также размер популяции и схема отбора были адаптированы на лету, чтобы реагировать на эволюцию. прогрессировать как можно лучше. Этой адаптацией управляли параметры, установленные априори .Следовательно, неправильно настроенные значения параметров могут легко поставить под угрозу поиск (например, использование более мелких уточненных наборов и изучение более крупных могло быть несбалансированным). Динамически адаптивный генетический алгоритм (DAGA) (Kawulok and Nalepa 2014a) представил схему адаптации, которая может обновляться в процессе эволюции на основе характеристик лучших особей (т.е. ожидаемого соотношения SV в уточненных наборах). Ожидаемое соотношение необходимо определить заранее, что нетривиально.

Меметические алгоритмы (MA) сочетают советники с процедурами уточнения, чтобы улучшить уже найденные решения. Они могут использовать знания, полученные в ходе эволюции или извлеченные заранее. Такие методы оказались чрезвычайно эффективными при решении множества сложных проблем (Nalepa and Blocho, 2016). Налепа и Кавулок (2014b) предложили первую МА (названную MASVM) для выбора уточненных обучающих наборов SVM. Пул важных векторов (которые были выбраны в качестве SV в процессе эволюции) поддерживается и используется для обучения населения, а также для введения супериндивидуумов — уточненных наборов, состоящих только из SV.2 \) MA), Налепа и Кавулок (2016a, b) ввели этап предварительной обработки, на котором геометрия \ (\ varvec {T} \) анализируется в поисках потенциально ценных векторов (до эволюции). Этот набор из векторов-кандидатов используется не только для создания начальной популяции (он помогает генерировать уточненные наборы более высокого качества, которые позже претерпевают эволюцию), но также для компенсации дочерних элементов (если они содержат меньше векторов, чем ожидалось — на рис. 9 , представлен процесс создания потомка для пары хромосом \ ((p_a, p_b) \), представляющей уточненные наборы), и для создания новых хромосом во время выполнения (для разнообразия поиска). 2 \) МА. Эта цифра была вдохновлена ​​Налепой и Кавулоком (2016a)

Другие работы над советниками для этой задачи были недавно опубликованы. Fernandes et al. (2015) применили многоцелевой эволюционный метод, чтобы разработать сбалансированные уточненные обучающие наборы, извлеченные из несбалансированных наборов данных. Целью было разработать разнообразные и хорошо работающие классификаторы и объединить их в ансамбль классификаторов. Эксперименты, проведенные для нескольких наборов тестов, показали, что эволюционный подход может превзойти другие современные методы работы с большими и несбалансированными наборами данных.

Пигетти и др. (2015) улучшили генетическую эволюцию с помощью хеширования, чувствительного к локальности (чтобы найти ближайший вектор в \ (\ varvec {T} \) для любого сгенерированного вектора во время оптимизации) (Gorisse et al. 2010), и использовали его для решения нескольких классификационные задачи (использовалась стратегия «один против всех»). Хотя подход многообещающий, неясно, когда остановить оптимизацию для мультиклассовых задач (авторы прекратили эволюцию после того, как были извлечены 60 векторов из каждой категории).

Verbiest et al. (2016) недавно исследовали эффективность различных эволюционных методов для выбора обучающих наборов SVM: (i) стандартный генетический алгоритм, (ii) адаптивный генетический алгоритм, который динамически обновляет порог кроссовера [пересекаться могут только заметно разные родители ( Eshelman 1991)], и (iii) генетический алгоритм устойчивого состояния [два родителя отбираются для создания потомства (Cano et al. 2003)]. Интересно, что соответствие включало не только точность классификации SVM-классификатора, но и коэффициент сокращения, показывающий, насколько уменьшен вход \ (\ varvec {T} \).Эти методы упаковки изначально использовались для классификации k -NN, и обширное экспериментальное исследование ясно показало, что они могут быть легко адаптированы и для SVM.

В своей недавней статье Кавулок и Налепа (2015) показали, что развивающиеся обучающие векторы и метки могут быть эффективно использованы для управления обучающими SVM из слабо помеченных обучающих наборов. Согласно их меметическому подходу, лучшей особью в популяции является эксперт , и он используется в операции обучения .При необходимости обучающая выборка переименовывается, а другие индивидуумы уточняются (заменяются векторы, изменившие метку во время обучения). Несмотря на то, что алгоритм работал очень хорошо для наборов данных с неправильной маркировкой, его производительность ухудшалась для правильно маркированных \ (\ varvec {T} \) ‘s — этот вопрос требует дальнейшего изучения.

Интересный альтернативный генетический алгоритм (сокращенно ALGA) для оптимизации модели SVM наряду с обучающими наборами SVM был предложен Kawulok et al.(2017). Авторы заметили, что разные модели SVM (то есть функции ядра и их значения гиперпараметров) могут быть оптимальными для разных обучающих наборов. В ALGA две независимые популяции (одна представляет уточненные обучающие наборы, а другая — модели SVM) поочередно развиваются для решения двух задач оптимизации, имеющих общую функцию приспособленности (точность классификации по проверочному набору, полученному с использованием SVM, обученного с наилучшим усовершенствованным обучением. набор и функция ядра). Процесс чередования продолжается до тех пор, пока хотя бы на одной из этих двух последующих фаз оптимизации удается улучшить среднюю приспособленность популяции.Эксперименты, проведенные как для искусственно созданных наборов данных, так и для эталонных наборов данных, показали, что ALGA может эффективно выбирать обучающий набор SVM без необходимости предварительно настраивать гиперпараметры SVM. Хотя авторы сосредоточились на ядре радиальной базисной функции (RBF), этот метод можно легко адаптировать к любой другой функции ядра. Интересным направлением исследований могло бы стать усовершенствование ALGA с дополнительным шагом выбора функций для многомерных наборов данных.

Активные методы обучения

В моделях активного обучения векторы изначально не помечены, и цель активного учащегося состоит в том, чтобы вывести предиктор меток из входных данных.Это выполняется в интерактивном режиме, при котором учащийся может запросить метку определенного вектора (эта операция связана с соответствующей стоимостью). Следовательно, активное обучение можно интерпретировать как процесс получения меток для немаркированных данных, и его можно применять для полностью немаркированных наборов данных, а также для тех наборов, которые включают векторы с отсутствующими метками.

Метод активного обучения для выбора уточненных множеств был предложен Шоном и Коном (2000) — они использовали вычислительно эффективную эвристику для маркировки векторов, лежащих рядом с гиперплоскостью решения SVM.Авторы используют метод выборочной выборки (являющийся формой активного обучения), при котором учащимся предоставляется большой немаркированный набор данных и предоставляется возможность самим маркировать эти векторы (маркировка каждого вектора «стоит» некоторой искусственной платы. ). Учащиеся пытаются минимизировать ошибку в данных, которые появятся в системе в будущем. В эвристическом алгоритме, предложенном Шоном и Коном (2000), одним из критериев активного обучения является поиск векторов, ортогональных пространству, охватываемому текущим уточненным обучающим набором. Кроме того, информация об уже известных измерениях данных увеличивается за счет сужения существующего запаса — эффективно извлекаются только те векторы, которые близки к гиперплоскости решения.

SVM, улучшенные алгоритмами активного обучения, успешно применялись во многих реальных приложениях (Тонг и Коллер, 2002). Тонг и Чанг (2001) использовали такие методы в своей системе для проведения эффективной обратной связи по релевантности Footnote 3 для поиска изображений и предложили метод на основе пула активного обучения .Пул содержит непомеченные векторы \ (\ varvec {T} \), которые анализируются и при необходимости добавляются к \ (\ varvec {T ‘} \). Классификатор обучается с использованием помеченного набора (если это первый раунд обратной связи, тогда пользователя просят пометить количество случайно нарисованных векторов; в противном случае пользователь маркирует некоторые изображения пула, которые являются ближайшими к границе решения).

Методы случайной выборки

В методах случайной выборки для выбора уточненных обучающих наборов SVM векторы \ (\ varvec {T} \) рисуются случайным образом и — на основе дополнительных эвристик — добавляются к \ (\ varvec {T ‘ } \) или нет. Простота таких методов упрощает их реализацию и становится их самым большим преимуществом в практических сценариях. Кроме того, они кажутся достаточными в ряде реальных обстоятельств (когда можно оценить размер желаемых уточненных множеств), и они не зависят от мощности \ (\ varvec {T} \). Однако они могут легко неправильно вести себя для очень больших и зашумленных наборов данных, поскольку удаление неверно помеченных векторов из \ (\ varvec {T ‘} \) (влияющее на производительность SVM) часто занимает довольно много времени (Nalepa and Kawulok 2016a).

Простой подход к сокращению \ (t \) — это случайная выборка векторов \ (t ‘\) из \ (\ varvec {T} \) (Balcázar et al. 2001). В этом алгоритме выборки случайное подмножество \ (\ varvec {T} \) рисуется в соответствии с весами, присвоенными векторам обучающего набора Footnote 4 (чем выше вес, тем больше вероятность включения соответствующего вектора в \ (\ varvec {T ‘} \)). Затем классификатор SVM обучается с использованием этого подмножества, и \ (\ varvec {T} \) анализируется, чтобы проверить, какие векторы были правильно классифицированы с использованием полученной гиперплоскости решения. Веса тех векторов, которые были неправильно классифицированы, удваиваются, так что они с большей вероятностью будут выбраны и включены в \ (\ varvec {T ‘} \) в следующем цикле выборки. Если количество раундов достаточно велико, то важные векторы (мы надеемся, включая SV) будут иметь более высокие веса, чем другие векторы, и уточненный набор будет составлен из этих SV. «Оптимальный» размер \ (\ varvec {T ‘} \) заранее не известен, поэтому количество выбранных векторов следует определять тщательно (обычно методом проб и ошибок, требующих больших затрат времени).Это становится существенным недостатком этого алгоритма, особенно в случае очень больших наборов данных. Кроме того, подходы случайной выборки могут игнорировать важные (и полезные) отношения, которые возникают в наборе данных — если бы эти функции обучающего набора использовались во время выполнения, время сходимости таких методов могло бы быть значительно сокращено (например, только векторы, лежащие рядом с границей векторных групп одного класса могут быть выбраны, потому что они, вероятно, будут влиять на положение гиперплоскости SVM).

Сводка методов сокращения обучающих наборов SVM

В таблице 3 приведены алгоритмы уменьшения размера обучающих наборов SVM. Они были разделены на несколько категорий в зависимости от стратегий оптимизации. Кроме того, мы сообщаем о наиболее важных характеристиках подходов, подробно обсуждаемых в предыдущих разделах. Эти функции включают:

  • Тип — указывает, является ли метод однопроходным или итерационным .В итерационных подходах начальный уточненный обучающий набор постепенно улучшается, чтобы включать лучшие векторы из \ (\ varvec {T} \). Такие методы включают в себя алгоритмы, которые (i) продолжают улучшать уточненные наборы заданного (постоянного) размера, и те, которые (ii) уменьшают или (iii) увеличивают уточненные наборы для повышения их качества.

  • Источник — основной источник информации, касающийся обучающего набора. Знания, извлеченные из этого источника, затем используются для создания уточненных наборов в процессе оптимизации. Мы выделяем пять возможных источников информации, которые могут быть использованы для этой цели — они сведены в Таблицу 1. Обратите внимание, что существуют методы, которые используют несколько источников информации.

  • Рандомизированный — показывает, является ли алгоритм рандомизированным или детерминированным .

  • Зависит от \ (t \) — показывает, зависит ли алгоритм от мощности \ (\ varvec {T} \). Если это так, может потребоваться анализ всего обучающего набора, что часто невозможно в очень больших реальных наборах данных. Следовательно, в практических приложениях следует отдавать предпочтение методам, не зависящим от \ (t \).

  • Данные — указывает, какие типы наборов данных использовались для проверки соответствующего алгоритма (A — искусственно созданный, B — эталонный тест, R — наборы данных из реальной жизни).

  • Максимум \ (t \) — указывает (примерно) максимальный размер набора данных, для которого метод был протестирован в указанной статье. Как упоминалось в разд. 1, термин большой набор данных довольно неоднозначен в литературе (мощность больших наборов может варьироваться от сотен до миллионов векторов \ (\ varvec {T} \)).

Таблица 1 Источники информации, используемые для генерации уточненных обучающих наборов SVM

Оценка алгоритмов выбора обучающего набора SVM

Оценка качества новых алгоритмов выбора обучающих наборов SVM — сложная и многогранная задача.Эти методы могут быть исследованы как количественно , так и качественно (например, путем визуализации извлеченных уточненных наборов вместе с SV и проверки того, образуют ли они какие-либо конкретные геометрические узоры). В этом разделе мы обсуждаем количественные меры, которые используются для оценки новых и существующих алгоритмов выбора обучающих наборов, наряду со стандартной экспериментальной установкой и наборами данных (вместе с их характеристиками), которые обычно используются в экспериментах.Наконец, мы представляем несколько практических приложений, в которых были использованы различные алгоритмы для выбора уточненных обучающих наборов SVM.

Количественные показатели

Следующие количественные показатели широко используются в литературе для оценки эффективности новых методов выбора обучающей выборки — для каждого показателя мы указываем, следует ли его значение максимизировать (\ (\ uparrow \)) или минимизировать (\ (\ downarrow \)):

  • Производительность классификации SVM, обученного с использованием уточненного набора (\ (\ uparrow \)) Производительность классификаторов (включая SVM) оценивается на основе соотношений, полученных из числа (а) правильно классифицированных векторов положительного класса — истинно положительных (TP), (b) правильно классифицированных векторов отрицательного класса — истинных отрицательных (TN), (c) неправильно классифицированных векторов отрицательного класса — ложных положительных результатов (FP), и (d) неправильно классифицированных положительных -классовые векторы — ложных отрицательных результатов (FN), полученных для тестового набора , который не использовался во время обучения (см. Таблицу 2).Использование невидимого набора данных позволяет проверить возможности обобщения классификатора.

    Полученные коэффициенты включают, среди прочего, истинно положительный коэффициент:

    $$ \ begin {align} \ mathrm {TPR} = \ frac {\ mathrm {TP}} {\ mathrm {TP + FN}} \ end { выровнено} $$

    (45)

    , а количество ложных срабатываний:

    $$ \ begin {выровнено} \ mathrm {FPR} = \ frac {\ mathrm {FP}} {\ mathrm {FP + TN}.} \ End {align} $$

    (46)

    TPR и FPR часто представлены в виде кривых рабочих характеристик приемника (ROC) (Fawcett 2006).Каждая точка на этой кривой — это производительность SVM для заданного порога принятия решения (Yu et al. 2015). Вычисление площади под этой кривой (AUC) сокращает кривую ROC до одного скалярного значения, представляющего производительность классификатора (чем выше значения AUC, тем лучше и \ (0 \ le \ mathrm {AUC} \ le 1 \)). Площадь под кривой ROC и точность (ACC):

    $$ \ begin {align} \ mathrm {ACC} = \ frac {\ mathrm {TP} + \ mathrm {TN}} {\ mathrm {TP } + \ mathrm {TN} + \ mathrm {FP} + \ mathrm {FN}} \ end {align} $$

    (47)

    — это наиболее широко используемые меры, используемые для количественной оценки производительности алгоритмов выбора обучающего набора (производительность классификации SVM, обученного с использованием уточненного набора, должна быть максимальной).Другие общие меры включают точность, отзыв и F-меру (Хосравани и др., 2013).

  • Размер уточненного обучающего набора (\ (\ downarrow \)) Основная цель алгоритмов выбора обучающего набора — минимизировать мощность обучающего набора (в идеале без снижения производительности классификации SVM). Следовательно, количество векторов в уточненных наборах, разработанных с использованием таких подходов, почти всегда исследуется. Чтобы упростить интерпретацию этого показателя для наборов данных разного размера, он очень часто представлен как коэффициент уменьшения (\ (\ mathcal {R} \)):

    $$ \ begin {align} \ mathcal {R} = \ frac {t} {t ‘}, \ end {align} $$

    (48)

    где \ (t ‘\) — мощность уточненного обучающего набора, а \ (t \) — размер исходного набора данных. Эта скорость снижения должна быть максимальной.

  • Количество опорных векторов (\ (\ downarrow \)) Как уже упоминалось, количество SV влияет (линейно) на время классификации SVM.Поэтому его следует минимизировать, чтобы ускорить работу обученного классификатора.

  • Процент векторов в уточненном обучающем наборе, выбранном в качестве опорных векторов (\ (\ uparrow \) Определение желаемой мощности уточненных наборов часто является критическим шагом в алгоритмах выбора обучающего набора. Такие уточненные наборы должны быть небольшими и должны включать важных вектора, которые, вероятно, будут выбраны в качестве SV во время обучения SVM.В нескольких работах исследовался процент векторов в уточненных обучающих наборах, выбранных в качестве SV (Nalepa, Kawulok, 2016a; Verbiest et al., 2016). Этот процент должен быть максимальным, чтобы количество «бесполезных» векторов в уточненном наборе было как можно меньшим. Однако эта мера может легко ввести в заблуждение — выбор всех векторов обучающего набора в качестве SV может быть признаком переобучения и отсутствия возможностей обобщения.

  • Выбор обучающего набора, время обучения SVM и классификации (\ (\ downarrow \)) Во всех современных подходах время выполнения алгоритма выбора обучающего набора должно быть минимизировано.Кроме того, необходимо минимизировать время обучения и классификации SVM (это время коррелирует с размером уточненного обучающего набора и количеством определенных SV). \ mathrm {B} \) — наилучшее (наименьшее) количество определенных SV по исследуемым алгоритмам выбора обучающего набора, а q обозначает важность первой цели (\ (0 Q извлекается для лучшего алгоритма выбора обучающего набора.

Таблица 2 Прогнозируемые и реальные условия — жирным шрифтом показана ошибочная классификация Таблица 3 Сводка современных методов уменьшения мощности обучающих наборов SVM
Стандартная экспериментальная установка

В стандартной экспериментальной установке , каждый новый алгоритм выбора обучающего набора сравнивается с (i) рядом существующих методов выбора и (ii) SVM, обученными с использованием всего обучающего набора (это может быть невозможно для очень больших наборов данных).Рандомизированные подходы (см. Таблицу 3) часто выполняются несколько раз (обычно не менее \ (30 \ times \)), а затем количественные результаты усредняются. Чтобы глубоко изучить возможности обобщения алгоритмов, эксперименты почти всегда выполняются в соответствии со стратегией перекрестной проверки k раз (набор данных делится на обучающий и тестовый набор k раз без каких-либо перекрытий — обучающий набор). включает \ ((k-1) \) фрагменты данных, тогда как тестовый набор только один фрагмент; затем результаты, полученные для каждого свертка, усредняются).Эксперименты разделены на две группы:

  • Анализ чувствительности Влияние наиболее важных компонентов нового алгоритма на его общую производительность проверяется в анализе чувствительности. Обычно один (или несколько) компонентов включен (другие компоненты отключены), и эксперименты повторяются для каждой конфигурации.

  • Сравнение с другими алгоритмами выбора обучающего набора и SVM, обученными с использованием всего набора Сравнение с современным уровнем техники всегда имеет решающее значение для новых алгоритмов выбора обучающего набора. Кроме того, их обычно сравнивают качественно и количественно (с использованием показателей, обсужденных в предыдущем разделе) с SVM, обученными с использованием всего набора — без применения какого-либо выбора обучающего набора (однако это может быть невозможно из-за мощности этого набора) и других техники из литературы (очень часто из разных категорий).

Поскольку количество сравниваемых алгоритмов обычно велико, и каждый из них может работать по-разному для разных наборов данных, выполнение соответствующих (непараметрических) статистических тестов для исследования статистической значимости полученных результатов стало стандартной процедурой в машине. поле обучения.Стандартная нулевая гипотеза, гласящая, что , применяя алгоритм A, приводит к получению результатов того же качества, что и результаты, разработанные алгоритмом B часто проверяется двусторонними знаковыми ранговыми тестами Вилкоксона (Woolson 2007) (Shin and Cho ( 2007) использовали для этой цели тест Макнемара). В экспериментах, охватывающих несколько наборов данных, выполняется тест Фридмана, чтобы проверить, какой алгоритм превосходит другие методы, принимая во внимание все исследованные наборы данных (Friedman 1937).

Наборы данных и практические приложения

Эффективность новых алгоритмов выбора обучающих наборов обычно проверяется с использованием трех типов наборов данных:

  • Искусственно созданные наборы данных Векторы в искусственных наборах данных обычно создаются в соответствии с известным распределением (например, распределением Гаусса). Следовательно, основные характеристики данных известны (что не всегда достижимо в случае эталонных и реальных наборов).Кроме того, искусственно созданные наборы часто легко визуализировать. Такие наборы данных используются для понимания поведения новых алгоритмов выбора обучающего набора (например, расположены ли векторы в уточненных наборах рядом с гиперплоскостью принятия решения или есть ли какие-либо векторы, которые можно удалить из уточненных наборов, поскольку они не выбраны как SV). Несколько искусственно созданных наборов данных доступны по адресу http://sun.aei.polsl.pl/~jnalepa/SVM/ (см. Примеры наборов данных на рис.10 — белые и черные пиксели визуализируют векторы из положительного \ (\ varvec {T} _ {+} \) и отрицательного \ (\ varvec {T} _ {-} \) классов; векторы обучающего набора сгруппированы в кластеры в \ (\ alpha \) версиях этих 2D-наборов).

  • Наборы контрольных данных Такие наборы данных (с разными характеристиками) используются для сравнения производительности алгоритмов выбора обучающих наборов (контрольные наборы использовались в более чем \ (70 \% \) статей, представленных в этом обзоре).Эти наборы данных можно загрузить из следующих репозиториев:

    В таблице 4 мы собрали характеристики десяти наиболее часто используемых (в проанализированных статьях) наборов тестов вместе с именем репозитория (один и тот же набор данных часто можно загрузить из более чем одного репозитория. ). Для мультиклассовых наборов (например, Yeast ) выполняется попарное связывание — задача классификации мультиклассов разлагается на задачи двух классов и используется принцип большинства (несколько двоичных SVM голосуют за окончательную метку класса для входящего вектора).Хотя размеры этих эталонных наборов данных не очень велики, они широко используются в литературе для сравнения алгоритмов выбора обучающих наборов (также благодаря четко определенному экспериментальному протоколу, который часто представлен на веб-сайте репозитория — это значительно упрощает сравнение ).

  • Практические приложения и наборы данных из реальной жизни Хотя объем генерируемых данных в настоящее время неуклонно растет, а размер обучающих наборов стал реальным препятствием для использования SVM на практике, только менее \ (45 \% \) всего исследованного обучения Алгоритмы выбора наборов были протестированы с использованием реальных наборов данных. 5 \) обучающих изображений (рукописных цифр, принадлежащих 10 классам, см. Рис.11). Важные приложения автоматизированного анализа оцифрованного рукописного текста включают обработку банковских чеков, идентификацию почтового адреса, анализ исторических документов или биометрическую аутентификацию.

  • Обнаружение и сегментация кожи Обнаружение пикселей, представляющих человеческую кожу на цветных изображениях (который является предварительным этапом процесса сегментации области кожи, целью которого является определение границ областей кожи), является сложной и важной задачей распознавания образов.6 \) пикселей в сумме) — они использовали изображения из базы данных обнаружения лиц и кожи ECU, разработанной Phung et al. (2005) (см. Примеры изображений на рис. 12 — обратите внимание, что пиксели кожи демонстрируют разные характеристики цвета и интенсивности) и использовали этот набор для тестирования своих нескольких алгоритмов выбора обучающего набора SVM (Nalepa and Kawulok 2014a, b, 2016a; Kawulok and Nalepa 2014a; Налепа 2016).

  • Оценка позы руки Кавулок и Налепа (2014b) применили SVM для распознавания позы рук на основе дескрипторов контекста формы (Belongie et al.2002). В их подходе векторы различий между двумя формами рук классифицируются, чтобы определить, представляют ли они одну и ту же позу (следовательно, классовое решение является косвенным). Авторы показали, что обучающие наборы могут стать очень большими даже для относительно небольшого количества жестов (например, для n жестов, \ (\ frac {n!} {2 \ cdot (n-2)!} \) Векторов признаков получены). Чтобы сделать SVM применимыми в этом сценарии, был использован генетический метод для выбора усовершенствованных обучающих наборов SVM (Kawulok and Nalepa 2012).

  • Обнаружение лиц Кавулок (2007) и Ван и др. (2013a) проверили свои алгоритмы выбора обучающего набора SVM в задаче обнаружения лиц — Wang et al. (2013a) использовал набор данных из почти 3500 изображений, тогда как Kawulok (2007) использовал 1000 изображений из известной базы данных Feret, представленной Филлипсом и др. (1998). Обнаружение лиц — это задача распознавания образов, направленная на определение того, содержит ли входное изображение человеческое лицо.Алгоритмы распознавания лиц используются в системах наблюдения, взаимодействиях человека с компьютером и в развлекательных приложениях, определении характеристик походки человека, гендерной классификации и многом другом (Paul and Haque 2013).

  • Обнаружение обманчивых выражений лица Анализ изображений лица — активная тема — новые направления исследований сосредоточены на распознавании и понимании динамики лица для обнаружения обмана, поведенческого анализа и диагностики психологических расстройств.Кавулок и др. (2016) использовали детекторы интенсивности быстрой улыбки для разработки текстурных черт лица, которые вводятся в конвейер классификации SVM, чтобы различать позирующие и спонтанные выражения в видеопоследовательностях из базы данных UvA-NEMO, содержащей 1240 последовательностей, включая 643 позированных и 597 спонтанных улыбок (Dibeklioğlu et al. 2012) — см. примеры на рис. 13. Поскольку эти особенности извлекаются для каждого кадра (также те, которые являются нейтральными , без каких-либо функций, раскрывающих характеристики улыбки), обучающие наборы SVM могут стать очень большими и часто содержать « бесполезные »векторы.Чтобы справиться с этими проблемами, авторы использовали свой меметический алгоритм выбора обучающего набора (Nalepa and Kawulok 2016a).

  • Поиск изображений Тонг и Чанг (2001) показали, что их алгоритм выбора обучающего набора для активного обучения SVM может успешно применяться для поиска изображений. Он выбирает наиболее информативные изображения для эффективного запроса пользователя и быстрого изучения гиперплоскости решения, которая должна разделять немаркированные изображения \ (\ varvec {T} \), чтобы удовлетворить запрос пользователя.Используя наборы данных из реальной жизни (включающие до 2000 изображений, собранных из Интернета), авторы доказали, что их метод превосходит другие современные подходы к поиску изображений. Такие методы поиска изображений обычно применяются в текстильной промышленности, механизмах фильтрации обнаружения обнаженной натуры, архивах изображений и произведений искусства и даже в медицинской диагностике (Trojacanec et al. 2009).

  • Биомедицинские приложения Выбор подходящих обучающих наборов — важная проблема в биомедицинских приложениях, так как качество и объем данных являются большими проблемами в этой области.Следующие пункты суммируют наиболее интересные биомедицинские приложения, в которых были протестированы и использованы алгоритмы выбора обучающего набора SVM.

    • Классификация РНК SVM были успешно применены для обнаружения некодирующих РНК (нкРНК) в секвенированных геномах (Узилов и др., 2006). Однако наборы данных РНК очень большие, что влияет на обучение SVM. Сервантес и др. (2008) использовали свой алгоритм выбора обучающего набора на основе кластеризации для двух наборов данных РНК (первый включал почти \ (5 \ times 10 ^ 5 \) векторов с 8 функциями, а второй — \ (2 \ times 10 ^ 3 \) ) векторов с 84 характеристиками) и показал, что он вполне конкурентоспособен с современными технологиями для таких крупномасштабных данных. 5 \) векторов с 8 признаками).

    • Классификация болезней (например, лейкемия, диабет, болезнь Паркинсона, гепатит) Существует множество подходов, которые были протестированы при решении различных задач классификации болезней. В стандартном сценарии анализа медицинских изображений мощность обучающего набора не очень велика, но такие наборы данных сильно несбалансированы (обычно здоровых примеров по сравнению с патологических ).Следовательно, неизбежно применение соответствующего подхода к выбору желаемых обучающих наборов. Ох и др. (2011) исследовали выбор тренировочного набора SVM, используя такие несбалансированные наборы для различных заболеваний (лейкемия, диабет, болезнь Паркинсона, гепатит, рак груди и сердечные заболевания). Эти наборы данных включали до 800 векторов (набор данных Diabetes ), а количество признаков достигало почти 7200 в наборе данных Leukemia .

  • Обнаружение сетевых вторжений Yu et al.6 \) векторы). Этот набор данных доступен по адресу http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html, и он использовался в качестве эталона на Третьем международном конкурсе инструментов для обнаружения и интеллектуального анализа данных, который проводился вместе с Пятая Международная конференция по открытию знаний и интеллектуальному анализу данных (KDD-99). Интересно, что тестовые данные не соответствуют тому же распределению вероятностей, что и обучающие данные (оно включает 14 конкретных типов атак, которых нет в \ (\ varvec {T} \), в которых даны 24 обучающих типа атак).Yu et al. (2003) показали, что их метод выбора обучающей выборки на основе кластеризации может легко превзойти случайную выборку в этом сценарии.

  • Классификация текстов Классификация текстов, являющаяся проблемой определения того, к какой теме принадлежит данный текстовый документ (он может быть в одной, нескольких или ни одной категории из-за перекрытия этих категорий), является важной темой исследования, которая была ускорена быстрым ростом онлайн-информации. Его приложения включают фильтрацию спама, идентификацию языка, маршрутизацию электронной почты, оценку читаемости и многое другое. Шон и Кон (2000) и Тонг и Коллер (2002) занялись этой проблемой, чтобы проверить возможности своих подходов к SVM с активным обучением. Они использовали набор данных Reuters-21578 (http://www.daviddlewis.com/resources/testcollections/reuters21578/) в конфигурации разделения данных ModApte (есть несколько предопределенных разделений обучающих тестов, предоставленных авторами этого набор данных) с почти \ (1.4 \) особенности каждого) и рассмотрели 10 наиболее часто встречающихся категорий. Другой широко используемый набор данных для классификации текстов — Newsweeder (Lang 1995), также исследованный в этих статьях.

  • Кредитный скрининг Lyhyaoui et al. (1999) протестировали свой выбор обучающего набора SVM, используя набор данных из 690 примеров (15 функций, 2 класса), отражающих кредитоспособность клиентов. Хотя этот набор данных, как известно, является зашумленным (Quinlan 1999), авторам удалось превзойти точность классификации на \ (90 \% \) с помощью своей методики, основанной на кластеризации.

Рис. 10

Примеры искусственно созданных наборов 2D-данных

Таблица 4 Сводка наиболее часто используемых наборов эталонных данных Рис.11

Пример изображений MNIST (рукописные цифры)

Рис.12

Примеры изображений, используемых для создания набора данных Skin

Рис. 13

Примеры а, позированных и b спонтанных улыбок (выделенные кадры). Этот рисунок вдохновлен Kawulok et al. (2016)

Объяснение машин опорных векторов

| by Zach Bedell

Машины опорных векторов (SVM) — популярный линейный классификатор, текущая версия которого была разработана Владимиром Вапником и Коринной Кортес. SVM — это модели обучения с учителем, то есть образцы данных должны быть помечены, что может применяться практически к любому типу данных.

Они особенно эффективны в задачах классификации, числового прогнозирования и распознавания образов . SVM находят линию (или гиперплоскость в размерах больше 2) между разными классами данных, так что расстояние по обе стороны от этой линии или гиперплоскости до ближайших точек данных максимально.

Другими словами, машины опорных векторов вычисляют границу с максимальным запасом, которая приводит к однородному разделу всех точек данных.Это классифицирует SVM как

классификатор максимальной маржи .

На краю каждой стороны поля находится образец данных, помеченный как опорных векторов , по крайней мере с 1 опорным вектором для каждого класса данных. Эти опорные векторы представляют границы поля и могут использоваться для построения гиперплоскости, разделяющей это поле пополам.

Уравнения 2 и 1 представляют формулы для прямой или гиперплоскости соответственно. Для всех выборочных данных x SVM должна найти такие веса, чтобы точки данных были разделены в соответствии с правилом принятия решения.Чтобы уточнить, давайте предположим, что у нас есть набор отрицательных и положительных значений в двумерном евклидовом пространстве, а также начальная прямая линия (нарисованная зеленым цветом) между двумя классами точек данных:

Желтое пространство на рис. показывает разницу между точками противоположных классов, наиболее близкими друг к другу. Обведенные точки выборки являются опорными векторами.

Теперь представим себе вектор w произвольной длины, который должен быть перпендикулярен медиане этого поля.Затем мы берем неизвестный вектор и , и мы хотим определить, находится ли он на + или — стороне поля. Для этого мы проецируем u на наш перпендикулярный вектор w , что дает нам расстояние до w.

Поскольку w перпендикулярно медиане, мы знаем, что чем дальше мы расширяем w , тем ближе мы приближаемся к положительной стороне поля. Это означает, что мы берем скалярное произведение наших векторов на и на и проверяем, больше ли оно или равно некоторой константе, c .Отсюда у нас есть правило принятия решения, гласящее, что если уравнение

удовлетворяется, то образец должен принадлежать к классу +. На данный момент мы еще не знаем, что такое b или w . Теперь нам нужно применить дополнительные ограничения, чтобы мы могли их вычислить.

Машины опорных векторов для двоичной классификации — MATLAB и Simulink

Отдельные данные

Вы можете использовать вектор поддержки (SVM), когда ваши данные имеют ровно два класса. SVM классифицирует данные, находя лучшую гиперплоскость который отделяет все точки данных одного класса от точек другого класс. лучшая гиперплоскость для SVM означает тот, у которого самый большой запас между два класса. Запас — максимальная ширина плиты, параллельная гиперплоскость, не имеющая внутренних точек данных.

опорных векторов — это точки данных ближайшие к разделяющей гиперплоскости; эти точки находятся на граница плиты. На следующем рисунке показаны эти определения. с +, обозначающим точки данных типа 1, и — обозначающим данные точки типа –1.

Математическая формулировка: Primal. Это обсуждение следует за Хасти, Тибширани и Фридманом [1], а также Кристианини и Шоу-Тейлор [2].

Данные для обучения представляют собой набор точек (векторов) x j вместе с их категориями y j . Для какого-то измерения d , x j R d , и y j = ± 1.Уравнение гиперплоскости

, где β R d и b — действительное число.

Следующая задача определяет наилучшую разделяющую гиперплоскость . (т.е. граница решения). Найдите β и b , что свернуть || β || так что для всех точек данных ( x j , y j ),

Опорными векторами являются x j на граница, те, для которых yjf (xj) = 1.(z) — это классификационная оценка и представляет собой расстояние z от границы решения.

Математическая формулировка: двойственная. Вычислительно проще решить двойное квадратичное программирование. проблема. Чтобы получить двойное, возьмем положительные множители Лагранжа α j умноженные на каждое ограничение и вычтите из целевой функции:

, где вы ищите стационарную точку L P над β и b .Установка градиента L P на 0 получаем

β = ∑jαjyjxj0 = ∑jαjyj. (1)

Подстановка в L P , вы получаете двойной L D :

, который вы максимизируете за α j ≥ 0. В общем, многие α j равны 0 в максимум. Ненулевое значение α j в решение двойной задачи определяет гиперплоскость, как показано в уравнении 1, которое дает β как сумма α j y j x j .Точки данных x j соответствующие ненулевое α j опорных векторов .

Производная L D с относительно ненулевого α j 0 на оптимальном уровне. Это дает

В частности, это дает значение b при решение, взяв любое j с ненулевым α j .

Дуал — это стандартная задача квадратичного программирования.Например, Решатель Optimization Toolbox ™ quadprog (Optimization Toolbox) решает этот тип проблемы.

Неразделимые данные

Ваши данные могут не допускать разделяющую гиперплоскость. В этом случае SVM может использовать мягкое поле , что означает гиперплоскость, разделяющая многие, но не все точки данных.

Есть два стандартных состава мягких полей. Оба включают добавление переменных резервов ξ j и параметр штрафа C .

  • L 1 — нормальный проблема:

    , так что

    L 1 -norm относится использовать ξ j в качестве слабины переменные вместо их квадратов. Три варианта решателя SMO , ISDA , и L1QP из fitcsvm свернуть L 1 — нормальная проблема.

  • L 2 — нормальный проблема:

    с теми же ограничениями.

В этих формулировках можно увидеть, что увеличение C мест больше веса на переменные запаса ξ j , это означает, что оптимизация пытается более строго разделить классы. Аналогично, уменьшение C до 0 делает неправильная классификация менее важна.

Математическая формулировка: двойственная. Для упрощения расчетов рассмотрим модель L 1 dual проблема с этой формулировкой soft-margin.Используя множители Лагранжа μ j , функция минимизации для L 1 -norm проблема:

, где вы ищете стационарную точку L P через β , b , и положительный ξ j . Настройка уклон L P до 0, вы получите

Эти уравнения приводят непосредственно к двойной формулировке:

с учетом ограничений

Окончательный набор неравенств, 0 ≤ α j C , показывает, почему C иногда называют коробкой ограничение . C сохраняет допустимые значения множителей Лагранжа α j дюйм «ящик», ограниченная область.

Уравнение градиента для b дает решение b в члены множества ненулевых α j , которые соответствуют опорным векторам.

Можно написать и решить дуал L 2 -norm проблема аналогичным образом. Подробнее см. Кристианини и Шоу-Тейлор [2], глава 6.

fitcsvm Реализация. Обе двойные задачи с мягким краем являются задачами квадратичного программирования. Внутри fitcsvm имеет несколько различных алгоритмов для решение проблем.

  • Для одноклассной или двоичной классификации, если не задана доля ожидаемые выбросы в данных (см. OutlierFraction ), тогда решатель по умолчанию — Последовательный минимальный Оптимизация (SMO).SMO минимизирует проблему с одной нормой с помощью серии двухточечных минимизации. Во время оптимизации SMO ​​учитывает линейное ограничение ∑iαiyi = 0 и явно включает член смещения в модель. SMO — это относительно быстро. Подробнее о SMO см. [3].

  • Для двоичной классификации, если вы установите долю ожидаемых выбросов в data, то решателем по умолчанию является алгоритм итеративных отдельных данных. Как SMO, ISDA решает проблему одной нормы.В отличие от SMO, ISDA минимизируется серией по одноточечная минимизация, не соблюдает линейное ограничение и не явным образом включить в модель член смещения. Подробнее об ISDA см. [4].

  • Для одноклассной или двоичной классификации, и если у вас есть лицензия Optimization Toolbox, вы можете использовать quadprog (Optimization Toolbox) для решения проблемы с одной нормой. quadprog использует много памяти, но решает квадратичные программы с высокой степенью точности.Для получения дополнительной информации см. Определение квадратичного программирования (Инструменты оптимизации).

Нелинейное преобразование с ядрами

Некоторые задачи двоичной классификации не имеют простой гиперплоскости как полезный критерий разделения. Для этих проблем есть вариант математического подхода, который сохраняет почти всю простоту разделяющей гиперплоскости SVM.

Этот подход использует эти результаты теории воспроизводства ядра:

  • Есть класс функций G ( x 1 , x 2 ) со следующим свойством.Имеется линейное пространство S и функция φ отображение x на S , например тот

    G ( x 1 , x 2 ) = < φ ( x 1 ), φ ( x 2 )>.

    Скалярное произведение имеет место в пространстве S .

  • Этот класс функций включает:

    • Полиномы: для некоторых положительных целых чисел p ,

      G ( x 1 , x 2 ) = (1 + x 1 x 2 ) p .

    • Радиальная базисная функция (по Гауссу):

      G ( x 1 , x 2 ) = exp (– x 1 x 2 ) ∥ 2 ).

    • Многослойный персептрон или сигмоид (нейронная сеть): Для положительного числа p 1 и отрицательное число p 2 ,

      G ( x 1 , x 2 ) = tanh ( p 1 x 1 x 2 + p 2 ).

Математический подход с использованием ядер основан на вычислительной метод гиперплоскостей. Все расчеты для классификации гиперплоскостей не используйте ничего, кроме точечных произведений. Следовательно, нелинейные ядра могут использовать идентичные вычисления и алгоритмы решения, и получить классификаторы которые нелинейны. Полученные классификаторы являются гиперповерхностями в некоторое пространство S , но пространство S делает не нужно идентифицировать или исследовать.

Реальные приложения SVM (машины опорных векторов)

1.Цель

В нашем предыдущем блоге Машинное обучение мы подробно обсудили введение SVM (машины опорных векторов) . Теперь мы собираемся рассмотреть реальные приложения SVM, такие как обнаружение лиц, распознавание почерка, классификация изображений, биоинформатика и т. Д.

Реальные приложения SVM (вспомогательные векторные машины)

2. Приложения SVM в реальном мире

Как мы видели, SVM зависит от алгоритмов контролируемого обучения .Цель использования SVM — правильно классифицировать невидимые данные. У SVM есть множество приложений в нескольких областях.
Некоторые общие применения SVM:

  • Обнаружение лиц — SVMc классифицирует части изображения как лица и не-лица и создает квадратную границу вокруг лица.
  • Категоризация текста и гипертекста — SVM позволяют категоризацию текста и гипертекста как для индуктивных, так и для трансдуктивных моделей. Они используют обучающие данные для классификации документов по разным категориям.Он классифицируется на основе полученной оценки, а затем сравнивается с пороговым значением.
  • Классификация изображений — Использование SVM обеспечивает лучшую точность поиска для классификации изображений. Он обеспечивает лучшую точность по сравнению с традиционными методами поиска на основе запросов.
  • Биоинформатика — Включает классификацию белков и классификацию рака. Мы используем SVM для определения классификации генов пациентов на основе генов и других биологических проблем.
  • Белковая складка и обнаружение удаленной гомологии — Применение алгоритмов SVM для обнаружения удаленной гомологии белков.
  • Распознавание рукописного ввода — Мы используем SVM для распознавания широко используемых рукописных символов.
  • Generalized predictive control (GPC) — Используйте GPC на основе SVM для управления хаотической динамикой с помощью полезных параметров.

Давайте теперь подробно рассмотрим вышеупомянутые приложения SVM —

2.

1. Распознавание лиц

Классифицирует части изображения как лица и не лица.Он содержит обучающие данные размером n x n пикселей с двумя классами лица (+1) и без лица (-1). Затем он извлекает черты из каждого пикселя как лица или не лица. Создает квадратную границу вокруг лиц на основе яркости пикселей и классифицирует каждое изображение с использованием того же процесса.

Давайте обсудим правила обучения в нейронных сетях

2.2. Категоризация текста и гипертекста

Позволяет категоризацию текста и гипертекста для обоих типов моделей; индуктивный и преобразовательный.Он использует данные обучения для классификации документов по различным категориям, таким как новостные статьи, электронные письма и веб-страницы.
Примеры:

  • Классификация новостных статей на «бизнес» и «фильмы»
  • Классификация веб-страниц на личные домашние страницы и прочее

Для каждого документа вычислите оценку и сравните ее с предварительно определенным пороговым значением. Когда оценка документа превышает пороговое значение, документ классифицируется в определенную категорию.Если он не превышает пороговое значение, считайте его общим документом.
Классифицируйте новые экземпляры, вычисляя оценку для каждого документа и сравнивая ее с полученным порогом.

2.3. Классификация изображений

SVM могут классифицировать изображения с более высокой точностью поиска. Его точность выше, чем у традиционных схем уточнения на основе запросов

2.4. Биоинформатика

В области вычислительной биологии обнаружение удаленной гомологии белков является распространенной проблемой.Самый эффективный метод решения этой проблемы — использование SVM. В последние несколько лет алгоритмы SVM широко применялись для обнаружения удаленной гомологии белков. Эти алгоритмы широко используются для идентификации среди биологических последовательностей. Например, классификация генов, пациентов на основе их генов и многие другие биологические проблемы.

2,5.

Сворачивание белка и обнаружение удаленной гомологии

Определение удаленной гомологии белка — ключевая проблема в вычислительной биологии. контролируемое обучение алгоритмов на SVM — один из наиболее эффективных методов удаленного обнаружения гомологии. Эффективность этих методов зависит от того, как моделируются последовательности белков. Метод, используемый для вычисления функции ядра между ними.

Знаете ли вы о функциях ядра в ML

2.6. Распознавание рукописного ввода

Мы также можем использовать SVM для распознавания рукописных символов, которые используются для ввода данных и проверки подписей в документах.

2.7. Науки о географии и окружающей среде

Мы используем SVM для гео (пространственного) и пространственно-временного анализа данных окружающей среды и серий моделирования.

2,8. Обобщенное прогнозирующее управление

Мы используем GPC на основе SVM для управления хаотической динамикой с помощью полезных параметров. Он обеспечивает отличную производительность при управлении системами. Система следует хаотической динамике по отношению к локальной стабилизации цели.
Использование SVM для управления хаотическими системами имеет следующие преимущества:

  • Позволяет использовать алгоритмы с относительно небольшими параметрами для перенаправления хаотической системы к цели.
  • Уменьшает время ожидания для хаотических систем.
  • Поддерживает работоспособность систем.

3. Заключение

Таким образом, мы делаем вывод, что SVM могут не только делать надежные прогнозы, но и сокращать избыточную информацию. SVM также получили результаты, сопоставимые с результатами, полученными другими подходами.
Если вам понравился этот пост или у вас есть какие-либо вопросы, связанные с этими приложениями SVM, сообщите нам об этом, оставив комментарий.
См. Также-

Для справки

Машины опорных векторов (SVM) для AI самоуправляемых автомобилей

Автор: Dr. Лэнс Элиот, инсайдер AI Trends

Я очень активен в своей альма-матер. Я работаю в нескольких советах и ​​комитетах выпускников и пытаюсь поддержать сегодняшнюю молодежь, которая скоро станет изобретателями и новаторами завтрашнего дня. В качестве наставника нашего инкубатора стартапов на территории кампуса очень приятно видеть, как много предпринимателей желают запустить следующий Facebook или Google. Ура им и будем надеяться, что они сохранят хорошее настроение и сохранят решимость в своих поисках.

Поскольку я только что сказал ура, это напоминает мне аплодисменты, а аплодисменты напоминают мне о спорте, так что, возможно, для меня было бы своевременным упомянуть, что мне также нравится ходить на наши захватывающие футбольные матчи и наши шумные баскетбольные матчи. Наша футбольная команда, как правило, имеет более высокий рейтинг, чем наша баскетбольная, но в любом случае, выиграем мы или проиграем, весело быть поддерживающим выпускником, который болеет за свои команды.

Это вызывает у вас вопрос. Предположим, нам недавно удалось поймать нового студента, который станет отличным дополнением к нашей футбольной команде, и еще одного студента, который станет отличным дополнением к нашей баскетбольной команде.Назовем двух учеников А и Б. Я хочу, чтобы вы попытались угадать, кто из двух наших спортивных команд принадлежал.

Учащийся А ростом 6 футов 2 дюйма весит около 260 фунтов.

Учащийся B ростом 6 футов 8 дюймов весит около 220 фунтов.

А ходил в футбольную или баскетбольную команду?

Б ходил в футбольную или баскетбольную команду?

На первый взгляд можно сказать, что невозможно определить, что куда пошло.Я не предоставил достаточно информации, например, насколько высоко каждый может прыгнуть и сделал ли один из них тонну приземлений в прошлом году. Но я дал вам некоторую информацию, которая была бы полезной, а именно их рост и вес.

К настоящему моменту я предполагаю, что вы пришли к выводу, что A пошел в футбольную команду, а B пошел в баскетбольную команду. Это кажется логичным, поскольку B довольно высокий, и мы ожидаем, что баскетболист будет относительно высоким. A короче B и немного тяжелее, что имеет смысл для футболиста.

Вы использовали свое знание физических характеристик, обычно требуемых для каждого из этих двух видов спорта, чтобы попытаться определить наиболее вероятную классификацию, которая соответствует описанию A и соответствует описанию B. Конечно, вы все равно можете ошибаться и может быть, футбольная команда хотела, чтобы действительно высокий футболист блокировал удары ногами, и, возможно, тот, что был ниже, был бы действительно хитрым и быстрым на баскетбольной площадке, но в целом вы сделали довольно разумное предположение, что A следует бросить в футбольная классификация, а буква B должна быть включена в баскетбольную классификацию.

Поздравляю, так как вы теперь являетесь машиной опорных векторов (SVM).

Ну вроде. Позвольте мне объяснить, что такое машина опорных векторов.

SVM — это статистический метод, который помогает в классификации вещей. Обычно вы вводите различные обучающие примеры в математический алгоритм SVM, и он пытается определить, как лучше всего классифицировать данные. Например, у меня могут быть данные о футболистах и ​​баскетболистах, скажем об их росте и весе, и я ввожу их в SVM.Алгоритм анализирует данные и пытается придумать математическую классификацию для этих двух.

Отныне, если бы у вас были A или B (два спортсмена), он мог бы попытаться сказать вам, к какой классификации принадлежит каждый.

Обратите внимание, что я упомянул, что мы предоставили SVM обучающие данные. У нас было два класса, а именно футболисты и баскетболисты. Данные тренировки состояли из точек данных, в этом случае предположим, что у меня есть данные, описывающие сто футболистов и сто баскетболистов, поэтому я предоставил двести экземпляров и дал рост и вес для каждого из них.Эти точки данных можно рассматривать как p-мерный вектор, и SVM развивает p-1-мерную гиперплоскость, которая имеет наибольшее разделение или запас между двумя классами.

Гиперплоскость по сути является средством разделения двух классов друг от друга. Это математическая конструкция, цель которой — обеспечить максимально широкое разделение между двумя классами. Таким образом, когда появляется новая точка данных, такая как наш ученик A, алгоритм может посмотреть, находится ли A в классификации футбола или на другой стороне гиперплоскости и фактически в классификации баскетбола.Это похоже на разделительную стену между двумя классами, и ее можно использовать, чтобы решить, находится ли новая точка данных с одной или с другой стороны стены. Это формально называется гиперплоскостью с максимальным запасом.

Я добавлю к этому еще немного жаргона.

SVM известен как не вероятностный двоичный линейный классификатор.

«Двоичная» часть означает, что обычно она определяет, принадлежит ли что-то к классу или нет, или находится ли оно в одном из двух классов. Итак, у нас уже есть наш пример использования SVM, чтобы определить, принадлежит ли кто-то к одному из двух классов (футбол или баскетбол).

Мы также могли бы использовать SVM, указав только футболистов (только один класс), а затем попросив алгоритм указать, подходит ли кто-то под классификацию футболистов или нет. Для наших целей это означало бы, что А принадлежал к классу футболистов. Но для B это только означало бы, что B не был в футбольном классе и ничего не знал бы о баскетбольном классе, поэтому мы бы знали только то, что казалось, что B не был в футбольной классификации.

SVM обычно является «не вероятностным», что означает, что мы не получаем вероятность того, что алгоритм верен, что A — футболист, а B — баскетболист. Существуют специальные версии SVM, которые добавляют вероятностные возможности.

SVM обычно является «линейным», что является более простым и понятным способом поиска гиперплоскости. Существует более продвинутая версия SVM, которая обеспечивает нелинейный подход, часто использующий то, что называется уловкой ядра.Это может быть удобно, если ваши точки данных не поддаются более простому линейному подходу.

SVM в основном используется с обучающими примерами, и поэтому считается «контролируемой» моделью обучения. Аспект надзора заключается в том, что мы предоставляем известные примеры и, таким образом, даем SVM прямые указания относительно точек данных и того, в какие классы они должны вписываться.

Предположим, однако, что мы не уверены в том, какими должны быть классификации.

Если бы у нас было двести спортивных игроков и мы использовали бы примеры, но не сказали бы, что они принадлежат к классификации футбола и / или классификации баскетбола, мы могли бы вместо этого захотеть, чтобы SVM придумал любые классификации, которые он может найти.Затем мы могли бы посмотреть, как данные были классифицированы SVM, и попытаться приписать некоторую логическую основу найденным математическим классам. Может быть, мы скажем, что уроки были для футбола и баскетбола, или мы могли бы решить, что классы предназначены для чего-то другого.

Тогда это будет считаться моделью обучения без учителя, и SVM пытается найти «естественный» способ группировки или классификации данных. Поскольку это немного отличается от традиционной SVM, неконтролируемая версия часто упоминается как кластеризация опорных векторов, а не как машина опорных векторов.

SVM были довольно успешно использованы в различных дисциплинах, например, в биохимических науках, они использовались для классификации белков. Еще одна область, в которой SVM особенно хорошо известна, — это классификация изображений. Предположим, у вас есть сотни или тысячи изображений львов и слонов. Вы можете передать эти изображения в SVM, чтобы он определил математическую категоризацию для львов и слонов, а затем, когда появится новое изображение, его можно будет загрузить в SVM, чтобы он указывал, относится ли изображение к категории львов или в категории слонов.

Какое отношение это имеет к беспилотным автомобилям с ИИ?

В Cybernetic Self-Driving Car Institute мы используем SVM как неотъемлемую часть разрабатываемого нами программного обеспечения для беспилотных автомобилей с искусственным интеллектом.

Действительно, любой, кто занимается разработкой беспилотных автомобилей с искусственным интеллектом, должен либо использовать SVM, либо хотя бы задуматься о том, следует ли и когда использовать SVM. В целом, в ИИ использование SVM считается важным инструментом в наборе моделей обучения ИИ.

Вы можете спросить, как SVM участвует в создании беспилотных автомобилей с ИИ.

Предположим, у беспилотного автомобиля есть камера, способная снимать изображения того, что впереди беспилотного автомобиля. ИИ беспилотного автомобиля может захотеть узнать, есть ли впереди транспортное средство, и может передать изображение в SVM, который обучен тому, как выглядят автомобили. SVM может выполнять свой математический анализ и сообщать системе AI, что изображение действительно содержит транспортное средство или не содержит транспортного средства. Затем система искусственного интеллекта может использовать этот результат в сочетании с другими датчиками и всем, что эти датчики фиксируют, например, радиолокационными сигналами, изображениями LIDAR и т.

Возможно, вы достаточно знакомы с искусственным интеллектом, чтобы задаться вопросом, почему анализ изображения не выполняется нейронной сетью. Что ж, вы правы, что обычно мы используем нейронную сеть для анализа изображений. Но предположим, что мы также сочли разумным использовать SVM.

По сути, вы можете использовать SVM для первоначального анализа, а затем выполнить двойную проверку, скажем, с помощью обученной нейронной сети. Или вы могли бы использовать нейронную сеть в качестве первого анализа, а затем использовать SVM в качестве двойной проверки нейронной сети.Такая двойная проверка может быть весьма полезной, и некоторые могут поспорить, что она даже необходима.

Почему это считается необходимостью?

Предположим, что нейронная сеть была нашим единственным анализатором изображений на беспилотном автомобиле с ИИ. Предположим далее, что нейронная сеть запуталась и подумала, что на изображении есть транспортное средство, но на самом деле его не было. Или предположим, что нейронная сеть решила, что на изображении нет машины, но она действительно была. В любом случае, ИИ беспилотного автомобиля может быть введен в заблуждение и совершит маневр, основанный на ошибочном анализе нейронной сети.Если SVM действовал как двойная проверка, AI мог бы затем рассмотреть результат SVM, а также обратиться к результату из нейронной сети и решить, что делать, если два разных анализатора изображений имеют две разные интерпретации того, что изображение содержит.

Таким образом, вы можете использовать SVM для беспилотных автомобилей AI как:

— Автономный SVM

— SVM как начальный анализ, перепроверенный другим подходом

— SVM как двойная проверка другого подхода, который был впервые использован

Вам может быть интересно, может ли время вычислительной обработки при использовании SVM быть недопустимым для использования его для автомобиля с автономным управлением AI.Какие бы модели обучения искусственного интеллекта ни использовались в беспилотном автомобиле, они должны быть достаточно быстрыми, чтобы справляться с потребностями в управлении автомобилем в реальном времени. Беспилотный автомобиль может двигаться со скоростью 70 миль в час, поэтому сенсорный анализ должен быть достаточно быстрым, чтобы быть уверенным, что ИИ получает своевременную информацию для принятия разумных решений об управлении автомобилем.

SVM после обучения работает довольно быстро, поэтому подходит для использования на беспилотном автомобиле. При этом, если вы хотите продолжить обучение SVM, когда он погружен в ИИ беспилотного автомобиля, вам нужно быть осторожным при проведении обучения, пока беспилотный автомобиль в противном случае участвует в маневрирование в пробке.

Мы используем любое время беспилотного автомобиля, не связанное с движением транспорта (например, когда он припаркован), чтобы SVM провел дополнительное обучение. Кроме того, вы можете перенести обучение SVM в облако, в том смысле, что у беспилотного автомобиля, если он подключен к облачной системе беспроводного обновления, обновления SVM могут происходить в другом месте, чтобы не увязнуть в себе. -автомобиль обработка как таковая. После обновления SVM в облаке его можно вернуть обратно в локальную систему искусственного интеллекта беспилотного автомобиля.

Помимо классификаций анализа изображений транспортных средств и не связанных с транспортными средствами, SVM может использоваться для широкого спектра других аспектов беспилотного автомобиля с ИИ. Мы нашли его особенно удобным при классификации пешеходов. Например, содержит ли изображение пешехода или нет пешехода. Еще более сложным было бы определение того, представляет ли пешеход «угрозу» для беспилотного автомобиля или не представляет угрозы. Под словом «угроза» мы подразумеваем, что пешеход может выскочить на улицу перед беспилотным автомобилем.Это представляет собой форму угрозы, поскольку беспилотному автомобилю может потребоваться радикальный маневр уклонения, чтобы попытаться избежать столкновения с пешеходом.

Как классификатор узнает, представляет ли пешеход угрозу или нет? Обучаем SVM на изображениях пешеходов. В одном наборе у нас были изображения пешеходов, которые находятся в позе стоя или иным образом в позе, не предполагающей драматического движения. Позиция пешехода, предполагающая, что он бежит, будет считаться более драматичным движением.Еще одним фактором является расстояние до пешехода, так как кто-то может находиться в беговой позе, но настолько далеко от беспилотного автомобиля, что это не считается непосредственной угрозой. С другой стороны, если изображение показывает пешехода в бегущей стойке, которая находится очень близко к беспилотному автомобилю, ИИ захочет знать, чтобы быть начеку.

Одна из перспективных областей развития беспилотных автомобилей — это способность распознавать намерения пешеходов. В настоящий момент большинство систем искусственного интеллекта для беспилотных автомобилей просто определяют, существует ли пешеход где-то в почти виртуальном пузыре беспилотного автомобиля.Последние достижения идут еще дальше и пытаются угадать, в чем могут заключаться намерения пешехода. Пешеход движется к беспилотному автомобилю или от него? Останутся ли они перед беспилотным автомобилем или позади него? Кажется, они смотрят на беспилотный автомобиль или ищут в другом месте? Все эти аспекты помогают оценить намерения пешехода. Мы, водители, постоянно сканируем вокруг себя, глядя на пешеходов и пытаясь угадать, что пешеход собирается делать.Это то, что должен делать ИИ беспилотного автомобиля.

При использовании SVM ИИ должен быть осторожен, так сказать, чтобы его не вели по тропе первоцвета. SVM может сказать, что что-то классифицировано как X, но это может быть ложное срабатывание. В нашем предыдущем примере со спортивными игроками предположим, что SVM указала, что B был футболистом. Это ложное срабатывание. Предположим, SVM указал, что A не футболист. Это ложный отрицательный результат. ИИ беспилотного автомобиля должен решить, верить ли классификатору SVM, который будет зависеть от множества аспектов, например, в случае изображений, является ли изображение четким или шумным и т. Д.

Для SVM разумно быть осторожным с результатами SVM, если целевые классы имеют тенденцию быть очень близкими друг к другу или даже перекрываться. Я предполагаю, что если бы мы попытались обучить SVM на бейсболистах и ​​футболистах, мы могли бы обнаружить, что, основываясь только на росте и весе, эти две классификации очень близки друг к другу. Это означает, что когда у нас есть спортивный игрок C, который представляет себя нам, и если мы просим SVM классифицировать их, наша вера в то, говорит ли SVM, что C — бейсболист или футболист, должна быть тщательно проверена. или перепроверили.

SVM также может непреднамеренно переобучиться обучающим данным. Переобучение — распространенная проблема в большинстве моделей обучения, включая нейронные сети. Аспект переобучения означает, что обучение чрезмерно зацикливается на обучающих данных и не может быть обобщено за пределами обучающих данных. Представьте себе ребенка, который изучает блоки. Предположим, ребенку дали связку кубиков зеленого цвета и размером один квадратный дюйм. Ребенок может подумать, что все блоки зеленые, а могут быть только зелеными и должны быть размером в один квадратный дюйм.Если вы передадите ребенку новый кубик красного цвета, он может не понять, что это кубик. Это перебор.

Другая проблема для SVM связана с выбросами. Предположим, нам посчастливилось найти действительно великого футболиста почти семи футов ростом. Если бы мы включили только один такой экземпляр в наш обучающий набор, SVM могла бы счесть выброс как несущественный и проигнорировать его. Это может быть нормально, а может быть плохо, потому что у нас действительно могут быть футболисты такого размера. Таким образом, SVM может сделать ошибку, когда позже мы посмотрим на футболиста такого роста, а SVM вместо этого будет настаивать на том, что игрок должен быть баскетболистом.

Итак, SVM, как и другие модели обучения, следует воспринимать с недоверием. Он может быть подвержен переобучению обучающим данным. Обучение может потребовать больших вычислительных затрат. Могут возникнуть проблемы с выбросами. Предполагается, что используемые характеристики или функции обычно имеют отношение к классификации. И так далее.

Я не хочу, чтобы вы думали, что я говорю, что не используйте SVM. Уверяю вас, что любая модель обучения, включая нейронные сети, будет иметь такие же ограничения и проблемы, которые необходимо учитывать.SVM — очень ценный инструмент в наборе инструментов ИИ, и мы считаем, что он заслуживает должного внимания в отношении беспилотных автомобилей с ИИ.

Щелкните здесь , чтобы просмотреть версию этого столбца для подкастов .

Этот контент изначально размещен на AITrends.com.

Сравнительные исследования подходов выравнивания, без выравнивания и основанных на SVM подходов для прогнозирования хозяев вирусов на основе вирусных последовательностей

Материалы

Мы анализируем три набора вирусных данных с различными характеристиками: бешенство, коронавирус и вирус гриппа A, чтобы увидеть, согласованы ли могут быть получены результаты, связанные с относительной производительностью подходов, основанных на выравнивании, отсутствии выравнивания и машинном обучении.

Набор данных о вирусе бешенства от Streicker et al . 5 . Вирус бешенства представляет собой одноцепочечный РНК-вирус и имеет широкий круг хозяев. Сначала мы исследуем набор данных о вирусе бешенства из Streicker et al . 5 , состоящий из 372 образцов вируса бешенства от 23 видов летучих мышей-хозяев. Среди них 148 вирусов имеют полную последовательность N-гена (1353 п.н.). В этой статье мы сконцентрируемся на изучении этих 148 вирусов. Номера доступа полных геномов и N-гена вирусов были предоставлены в Streicker et al . 5 и соответствующие последовательности генов можно загрузить из базы данных NCBI genbank, используя их номера доступа на https://www.ncbi.nlm.nih.gov/genbank/.

Набор данных о коронавирусе от Tang et al . 10 . Тан и др. . 10 разработали метод на основе SVM с использованием моно- и динуклеотидных последовательностей для прогнозирования хозяина коронавируса. Мы используем те же данные, что и в Tang et al . 10 , состоящих из 724 образцов коронавируса от 6 видов хозяев (человека, свиньи, крупного рогатого скота, летучей мыши, мыши и птицы).Среди них 392 образца имеют полный секвенированный геном, а 326 образцов — только их шиповые гены. Мы извлекаем последовательности гена шипа из полных геномов, проверяя аннотацию кодирующей последовательности в NCBI, и получаем дополнительно 381 извлеченную последовательность гена шипа. Вместе с исходными 326 последовательностями у нас в общей сложности 707 спайковых последовательностей, и мы сосредоточимся на исследовании этих 707 спайковых последовательностей.

Набор данных вируса гриппа A из базы данных исследований гриппа 19 .Наконец, мы исследуем хозяина вируса гриппа A, как в Kargarfard et al . 11 . Мы собираем вирус птичьего гриппа А из базы данных исследований гриппа 19 и исключаем последовательности с неоднозначными видами хозяев, такими как курица, утка, птица и чайка, а также те виды хозяев, у которых в базе данных содержится менее 200 вирусных последовательностей. Мы ограничиваем выборки одним и тем же таксономическим рангом и выбираем уровень как «виды» в таксономической иерархии. Предсказание, безусловно, может быть проще для более общих категорий.Осталось шесть оставшихся видов птиц-хозяев: американская черная утка Anas rubripes , голубокрылая бирюзовая Anas discors , зеленокрылая бирюзовая , Anas carolinensis , северный шилохвост Anas acuta , северный лопат Anas clypeata и Turnstone Arenaria interpres для дальнейшего изучения. Для каждого вида хозяев мы случайным образом выбираем 200 вирусных последовательностей в нашем исследовании.

Вычислительные методы

Вычислить попарную матрицу расстояния / несходства вирусов

Мы сравниваем эффективность подходов на основе сопоставления, без сопоставления и на основе машинного обучения для определения хостов вирусов.Для метода на основе выравнивания мы сначала используем программное обеспечение «Clustal Omega» 20 для множественного выравнивания последовательностей с использованием параметров по умолчанию, а затем используем программное обеспечение «Phylip» 21 и выбираем эволюционную модель «F84» для расчета попарного расстояние с использованием результатов выравнивания в качестве входных. {S} \) 13 и т. Д.Определения этих расстояний / различий были даны в Lu и др. . 15 . Наша цель — оценить, обладают ли подходы без выравнивания схожей точностью в предсказании хозяев вирусных последовательностей, но с гораздо более высокой вычислительной эффективностью.

Визуализируйте матрицу расстояния / несходства

Чтобы эмпирически увидеть, имеют ли вирусы от одного и того же хоста тенденцию быть более похожими друг на друга, чем вирусы с разных хостов, мы сначала используем MDS 23 для проецирования вирусных последовательностей на двухмерную евклидову систему. Космос.MDS — это метод нелинейного уменьшения размерности, который может уменьшить попарную матрицу расстояний до пространства с более низкой размерностью, при этом наилучшим образом воспроизводя исходную матрицу расстояний. Мы также используем иерархическую кластеризацию со средней связью, чтобы визуализировать взаимосвязь между вирусами и интуитивно оценить, действительно ли вирусы, заражающие одни и те же хосты, ближе, чем вирусы, заражающие разные хосты.

Предсказать хозяина вируса

Мы применяем метод KNN 24 , основанный на матрице попарных расстояний как для расстояний, основанных на выравнивании, так и для расстояний без выравнивания, для прогнозирования хозяина вируса.{S} \) с различными размерами k -мер. Для каждого вируса мы выбираем K вирусов, которые наиболее близки к вирусу из матрицы парных расстояний, а затем подсчитываем частоту хозяев вирусов K . Мы используем наиболее частый хост в качестве предполагаемого хозяина вируса. Для прогнозирования на основе машинного обучения мы используем SVM на основе частот моно- и динуклеотидов (3 частоты мононуклеотидов и 16 динуклеотидных смещений 10 ). Пакет R e1071 использовался для анализа SVM с «C-классификацией» в качестве типа модели и «Радиальным» в качестве ядра SVM 10 .

Мы используем перекрестную проверку LOOCV 25 и N для оценки точности прогноза. Мы реализуем этот процесс для всех вирусов, а затем сравниваем предсказанный хост с его истинным хостом, чтобы получить точность предсказания.

Изучите влияние размера выборки на точность прогнозирования

Количество известных последовательностей для каждого хоста может существенно повлиять на точность прогнозирования. Чтобы количественно оценить влияние размера выборки на точность прогнозирования, мы случайным образом выбираем определенное количество последовательностей, а затем применяем подходы KNN и SVM к набору последовательностей для получения точности прогнозирования, как описано выше.Мы повторяем этот процесс для серии размеров выборки, чтобы увидеть, как точность прогноза изменяется с размером выборки. Мы позволяем размеру выборки изменяться с 70 до 145 с шагом 5 для набора данных вируса бешенства, от 100 до 700 с размером шага 50 для коронавируса и от 200 до 1100 с размером шага 100 для гриппа. Набор данных вирусов. Для каждого размера выборки мы случайным образом выбираем 10 наборов последовательностей и вычисляем точность прогноза для каждого набора данных.

Доступность данных

Все данные общедоступны в Интернете и могут быть найдены на основе информации, представленной в разделе «Материалы и методы».

Произошла ошибка при настройке вашего пользовательского файла cookie

Произошла ошибка при настройке вашего пользовательского файла cookie

Этот сайт использует файлы cookie для повышения производительности. Если ваш браузер не принимает файлы cookie, вы не можете просматривать этот сайт.

Настройка вашего браузера на прием файлов cookie

Существует множество причин, по которым cookie не может быть установлен правильно. Ниже приведены наиболее частые причины:

  • В вашем браузере отключены файлы cookie.Вам необходимо сбросить настройки браузера, чтобы он принимал файлы cookie, или чтобы спросить вас, хотите ли вы принимать файлы cookie.
  • Ваш браузер спрашивает вас, хотите ли вы принимать файлы cookie, и вы отказались. Чтобы принять файлы cookie с этого сайта, используйте кнопку «Назад» и примите файлы cookie.
  • Ваш браузер не поддерживает файлы cookie. Если вы подозреваете это, попробуйте другой браузер.
  • Дата на вашем компьютере в прошлом. Если часы вашего компьютера показывают дату до 1 января 1970 г., браузер автоматически забудет файл cookie.Чтобы исправить это, установите правильное время и дату на своем компьютере.
  • Вы установили приложение, которое отслеживает или блокирует установку файлов cookie. Вы должны отключить приложение при входе в систему или уточнить у системного администратора.

Почему этому сайту требуются файлы cookie?

Этот сайт использует файлы cookie для повышения производительности, запоминая, что вы вошли в систему, когда переходите со страницы на страницу.Чтобы предоставить доступ без файлов cookie потребует, чтобы сайт создавал новый сеанс для каждой посещаемой страницы, что замедляет работу системы до неприемлемого уровня.

Что сохраняется в файлах cookie?

Этот сайт не хранит ничего, кроме автоматически сгенерированного идентификатора сеанса в cookie; никакая другая информация не фиксируется.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *