Нужно ли сдавать пустой сзв м: Нужно ли сдавать нулевую отчетность СЗВ-М 2021

Содержание

Нужно ли сдавать нулевой отчёт СЗВ-М в 2020 году

Оглавление Скрыть

Отчётность по форме СЗВ-М

Все работодатели считаются страхователями по ОПС и обязаны предоставлять в территориальные органы документы, необходимые для ведения персонифицированного учёта согласно статье 14 ФЗ № 167. Одним из таких документов является форма СЗВ-М.

Она включает в себя сведения о застрахованных лицах, с которыми в отчётном месяце заключён, действует или расторгнут любой из следующих договоров:

  1. Трудовой
  2. Гражданско-правовой договор, предметом которого является выполнение работ или оказание услуг
  3. Об отчуждении исключительного права на произведения науки, литературы или искусства

Упростите себе жизнь — сформируйте отчётность в 2 клика с помощью сервиса «Моё дело».

Система все рассчитывает автоматически, а также заполняет документы для подачи в налоговую службу и пенсионный фонд.

Попробовать бесплатно

В форме СЗВ-М должны указываться данные о всех работниках, которые трудились в компании в отчётном месяце, в том числе уволенных, взявших больничный за свой счёт и тех, кто не получил никаких выплат.

Работники, заключившие договоры ГПХ, авторские или об отчуждении прав, отражаются на общих основаниях — так же как и по трудовым договорам.

Следует помнить, что предприятия со штатом 25 сотрудников и более могут отправлять отчёты только в электронном виде. Если же трудоустроено менее 25 человек, то принимаются и документы на бумажном носителе.

В каких случаях оформляется нулевой СЗВ-М

Нулевой формы СЗВ-М по определению быть не может: заполненный бланк отчётности подлежит обязательной сдаче.

Однако в юридической и налоговой практике уже закрепилось понятие «нулевой отчётности», например, нулевые декларации всё же подаются. Под условно нулевой формой СЗВ-М

обычно понимают отчёт, в котором указан только директор компании, в которой нет других сотрудников. Это правило касается исключительно организаций.

То есть, если в компании числится хотя бы один сотрудник, обычно это генеральный директор и учредитель в одном лице, то отчётность необходимо подавать, хотя это бывает не совсем очевидно. Даже если в штате вообще нет рядовых сотрудников, учредитель считается руководителем фирмы, то есть за ним закреплена должность генерального директора.

Подобные ситуации возникают, например, если зарегистрировать фирму под конец календарного месяца, при финансовых трудностях или приостановке деятельности, когда от услуг наёмных работников приходится отказываться.

Предоставлять сведения об единственном учредителе, ставшем генеральным директором, организация должна независимо от того, выплачивается ему заработная плата или нет. На это не влияет даже отсутствие деятельности – всё равно придётся отчитаться

. ПФР подтверждает это в письме от 20.03.2018 № ЛЧ-08-24/5721.

Кроме того, если сотрудники организации за отчётный период не получили выплат, они не перестают быть застрахованными лицами и должны быть внесены в бланк СЗВ-М.

Отправка данных о застрахованных лицах является обязательной, однако у этого правила есть исключения. Так, от подачи отчёта СЗВ-М освобождены:

  • Крестьянские и фермерские хозяйства без наёмных работников
  • ИП, арбитражные управляющие, адвокаты с частной практикой и нотариусы, которые платят фиксированные страховые взносы только за себя
  • Работодатели за иностранных граждан и лиц без гражданства, временно находящихся на территории РФ или работающих удалённо в соответствии со статьёй 7 ФЗ № 167
  • Работодатели за военнослужащих, сотрудников внутренних органов и ФСБ за исключением вольнонаёмных согласно тому же закону

Важно понимать, что эти категории граждан освобождены от сдачи СЗВ-М не из-за отсутствия работников или заработной платы, а согласно законодательству.

То есть, индивидуальные предприниматели без сотрудников вообще не обязаны сдавать форму СЗВ-М. Если же они привлекает наёмную силу, то заполняют отчёты по общим правилам. В этом случае необходимо указать только нанятый персонал, сам ИП данные о себе вносить не должен. Это следует из пояснений ПФР.

Как заполнять нулевой СЗВ-М

Так как нулевого СЗВ-М не бывает, бухгалтеры используют условно нулевой. В таком бланке могут быть отражены только данные директора компании. В остальном же он заполняется как обычный отчёт по общим правилам.

Необходимо заполнить поле с регистрационным номером компании в ПФР и внести значения в графы ИНН и КПП. Ниже проставить отчётный период в цифровой форме и год, за которые сдаётся отчёт.

Далее отметить тип формы в виде буквенного кода. В случае нормативной подачи в обычном графике это будет «исхд». После обязательно следует внести в бланк следующие данные:

  1. ФИО руководителя
  2. Страховой номер индивидуального лицевого счёта (СНИЛС) – он должен быть в обязательном порядке
  3. ИНН

Однако, важно отметить, что позиция ПФР и Минтруда по поводу нулевой формы неоднократно менялась. В 2016 году было заявлено, что если фирма не ведёт никакой деятельности, а с директором не заключён трудовой договор, то СЗВ-М можно не подавать. А в письме ПФР от 20.03.2018 утверждается уже обратное. Также здесь следует учитывать и судебную практику, так как в случае признания поданных сведений неправильными или неполными, предусмотрены штрафные санкции.

Боитесь допустить ошибку в отчёте СЗВ-М?

Создайте бланк с помощью сервиса «Моё дело». У нас исключены ошибки.

Создать бесплатно отчёт

В 2020 году лучшим решением будет перестраховаться и указать данные директора, даже если с ним нет оформленных трудовых отношений, поскольку письменные разъяснения официальных инстанций не всегда принимаются в качестве доказательств. Кроме того, можно обратиться к экспертам компании «Моё дело» и получить комментарии по поводу того, как следует поступить.

На единственного сотрудника – директора фирмы бланк СЗВ-М будет выглядеть так. Все поля заполняются как обычно, единственное отличие – в 4 разделе должны быть записи только с данными руководителя компании.

Пример заполнения «нулевого» СЗВ-М в 2020 году

Сроки подачи нулевого отчёта СЗВ-М

Так как не существует нулевой формы СЗВ-М (она лишь включает в себя минимум информации), то и отчитываться следует на общих основаниях.

Согласно статье 11 ФЗ №27 01.04.1996, отчётность нужно предоставлять ежемесячно не позднее 15 числа месяца, следующего за отчётным. Если крайний срок сдачи формы выпадает на праздничный или выходной день, то сдавать её следует в ближайший рабочий день.

Можно сдать и раньше при необходимости, однако следует удостовериться, что до конца месяца штат не пополнится новыми сотрудниками. В противном случае последует штраф от ПФР за предоставление неполных сведений о застрахованных лицах.

Форма СЗВ-М сдаётся в территориальный орган ПФР по месту регистрации страхователя согласно п.1 статьи 11 закона № 27-ФЗ. Филиалы, имеющие собственный действующий счёт в банке, обязаны подавать форму отдельно. В этом случае в отчёте в графе ИНН указывается значение основного подразделения, а в КПП – обособленного.

Даты подачи формы СЗВ-М в 2020 году

Нулевой отчёт СЗВ-М при отсутствии штатных сотрудников

Поскольку указывать в форме СЗВ-М необходимо всех застрахованных лиц, у работодателей часто возникает вопрос: чьи данные вносить при отсутствии штатных сотрудников?

Кроме того, в штате любого юридического лица в обязательном порядке должен числиться хотя бы один сотрудник, даже если деятельность не ведётся в силу каких-либо причин. Обычно этим работником и выступает генеральный директор организации, притом не важно оформлено это официально или нет, то есть вне зависимости от наличия трудового договора.

А так как заявления уполномоченных органов разнятся, чтобы избежать неприятностей или даже судебных разбирательств, рекомендуется подавать форму СЗВ-М с данными руководителя компании, если нет других официально оформленных сотрудников.

Также следует регулярно просматривать новости судебной практики и мониторить ситуацию в информационном поле на предмет новых распоряжений со стороны официальных ведомств в 2020 году.

Зарегистрируйтесь в интернет-бухгалтерии «Моё дело»

И получите бесплатную круглосуточную экспертную поддержку по всем вопросам бухгалтерского учёта и налогообложения.

Получить доступ

Нулевой отчет СЗВ-М в 2020 году: нужно ли сдавать?

Отчет СЗВ-М в 2020 году  – сдается ежемесячно работодателями в ПФР. Нужно ли сдавать нулевой отчет в 2020 году? Если да, то как заполнять нулевой отчет?

Также см.: 

Сдавать или нет пустой бланк в 2020 году?

Может ли вообще СЗВ-М в 2020 году быть нулевой. В самом отчете написано, что сведения в 2020 году подаются:

  • на каждого работника, с которым в месяце, за который представляется СЗВ-М, заключен или продолжает действовать трудовой договор;
  • на каждое физлицо, с которым в месяце, за который подается СЗВ-М, заключен/продолжает действовать/ прекращен ГПД на выполнение работ и оказание услуг (договоры авторского заказа, договоры об отчуждении исключительного права на произведения науки и т.п.). На таких лиц подаются сведения, если выплачиваемые им вознаграждения облагаются страховыми взносами в соответствии с законодательством РФ.

Получается, что нулевой отчетности в 2020 году, в принципе, быть не может, т.к. хоть один работник в фирме должен быть – ее директор (он может быть и учредителем).

Нулевая СЗВ-М в 2020 году: генеральный-единственный учредитель

Для подачи в ПФР СЗВ-М не имеет значения, заключен ли с директором трудовой договор или нет (речь идет о ситуации, когда директор и учредитель в одном лице) – организация все равно обязана сдавать СЗВ-М. На этот счет есть целый ряд разъяснений: письма ПФР от от 29.03.2018 № ЛЧ-08-24/5721, от 06.05.2016 № 08-22/6356, Минтруда от 16.03.2018 № 17-4/10/В-1846.

А нужно ли сдавать СЗВ-М в 2020 году на директора, если деятельность фирмой не ведется? Да, в таком случае тоже нужно сдавать отчет!

Нулевая СЗВ-М: должен ли сдавать отчет ИП?

Если ИП использует труд наемных работников или, например, заключал с физлицами ГПД, то в 2020 году он обязан представить сведения в отношении этих лиц по форме СЗВ-М.

Если же ИП работает один (сам на себя), то подавать данную отчетность в ПФР ему не нужно. Пенсионный фонд

пишет об этом на своем официальном сайте.

Как заполнять нулевой СЗВ-М в 2020 году

Если организация или ИП не ведет деятельность, не выплачивает своим работникам зарплату и, соответственно, сдает нулевую отчетность, то на обязанность представить СЗВ-М данный факт не влияет. Ведь из-за отсутствия деятельности/невыплаты зарплаты работники не перестают быть застрахованными лицами. А, значит, подача СЗВ-М обязательна.

На единственного директора без зарплаты “нулевой” СЗВ-М в 2020 году может выглядеть так. Образец:

 СКАЧАТЬ ОБРАЗЕЦ НУЛЕВОГО СЗВ-М В 2020 ГОДУ 

Вывод

Формат сведений, утвержденный постановлением Правления ПФР от 07.12.2016 № 1077п, предусматривает по крайней мере одну заполненную строку в списке застрахованных лиц. Сдать же отчет вовсе без блока «Сведения о застрахованных лицах» нельзя. Обязательно заполните данные хотя бы на единственного учредителя, который получает зарплату и выступает в роли руководителя организации.

Сроки сдачи нулевой СЗВ-М в 2020 году

Нулевой СЗВ-М быть не может. А обычные отчеты сдавайте в общие сроки.

СЗВ-М без работников, как заполнить и сдать СЗВ-М, если нет сотрудников

Ежемесячная форма СЗВ-М появилась в 2016 году. В 2017 мы продолжаем подавать в Пенсионный фонд сведения о застрахованных лицах на бланке, утвержденном постановлением Правления ПФР от 01.02.2016 № 83п. Изменился лишь срок представления – теперь это 15 число следующего за отчетным месяцем.

Как сдавать СЗВ-М, если нет сотрудников? Как заполнить такую форму? Должен ли отчитываться ИП? Когда не надо подавать сведения? Такие вопросы могут возникать, когда в фирме числится лишь ее руководитель, либо сотрудники еще не набраны, или уже уволены. Мы постараемся ответить на эти вопросы в нашем материале.

Как сдавать СЗВ-М, если нет работников

В отчете СЗВ-М указываются сведения о застрахованных лицах, с которыми в отчетном месяце были заключены, действовали или были расторгнуты трудовые договоры, а также договоры ГПХ, вознаграждения по которым облагаются страховыми пенсионными взносами. Даже если деятельность не ведется, и не уплачиваются взносы, но сотрудники при этом не уволены и договоры с ними действуют, сведения в ПФР подаются.

Логично предположить, что если такие договоры не заключались, то и отчитываться не о чем: СЗВ-М без сотрудников будет пустой. Но в любой организации всегда есть ее руководитель, который одновременно является ее сотрудником, а значит, одного застрахованного в сведениях, в большинстве случаев, все же следует указать.

Вновь созданные и неработающие фирмы: СЗВ-М без работников

Как правило, у фирм, зарегистрированных не так давно, деятельность еще не ведется, а штат сотрудников поначалу отсутствует. Также возможна ситуация, когда работающая организация приостанавливает на неопределенный срок свою хоздеятельность и увольняет всех работников. Как сдавать СЗВ-М, если нет сотрудников по таким причинам?

Здесь следует обратить внимание на то, как оформлены трудовые отношения с директором организации:

  • Если директор в новой фирме пока не назначен, а есть только учредители, то СЗВ-М не подается. Когда директора приняли на работу, подписав с ним трудовой договор, включать в сведения для ПФР его нужно с месяца заключения договора.
  • Приостанавливая деятельность, организация перестанет заполнять отчет СЗВ-М, если нет сотрудников, со следующего месяца после расторжения последнего договора, по которому отчислялись страхвзносы ПФР. Если же деятельности нет, но договоры не расторгнуты, например, в связи с уходом сотрудников в отпуск без содержания, то придется по-прежнему подавать сведения СЗВ-М.

Как сдать СЗВ-М, если нет работников, а директор – учредитель

Если руководитель фирмы одновременно является ее единственным учредителем, то необходимость подачи в ПФР сведений СЗВ-М зависит от следующих факторов:

  • С директором заключен трудовой договор и он получает зарплату, облагаемую пенсионными взносами – в этом случае СЗВ-М, если нет работников, нужно сдать на одного директора-учредителя (письмо ПФР от 13.07.2016 № ЛЧ-08-26/9856).
  • Трудовой договор не заключался, хоздеятельность организацией не ведется и зарплата директору не выплачивается – сведения СЗВ-М при таких обстоятельствах сдавать не нужно (Информация с сайта ПФР о порядке представления формы СЗВ-М).

СЗВ-М для ИП без работников

Пока предприниматель использует труд наемных работников, он является страхователем в ПФР и обязан ежемесячно отчитываться по форме СЗВ-М. Причем, в сведениях ИП должен указывать только своих сотрудников, но не себя.

А когда ИП без работников сдает СЗВ-М? Ответ на этот вопрос один – никогда. Если предприниматель всегда работал в одиночку или все его работники по трудовым и ГПХ-договорам уволены, и поэтому наемных сотрудников в отчетном месяце у него нет, представлять СЗВ-М ему не нужно вовсе (письмо ПФР от 27.07.2016 № ЛЧ-08-19/10581).

Как заполнить СЗВ-М, если нет работников

Если заключенных, действующих, или расторгнутых в отчетном месяце трудовых договоров и договоров ГПХ у страхователя нет, то и заполнять форму СЗВ-М не нужно.

Заполнять СЗВ-М при отсутствии работников придется фактически лишь в случае, когда в организации работает по трудовому договору только ее директор. В разделе 4 нужно заполнить лишь одну строку, указав сведения о застрахованном лице – директоре. Он же подписывает сведения СЗВ-М за отчетный месяц в качестве руководителя.

Нулевая СЗВ-М в 2020 году: надо ли сдавать?

Начиная с апреля 2016 года, организации и ИП подают в ПФР новый отчет, по форме СЗВ-М. Данный документ оформляется при наличии в компании сотрудников, с которыми трудовые отношения закреплены договорами, соответственно, на них отчисляются страховые взносы.

А как быть, если фирма в отчетном периоде не вела деятельности? Оформлять нулевую отчетность? И надо ли предоставлять такой отчет индивидуальному предпринимателю? Ответы на эти и другие вопросы по данной теме ищите в этой публикации.

«Нулевая» — не значит необязательная

Нужно ли сдавать нулевую СЗВ-М? Вопрос стал актуальным сразу после появления данного вида отчетов. Постановлением Правления ПФР в феврале 2016 года утвержден новый формат отчетности, которую требуется отправлять в Пенсионный фонд каждый месяц. Эта форма продолжает свое действие в 2020 году.

В Пенсионный фонд обязательную ежемесячную персонифицированную форму обязаны:

1. Российские юридические лица и их подразделения.
2. Иностранные организации и их подразделения.
3. Индивидуальные предприниматели.
4. «Самозанятые» лица – нотариусы, адвокаты, детективы.

Освобождены от предоставления отчета по форме СЗВ-М:

  • крестьянские фермерские хозяйства, где нет наемных работников;
  • индивидуальные предприниматели, арбитражные управляющие, частнопрактикующие адвокаты и нотариусы, которые уплачивают фиксированные страховые взносы только за себя;
  • работодатели в отношении иностранных граждан и лиц без гражданства, которые временно пребывают в России или работают дистанционно, на которых не распространяется обязательное пенсионное страхование;
  • работодатели в отношении военнослужащих, сотрудников органов МВД и ФСБ (за исключением вольнонаемных), так как к ним обязательное пенсионное страхование не применяется, и для них государством предусмотрены иные гарантии.

Кто должен быть объектом отчетности по форме СЗВ-М?

  • все работники, с которыми в отчетном месяце продолжает действовать трудовой договор либо заключен новый;
  • физлица, с которыми в отчетном месяце заключен договор гражданско-правового характера, либо он продолжает действовать. Например, речь идет о ГПД, предусматривающих выполнение работ либо оказание услуг по авторским или научным заказам, и вознаграждение, что им выплачивается, облагается страховыми взносами.

И даже когда организация на какой-то период приостанавливает деятельность, не выплачивая своим работникам зарплату, все равно представлять СЗВ-М необходимо. Поскольку даже в условиях временного отсутствия зарплаты работники остаются застрахованными лицами.

Нулевая СЗВ-М, если гендиректор — единственный учредитель

Нужна ли нулевая СЗВ-М в 2020 году в случае, если директор предприятия, организации является одновременно и единственным учредителем компании? Да, в данном случае отчет по данной форме потребуется. Поскольку законодательно директор считается в такой ситуации трудоустроенным. Ему не требуется заключения договора. Вернее, договор сам с собой он просто не может оформить, но и без этого является официальной трудовой единицей в своей компании. Подробности об этом ищите в Письме ПФР от 06.05.2016 № 08–22/6356.

Но есть особый случай, когда СЗВ-М сдавать не придется. Это когда в организации отсутствуют сотрудники, деятельность в ней остановлена. А вышеперечисленные условия: директор и учредитель являются одним лицом, не оформленным по трудовому договору либо ГПД.

Нулевая СЗВ-М в 2020 году у ИП

Что касается нулевой СЗВ-М в 2020 году в отношении ИП, то здесь тоже есть некоторые особенности, и весьма существенные. Так, если у индивидуального предпринимателя нет наемных работников, то ему вовсе не потребуется подавать данную отчетность в ПФР.

Но при наличии наемных сотрудников или когда используется труд сторонних людей с заключением с ними гражданско-правового договора, на этих физлиц подавать данные по форме СЗВ-М нужно обязательно.

Если вы все же будете сдавать не нулевую форму СЗВ-М, то не забывайте выдать своим работникам копии отчета СЗВ-М.

Копии СЗВ-М сотрудникам

В ст. 11 п. 4 Закона № 27-ФЗ «О персонифицированном учете» с 2017 года внесены изменения. Согласно нововведениям, работодатель обязан выдавать своим работникам выписки СЗВ-М в трех случаях:

  • если работник написал заявление с просьбой предоставить ему копию отчетности;
  • если работник увольняется;
  • если работник подал заявление в ПФР о назначении пенсии.

Также установлены сроки для предоставления копий отчетности:

  • до 3 дней после получения заявления от работника, в случае выхода работника на пенсию;
  • до 5 дней после получения заявления от работника;
  • в день увольнения или расторжения договора-подряда.

Помимо того, что работодатель обязан выдавать выписки СЗВ-М в трех перечисленных случаях, Закон требует также ежемесячно после сдачи отчета СЗВ-М выдавать выписки своим работникам. Причем в получении выписки СЗВ-М работник должен расписаться.

Однако в настоящее время никаких штрафных санкций за невыдачу выписок СЗВ-М не предусмотрено.

Копию всей формы отчета СЗВ-М выдавать работнику ни в коем случае нельзя. Это связано с тем. что форма СЗВ-М содержит персональные данные других работников (фамилия, имя, отчество, ИНН), а без их согласия передавать такие данные запрещено. Поэтому работникам необходимо выдавать выписку СЗВ-М , оформленную на конкретного человека.

На этой странице вы найдете подробную инструкцию по заполнению формы СЗВ-М, можете скачать бланк и образец заполнения этого документа.

Тоже может быть полезно:

Информация полезна? Расскажите друзьям и коллегам

Уважаемые читатели! Материалы сайта TBis.ru посвящены типовым способам решения налоговых и юридических вопросов, но каждый случай уникален.

Если вы хотите узнать, как решить именно ваш вопрос — обращайтесь в форму онлайн консультанта. Это быстро и бесплатно!

Комментарии

Добавить комментарий

Нажимая на кнопку «Отправить» вы подтверждаете, что ваш комментарий не содержит персональных данных в любой их комбинации

Вопросы и ответы в комментариях даются пользователями сайта и не носят характера юридической консультации. Если вам необходима юридическая консультация, рекомендуем получить ее, задав вопрос по телефонам, указанным выше, или через эту форму

.

Нужно ли сдавать нулевой СЗВ-М, если нет работников в 2021 году

Надо ли сдавать СЗВ-М, если нет работников и не велась деятельность

Отчет по утвержденной форме работодатели сдают каждый месяц не позднее 15 числа следующего месяца, если эта дата не совпадает с выходными или праздничными днями. В противном случае ее сдвигают на следующий рабочий день. В этом виде отчетности для Пенсионного фонда, как правило, содержатся сведения о сотрудниках, с которыми заключены, продолжают действовать или прекращены трудовые отношения по договору в отчетном месяце. Но есть и такие работодатели, кто не сдает СЗВ-М в любом случае. К ним относятся:

  • фермерские хозяйства, если нет наемных работников;
  • арбитражные управляющие и адвокаты, нотариусы, которые занимаются частной практикой. Они платят только за себя страховые фиксированные суммы;
  • ИП, которые не имеют трудовых и гражданско-правовых договоров с наемными сотрудниками;
  • работодатели, если они реализуют трудовые отношения с иностранными гражданами, которые временно работают в РФ и не включены в систему обязательного пенсионного страхования;
  • работодатели в отношении сотрудников МВД, ФСБ и военнослужащих. Они не участвуют в программе обязательного пенсионного страхования, пользуются другими государственными гарантиями.

Бывают ситуации, когда фактически нет работников. Тогда возникает вопрос, сдавать или нет нулевой СЗВ-М организации или индивидуальному предпринимателю.

Постановление правления ПФР от 07.12.2016 № 1077п утверждает, что для составления этой формы следует иметь хотя бы одну заполненную строку в списке застрахованных лиц. ПФР проверяет в СЗВ‑М актуальное количество работников и сравнивает с показателями за предыдущий месяц. Отчет по установленной форме СЗВ-М при отсутствии работников обязаны направлять в ПФР даже те организации-юридические лица, у которых нет оформленных штатных единиц. Получается, что работодателю необходимо предоставлять «нулевые» сведения, чтобы избежать штрафа.

Но тут закономерно возникает еще один вопрос: нужно ли сдавать СЗВ-М в 2021 году, если в ООО нет работников, только учредитель компании. Если руководитель предприятия является единственным учредителем, трудовой договор с ним не заключается, он состоит с организацией в трудовых отношениях в любом случае, даже без начисления зарплаты.

Для этого существуют разъяснения ПФР, нужно ли сдавать СЗВ-М при нулевой отчетности предприятию. Не существует правовых обоснований принимать от организации «нулевые» сведения о застрахованных лицах, если их нет по факту. Однако в любой компании есть главный управляющий или генеральный директор. Отчитаться все же придется, поскольку учредитель в этом случае является единственным застрахованным лицом компании (письмо ПФР от 29.03.2018 № ЛЧ-08-24/5721, письмо Минтруда от 16.03.2018 № 17-4/10/В-1846).

Другая ситуация, можно ли не сдавать СЗВ-М, если нет деятельности, по каким-то причинам организация или ИП фактически не работает, работники не получают заработную плату. Подавать отчетность обязательно потребуется, даже если она нулевая, поскольку сотрудники продолжают оставаться застрахованными лицами, с которыми заключен трудовой договор.

Для индивидуальных предпринимателей условия сдачи отчетности о застрахованных лицах ничем не отличаются от организаций и юридических лиц. ИП в своей работе заключают трудовые договоры и нанимают сотрудников. А нужно ли сдавать СЗВ-М в 2021 году ИП без работников, с которыми оформлены договоры? В этом случае Пенсионный фонд не требует от ИП сдавать нулевой отчет вовсе. Данные за себя ИП подавать не обязан. Сведения для ПФР не заполняются до тех пор, пока предприниматель не заключит трудовые или гражданско-правовые договоры с работниками.

Когда можно не сдавать СЗВ-М, а ограничиться письмом в ПФР об отсутствии работников

Если данных для предоставления в ПФР нет, то и отчет сдавать не требуется. Чтобы уведомить фонд о текущем положении с кадрами, некоторые направляют письмо в ПФР о непредоставлении СЗВ-М в связи с отсутствием сотрудников. Это не касается организаций, т. к. они всегда обязаны предоставлять в ПФР персонифицированный отчет о работниках либо учредителе, если работников нет.

Если предприниматель сначала работал с наемными сотрудниками, а после они уволились, то ИП вправе направить подобное письмо в Пенсионный фонд, чтобы избежать вопросов, почему он прекратил предоставлять сведения о сотрудниках.

Как заполнить отчет без показателей

Пустая отчетность не сдается. Для организаций, когда застрахованное лицо выполняет обязанности директора, употребляется условное выражение «нулевая СЗВ-М». В нее записывают сведения о самом учредителе, указывают Ф.И.О., ИНН, СНИЛС.

Сдается отчет о застрахованных лицах в бумажном или электронном виде. Если в компании более 25 сотрудников в штате, то применяется передача сведений исключительно в электронном виде с помощью усиленной цифровой подписи, иначе работодателю грозит штраф.

В случае нулевой отчетности у организации есть возможность сдать бумажную форму:

  • непосредственно в отделение ПФР;
  • почтовым отправлением ценного письма с уведомлением о вручении.

Удобнее всего направить данные в Пенсионный фонд одним файлом по электронной почте.

Образец

Примерный образец, как заполнить нулевой отчет СЗВ-М для организации с одним застрахованным лицом, директором, выглядит так:

Нужно ли сдавать нулевые сзв-м

Все работодатели обязаны ежемесячно подавать в Пенсионный фонд отчет о застрахованных лицах. Но некоторые организации имеют лишь единственного сотрудника – директора либо приостановили своё функционирование. А иногда у компании вообще нет штата. Подают ли нулевой СЗВ-М в 2018 году в подобных ситуациях? Наша консультация поможет разобраться в этих вопросах.

Что означает «нулевая» СЗВ-М в ПФР

СЗВ-М – это форма персонифицированного учета. Она предназначена для отражения данных о застрахованных сотрудниках организации или ИП. Примерно, это обозначение расшифровывается так: Сведения о Застрахованных Входящие за Месяц. Оформлением этого отчёта занимается ответственное лицо, назначенное руководителем.

По общему правилу, если на предприятии отсутствуют работники и при этом не подписано трудовое соглашение между руководителем и самой организацией, то речь идёт про нулевые формы СЗВ-М. Во всяком случае, именно так эти ежемесячные отчёты называют бухгалтеры.

При каких условиях и кто сдает

Представлять в ПФР рассматриваемый отчёт обязаны юридические лица и индивидуальные предприниматели, которые заключили трудовой или гражданско-правовой договор с физическими лицами. При этом важно соблюдать 2 условия:

  1. Срок действия договора/контракта не истек.
  2. Есть обязанность по страховым взносам (даже если начислять взносы не на что, и сотрудники гуляют за свой счёт).

СЗВ-М сдают ежемесячно в территориальный ПФР по месту регистрации предприятия как страхователя.

Что такое нулевой отчет СЗВ-М в 2018 году

Взять пустой образец нулевой СЗВ-М и сдать его в Пенсионный фонд невозможно, да и не имеет смысла. Дело в том, что на законодательном уровне понятие «нулевая отчетность СЗВ-М» в 2018 году не прописано, как и ранее.

Если ознакомиться с содержанием этой формы, среди обязательных реквизитов можно увидеть:

  • регистрационный номер в Пенсионном фонде;
  • название организации/ИП;
  • идентификационный налоговый номер;
  • период, за который сдан отчет;
  • тип формы.

Разумеется, первые 3 раздела невозможно оставить пустыми:

В 4-м разделе формы СЗВ-М приводят список застрахованных физических лиц, с которыми заключен и действует трудовой либо гражданско-правовой договор. А также – персональную информацию по каждому: СНИЛС и ИНН. Пример показан далее:

Логично полагать, что фактически организация не может существовать без работников. Поэтому должна отражать информацию минимум о своём генеральном директоре.

Нулевая форма и приостановление деятельности

Сразу скажем, что вопрос, нужно ли сдавать нулевые СЗВ-М в 2018 году, на практике пока не находит однозначного ответа. А суть в следующем.

Экономические субъекты могут сталкиваться с ситуацией, когда нужно приостановить деятельность. В этом случае:

  • персонал есть;
  • трудовых функций он не выполняет;
  • бухгалтерия не начисляет страховые взносы.

В итоге не ясно, надо ли сдавать нулевую СЗВ-М в 2018 году, в которой блок «Сведения о застрахованных лицах» оставить пустым.

Однозначный ответ на вопрос, сдаются ли нулевые СЗВ-М, долго отсутствовал, поскольку мнение Пенсионного фонда и его территориальных органов зачастую противоречило друг другу. Так, первоначально в 2016 году была допустима отправка в фонд отчёта без блока сведений о застрахованных лицах. То есть, по сути, сдача нулевого СЗВ-М:

Однако согласно другому, более распространённому мнению, представлять отчет нужно при наличии застрахованных лиц. А именно:

1. Работающих по трудовому или гражданско-правовому договору.

2. Получающих доходы от предприятия.

Если деятельность компании на 2018 год временно приостановлена, работники всё равно продолжают быть застрахованными. Подача формы СЗВ-М с их перечислением в этом случае обязательна.

Сдают ли ИП нулевую форму

Отдельный вопрос, сдавать или нет нулевой СЗВ-М предпринимателям. Так вот: бизнесмены подают рассматриваемый отчёт в Пенсионный фонд только тогда, когда выступают страхователями. Такое требование вытекает из п. 2.2 ст. 11 Закона № 27-ФЗ

Когда все сотрудники уволены либо вообще отсутствуют, и предприниматель самостоятельно ведет свою деятельность, рассматриваемый отчёт не подают. В этом случае заполнение нулевого СЗВ-М не имеет смысла.

Нулевой отчет на единственного учредителя – гендира

Для организации, учредителем которой выступает генеральный директор в единственном лице, не имеет значения наличие/отсутствие с ним договора. Согласно разъяснениям № 08-22/6356, представление СЗВ-М с ним в Пенсионный фонд обязательно.

Но всё равно имеет место спорная ситуация: ведь при указании директора-учредителя в СЗВ-М одновременно нужно отражать в расчёте по страховым взносам сведения о его стаже.

В июле 2016 года появились дополнительные разъяснения ПФР о том, сдается ли нулевая отчетность СЗВ-М на гендира. Согласно им, если компания по определенным обстоятельствам не ведет финансово-хозяйственную деятельность, подавать нулевую СЗВ-М на генерального директора без договора не нужно.

Как было сказано, вопрос о том, можно ли оставлять пустым раздел «Сведения о застрахованных лицах», долгое время не имел однозначного ответа. Компании всё же подавали нулевую СЗВ-М, где отражали информацию только о генеральном директоре.

Согласно письму Минтруда от 7 июля 2016 года № 21-3/10/В-4587, которое подписал заместитель министра А.Н. Прудов, чиновники рассмотрели ситуацию, когда генеральный директор не заключает трудовой договор с организацией и не получает доходов.

На основании этих разъяснений можно сделать вывод: когда генеральный директор – он же учредитель и единственный работник – не подписывал трудовой договор с предприятием и не получал денежных выплат, отчетность по застрахованным лицам организация не подает.

Центральный аппарат Пенсионного фонда отреагировал на позицию Министерства труда и изменил свое мнение. Согласно письму ПФР от 13.07.2016 № ЛЧ-08-26/9856, в подобных ситуациях отчет СЗВ-М представлять не нужно.

В связи с изменением позиции, ПФР направил своим территориальным подразделениям соответствующие рекомендации. Некоторые из отделений известили об изменении позиции ПФР юридические лица и ИП.

На основании последних разъяснений страхователи освобождены от сдачи именно «нулевок». Это следует из письма ПФР от 13.07.2016 № ЛЧ-08-26/9856. Однако многие бухгалтеры предпочитают подстраховываться и сдавать такую форму СЗВ-М.

Как действовать

На сегодня нельзя однозначно утверждать, что страхователи окончательно избавлены от штрафа за нулевую СЗВ-М – несдачу такой формы.

Выше мы разобрали, что нулевой отчёт без перечня застрахованных лиц отменен. Страхователи должны представлять только СЗВ-М с наличием сведений о наемных работниках.

Письма Минтруда и ПФР пока не дают однозначных ответов на спорные вопросы про отчётность по форме СЗВ-М. Поэтому рекомендуем страхователям при их возникновении обращаться за письменными ответами в подразделения Пенсионного фонда. Так вы минимизируете риск привлечения к ответственности за правонарушение.

Нулевая отчетность | СБИС Помощь

Нулевая отчетность

Организации и ИП могут сдавать отчетность с нулевыми показателями, если:

  • за отчетный период не велась деятельность, не было покупок и продаж, а также движений по расчетному счету и кассе;
  • не начислялась заработная плата сотрудникам;
  • нет основных средств, в том числе в уставном капитале.

Как сформировать нулевую отчетность в СБИС

Получите электронную подпись на имя руководителя организации. Если ЭП уже есть, зарегистрируйте ее в СБИС.

Чтобы сформировать и отправить отчеты, воспользуйтесь мастером нулевой отчетности. Пошагово заполните данные и укажите реквизиты организации.

Внимание!

Отправить отчетность с помощью мастера может только руководитель организации. Сдавать отчеты по доверенности нельзя.

Какие отчеты нужно сдавать

Перечень форм в мастере зависит от того, являетесь ли вы индивидуальным предпринимателем или юридическим лицом, а также от того, какую систему налогообложения применяете.

Название отчетаСрок сдачиЮридические лицаИП
ОСНОУСНОСНОУСН

НАЛОГОВАЯ ИНСПЕКЦИЯ

Бухгалтерская (финансовая) отчетность31 марта  
Налоговая декларация по УСНЮЛ — 31 марта, ИП — 30 апреля  
Налоговая декларация по НДС25 апреля, июля, октября, января  
Налоговая декларация по прибыли28 апреля, июля, октября, марта   
Расчет страховых взносов30 апреля, июля, октября, января****
3-НДФЛ30 апреля   

ПЕНСИОННЫЙ ФОНД

СЗВ-СТАЖ1 марта**
СЗВ-М15 числа следующего месяца**

ФОНД СОЦИАЛЬНОГО СТРАХОВАНИЯ

4-ФСС25 апреля, июля, октября, января**
Подтверждение основного вида деятельности15 апреля  

* — сдается, если у ИП есть наемные сотрудники.

** — сдается индивидуальным предпринимателем, если у него есть наемные сотрудники, и крестьянским (фермерским) хозяйством.

Кроме отчетов, предусмотренных мастером, можно отправлять письма в госорганы, ответы на требования и формы в разделе «Отчетность»:

Нашли неточность? Выделите текст с ошибкой и нажмите ctrl + enter или свяжитесь с нами.

Учебное пособие по машинному обучению

SVM — что такое машинный алгоритм опорных векторов, объяснение с примерами кода

Большинство задач, которые сейчас выполняет машинное обучение, включают в себя такие вещи, как классификация изображений, перевод языков, обработка больших объемов данных с датчиков и прогнозирование будущих значений на основе текущих значений. Вы можете выбрать разные стратегии, соответствующие той проблеме, которую пытаетесь решить.

Хорошие новости? В машинном обучении есть алгоритм, который обрабатывает практически любые данные, которые вы ему можете передать.Но мы доберемся туда через минуту.

Контролируемое и неконтролируемое обучение

Две наиболее часто используемые стратегии в машинном обучении включают контролируемое обучение и неконтролируемое обучение.

Что такое обучение с учителем?

Обучение с учителем — это обучение модели машинного обучения с использованием помеченных данных. Это означает, что у вас есть данные, с которыми уже связана правильная классификация. Одним из распространенных способов использования контролируемого обучения является помощь в прогнозировании значений новых данных.

При обучении с учителем вам нужно будет перестраивать свои модели по мере получения новых данных, чтобы убедиться, что возвращаемые прогнозы по-прежнему точны. Примером обучения с учителем может быть нанесение этикеток с изображением еды. У вас может быть набор данных, посвященный просто изображениям пиццы, чтобы научить вашу модель, что такое пицца.

Что такое обучение без учителя?

Обучение без учителя — это обучение модели с данными без метки. Это означает, что модель должна будет найти свои собственные функции и делать прогнозы на основе того, как она классифицирует данные.

Примером обучения без учителя может быть предоставление вашей модели изображений нескольких видов еды без этикеток. Набор данных будет содержать изображения пиццы, картофеля фри и других продуктов, и вы можете использовать различные алгоритмы, чтобы модель идентифицировала только изображения пиццы без каких-либо этикеток.

Так что же алгоритм?

Когда вы слышите, как люди говорят об алгоритмах машинного обучения, помните, что они говорят о разных математических уравнениях.

Алгоритм — это просто настраиваемая математическая функция.Вот почему в большинстве алгоритмов есть такие вещи, как функции стоимости, значения веса и функции параметров, которыми вы можете обмениваться на основе данных, с которыми вы работаете. По своей сути машинное обучение — это просто набор математических уравнений, которые нужно решать очень быстро.

Вот почему существует так много разных алгоритмов для обработки разных типов данных. Одним из конкретных алгоритмов является машина опорных векторов (SVM), и это то, о чем мы подробно расскажем в этой статье.

Что такое SVM?

Машины опорных векторов — это набор контролируемых методов обучения, используемых для классификации, регрессии и обнаружения выбросов.Все это общие задачи в машинном обучении.

Вы можете использовать их для обнаружения раковых клеток на основе миллионов изображений или вы можете использовать их для прогнозирования будущих маршрутов движения с помощью хорошо подобранной регрессионной модели.

Существуют определенные типы SVM, которые можно использовать для конкретных задач машинного обучения, например регрессия вспомогательных векторов (SVR), которая является расширением классификации опорных векторов (SVC).

Главное здесь помнить, что это просто математические уравнения, настроенные так, чтобы дать вам наиболее точный ответ как можно быстрее.

SVM отличаются от других алгоритмов классификации тем, как они выбирают границу решения, которая максимизирует расстояние от ближайших точек данных всех классов. Граница решения, созданная SVM, называется классификатором максимальной маржи или гиперплоскостью максимальной маржи.

Как работает SVM

Простой линейный классификатор SVM работает, проводя прямую линию между двумя классами. Это означает, что все точки данных на одной стороне линии будут представлять категорию, а точки данных на другой стороне линии будут помещены в другую категорию.Это означает, что можно выбирать из бесконечного числа строк.

Что делает линейный алгоритм SVM лучше, чем некоторые другие алгоритмы, такие как k-ближайших соседей, так это то, что он выбирает лучшую линию для классификации ваших точек данных. Он выбирает линию, разделяющую данные и наиболее удаленную от точек данных шкафа, насколько это возможно.

Двухмерный пример помогает понять весь жаргон машинного обучения. Обычно у вас есть несколько точек данных в сетке. Вы пытаетесь разделить эти точки данных по категориям, в которые они должны входить, но вы не хотите, чтобы какие-либо данные были в неправильной категории.Это означает, что вы пытаетесь найти линию между двумя ближайшими точками, которая разделяет другие точки данных.

Итак, две ближайшие точки данных дают вам опорные векторы, которые вы будете использовать, чтобы найти эту линию. Эта линия называется границей решения.

linear SVM

Граница решения не обязательно должна быть линией. Его также называют гиперплоскостью, потому что вы можете найти границу решения с любым количеством функций, а не только с двумя.

нелинейная SVM с использованием ядра RBF

Типы SVM

Существует два разных типа SVM, каждый из которых используется для разных целей:

  • Простая SVM: обычно используется для задач линейной регрессии и классификации.
  • Kernel SVM: обладает большей гибкостью для нелинейных данных, потому что вы можете добавить больше функций, чтобы они соответствовали гиперплоскости, а не двумерному пространству.

Почему SVM используются в машинном обучении

SVM используются в таких приложениях, как распознавание рукописного ввода, обнаружение вторжений, обнаружение лиц, классификация электронной почты, классификация генов и на веб-страницах. Это одна из причин, по которой мы используем SVM в машинном обучении. Он может обрабатывать как классификацию, так и регрессию линейных и нелинейных данных.

Еще одна причина, по которой мы используем SVM, заключается в том, что они могут находить сложные отношения между вашими данными без необходимости выполнять множество преобразований самостоятельно. Это отличный вариант, когда вы работаете с небольшими наборами данных, которые содержат от десятков до сотен тысяч функций. Обычно они получают более точные результаты по сравнению с другими алгоритмами из-за их способности обрабатывать небольшие сложные наборы данных.

Вот некоторые плюсы и минусы использования SVM.

Плюсы

  • Эффективно для наборов данных с множеством функций, таких как финансовые или медицинские данные.
  • Действует в случаях, когда количество функций превышает количество точек данных.
  • Использует в функции принятия решения подмножество обучающих точек, называемых опорными векторами, что делает его более эффективным с точки зрения памяти.
  • Для функции принятия решения могут быть указаны различные функции ядра. Вы можете использовать общие ядра, но также можно указать собственные ядра.

Минусы

  • Если количество функций намного больше, чем количество точек данных, очень важно избегать чрезмерной подгонки при выборе функций ядра и условия регуляризации.
  • SVM напрямую не предоставляют оценок вероятности. Они рассчитываются с использованием дорогостоящей пятикратной перекрестной проверки.
  • Лучше всего работает с небольшими наборами образцов из-за большого времени обучения.

Поскольку виртуальные машины защиты могут использовать любое количество ядер, важно, чтобы вы знали о некоторых из них.

Функции ядра

Линейные

Они обычно рекомендуются для классификации текста, поскольку большинство этих типов задач классификации линейно разделимы.T * X + b

В этом уравнении w — это вектор весов, который вы хотите минимизировать, X — это данные, которые вы пытаетесь классифицировать, а b — это линейный коэффициент, рассчитанный из данные обучения. Это уравнение определяет границу решения, которую возвращает SVM.

Полином

Полиномиальное ядро ​​не очень часто используется на практике, потому что оно не так эффективно с вычислительной точки зрения, как другие ядра, и его прогнозы не так точны.b

Это одно из наиболее простых полиномиальных ядерных уравнений, которые вы можете использовать. f (X1, X2) представляет границу полиномиального решения, которая разделит ваши данные. X1 и X2 представляют ваши данные.

Гауссова радиальная базисная функция (RBF)

Одно из самых мощных и часто используемых ядер в SVM. Обычно выбор для нелинейных данных.

Вот уравнение для ядра RBF:

  f (X1, X2) = exp (-gamma * || X1 - X2 || ^ 2)  

В этом уравнении гамма определяет, насколько обучающая точка имеет на других точках данных вокруг нее.T * y + C)

В этой функции alpha — вектор весовых коэффициентов, а C — значение смещения для учета некоторой неправильной классификации данных, которая может произойти.

Другое

Есть много других ядер, которые вы можете использовать для своего проекта. Это может быть решение, которое нужно принять, когда вам нужно выполнить определенные ограничения ошибок, вы хотите попытаться ускорить время обучения или вы хотите супер-настроить параметры.

Некоторые другие ядра включают: радиальный базис ANOVA, гиперболический тангенс и RBF Лапласа.

Теперь, когда вы немного знаете о том, как ядра работают под капотом, давайте рассмотрим пару примеров.

Примеры с наборами данных

Чтобы показать вам, как SVM работают на практике, мы рассмотрим процесс обучения модели с ее помощью с помощью библиотеки Python Scikit-learn. Это обычно используется для решения всех видов задач машинного обучения и хорошо работает с другими библиотеками Python.

Вот шаги, которые обычно используются в проектах машинного обучения:

  • Импорт набора данных
  • Изучите данные, чтобы выяснить, как они выглядят
  • Предварительная обработка данных
  • Разделите данные на атрибуты и метки
  • Разделить данные в наборы для обучения и тестирования
  • Обучите алгоритм SVM
  • Сделайте некоторые прогнозы
  • Оцените результаты алгоритма

Некоторые из этих шагов можно комбинировать в зависимости от того, как вы обрабатываете свои данные.Мы сделаем пример с линейной SVM и нелинейной SVM. Вы можете найти код этих примеров здесь.

Пример линейной SVM

Мы начнем с импорта нескольких библиотек, которые упростят работу с большинством проектов машинного обучения.

  импортировать matplotlib.pyplot как plt
импортировать numpy как np
from sklearn import svm  

Для простого линейного примера мы просто создадим некоторые фиктивные данные, которые будут действовать вместо импорта набора данных.

  # линейные данные
X = np.массив ([1, 5, 1.5, 8, 1, 9, 7, 8.7, 2.3, 5.5, 7.7, 6.1])
y = np.array ([2, 8, 1.8, 8, 0.6, 11, 10, 9.4, 4, 3, 8.8, 7.5])  

Причина, по которой мы работаем с массивами numpy, заключается в выполнении матричных операций быстрее, потому что они используют меньше памяти, чем списки Python. Вы также можете воспользоваться вводом содержимого массивов. Теперь давайте посмотрим, как данные выглядят на графике:

  # показать неклассифицированные данные
plt.scatter (X, y)
plt.show ()  

После того, как вы увидите, как выглядят данные, вы сможете лучше предположить, какой алгоритм подойдет вам лучше всего.Имейте в виду, что это действительно простой набор данных, поэтому большую часть времени вам придется поработать с данными, чтобы привести их в пригодное для использования состояние.

Мы проведем небольшую предварительную обработку уже структурированного кода. Это переведет необработанные данные в формат, который мы можем использовать для обучения модели SVM.

  # shaping data для обучения модели
training_X = np.vstack ((X, y)). T
training_y = [0, 1, 0, 1, 0, 1, 1, 1, 0, 0, 1, 1]  

Теперь мы можем создать модель SVM, используя линейное ядро.

  # определить модель
clf = svm.SVC (kernel = 'linear', C = 1.0)  

Эта одна строка кода только что создала целую модель машинного обучения. Теперь нам просто нужно обучить его предварительно обработанным данным.

  # обучение модели
clf.fit (training_X, training_y)  

Вот как вы можете построить модель для любого проекта машинного обучения. Набор данных, который у нас есть, может быть небольшим, но если вы столкнетесь с набором данных реального мира, который можно классифицировать с помощью линейной границы, эта модель все равно будет работать.

Обучив вашу модель, вы можете делать прогнозы относительно того, как будет классифицироваться новая точка данных, и можете построить график границы решения. Построим границу решения.

  # получить значения веса для линейного уравнения из обученной модели SVM
w = clf.coef_ [0]

# получить смещение по оси Y для линейного уравнения
а = -w [0] / w [1]

# делаем пространство по оси x для точек данных
XX = np.linspace (0, 13)

# получаем значения y для построения границы решения
yy = a * XX - clf.intercept_ [0] / w [1]

# построить границу решения
plt.plot (XX, yy, 'k-')

# показать сюжет визуально
plt.scatter (обучение_X [:, 0], обучение_X [:, 1], c = обучение_y)
plt.legend ()
plt.show ()  

Пример нелинейной SVM

В этом примере мы воспользуемся немного более сложным набором данных, чтобы показать одну из областей, в которых присутствуют SVM. Давайте импортируем несколько пакетов.

  импортировать matplotlib.pyplot как plt
импортировать numpy как np
из наборов данных импорта sklearn
from sklearn import svm  

Этот набор импорта аналогичен тем, что в линейном примере, за исключением того, что он импортирует еще одну вещь.Теперь мы можем использовать набор данных прямо из библиотеки Scikit-learn.

  # нелинейные данные
circle_X, circle_y = datasets.make_circles (n_samples = 300, noise = 0,05)  

Следующий шаг — посмотреть, как эти необработанные данные выглядят на графике.

  # показать необработанные нелинейные данные
plt.scatter (круг_X [:, 0], круг_X [:, 1], c = круг_y, маркер = '.')
plt.show ()  

Теперь, когда вы видите, как разделяются данные, мы можем выбрать для начала нелинейную SVM.Этот набор данных не требует предварительной обработки, прежде чем мы будем использовать его для обучения модели, поэтому мы можем пропустить этот шаг. Вот как это будет выглядеть модель SVM:

  # make нелинейный алгоритм для модели
nonlinear_clf = svm.SVC (kernel = 'rbf', C = 1.0)  

В этом случае мы воспользуемся ядром RBF (радиальная базисная функция Гаусса) для классификации этих данных. Вы также можете попробовать полиномиальное ядро, чтобы увидеть разницу между полученными результатами. Пришло время обучить модель.

  # обучение нелинейной модели
nonlinear_clf.fit (circle_X, circle_y)  

Вы можете начать маркировать новые данные в правильной категории на основе этой модели. Чтобы увидеть, как выглядит граница решения, нам нужно создать специальную функцию для ее построения.

  # Постройте границу решения для нелинейной задачи SVM
def plot_decision_boundary (модель, ax = None):
    если топор None:
        топор = plt.gca ()
        
    xlim = ax.get_xlim ()
    ylim = ax.get_ylim ()
    
    # создать сетку для оценки модели
    x = np.linspace (xlim [0], xlim [1], 30)
    y = np.linspace (ylim [0], ylim [1], 30)
    Y, X = np.meshgrid (y, x)

# данные формы
    xy = np.vstack ([X.ravel (), Y.ravel ()]). T
    
# получаем границу решения на основе модели
    P = model.decision_function (xy) .reshape (X.shape)
    
    # Граница решения сюжета
    ax.contour (X, Y, P,
               уровни = [0], альфа = 0,5,
               linestyles = ['-'])  

У вас есть все необходимое для построения границы принятия решения для этих нелинейных данных. Мы можем сделать это с помощью нескольких строк кода, которые используют библиотеку Matlibplot, как и другие графики.

  # данные графика и граница решения
plt.scatter (круг_X [:, 0], круг_X [:, 1], c = круг_y, s = 50)
plot_decision_boundary (nonlinear_clf)
plt.scatter (nonlinear_clf.support_vectors_ [:, 0], nonlinear_clf.support_vectors_ [:, 1], s = 50, lw = 1, facecolors = 'none')
plt.show ()  

Когда у вас есть данные и вы знаете проблему, которую пытаетесь решить, это действительно может быть так просто.

Вы можете полностью изменить свою модель обучения, вы можете выбрать различные алгоритмы и функции для работы, а также можете точно настроить свои результаты на основе нескольких параметров.Теперь для всего этого есть библиотеки и пакеты, так что вам не придется заниматься математикой.

Советы по решению реальных проблем

Наборы данных реального мира имеют некоторые общие проблемы, связанные с их размером, различными типами данных, которые они хранят, и тем, сколько вычислительной мощности им может потребоваться для обучения модели.

Есть несколько вещей, на которые следует обратить особое внимание при работе с SVM:

  • Убедитесь, что ваши данные представлены в числовой форме, а не в категориальной форме.SVM ожидают чисел вместо других меток.
  • По возможности избегайте копирования данных. Некоторые библиотеки Python будут создавать дубликаты ваших данных, если они не в определенном формате. Копирование данных также замедлит ваше обучение и исказит то, как ваша модель назначает веса определенной функции.
  • Следите за размером кэша вашего ядра, потому что он использует вашу оперативную память. Если у вас действительно большой набор данных, это может вызвать проблемы для вашей системы.
  • Масштабируйте данные, потому что алгоритмы SVM не масштабируются.Это означает, что вы можете преобразовать все свои данные в диапазоны [0, 1] или [-1, 1].

Другие мысли

Вы можете задаться вопросом, почему я не вдавался в подробности математики здесь. Это главным образом потому, что я не хочу отпугивать людей от того, чтобы они больше узнали о машинном обучении.

Интересно узнать об этих длинных и сложных математических уравнениях и их выводах, но вы редко будете писать свои собственные алгоритмы и писать доказательства для реальных проектов.

Это похоже на использование большинства других вещей, которые вы делаете каждый день, например, телефона или компьютера.Вы можете делать все, что вам нужно, не зная, как устроены процессоры.

Машинное обучение похоже на любое другое приложение для разработки программного обеспечения. Существует множество пакетов, которые упрощают получение нужных результатов без глубокого опыта в статистике.

Попрактиковавшись в различных доступных пакетах и ​​библиотеках, вы обнаружите, что самое сложное в машинном обучении — это получение и маркировка ваших данных.

Я работаю над нейробиологией, машинным обучением, веб-вещами! Следите за мной в Твиттере, чтобы узнать больше об этом и других интересных технических материалах.

Поддержка векторной машины (SVM) для одноклассной и двоичной классификации

Поиск с помощью алгоритма двоичной классификации SVM для оптимальной гиперплоскости, разделяющей данные на два класса. Для разделяемых классов оптимальная гиперплоскость максимизирует запас (пробел который не содержит никаких наблюдений) вокруг себя, который создает границы для положительных и отрицательных классов. Для неразлучных классов, цель та же, но алгоритм налагает штраф от длины поля для каждого неправильного наблюдения сторону границы своего класса.

Линейная функция оценки SVM —

где:

  • x — наблюдение (соответствующее к ряду X ).

  • Вектор β содержит коэффициенты, которые определяют ортогональный вектор к гиперплоскости (соответствующий к мкр бета ). Для разделяемых данных оптимальная маржа длина равна 2 / β‖.

  • b — член смещения (соответствующий к Mdl.Bias ).

Корень f ( x ) для конкретных коэффициентов определяет гиперплоскость. Для конкретного гиперплоскость, f ( z ) — расстояние от точки z до гиперплоскости.

Алгоритм ищет максимальную длину поля, сохраняя наблюдения в положительный ( y = 1) и отрицательный ( y = –1) классы разделяются.

  • Для разделяемых классов цель состоит в том, чтобы минимизировать ‖β‖ по сравнению с β и b при условии y j f ( x j ) ≥ 1, для всех j = 1 ,.., . Это первичная формализация для разделяемых классов.

  • Для неразделимых классов алгоритм использует резервные переменные. ( ξ j ), чтобы оштрафовать цель функция для наблюдений, которые пересекают границу поля для своего класса. ξ j = 0 для наблюдений, которые не пересекают границу маржи для своего класса, иначе ξ j ≥ 0.

    Цель состоит в том, чтобы минимизировать 0,5‖β‖2 + C∑ξj относительно β , b и ξ j субъект к yjf (xj) ≥1 − ξj и ξj≥0 для всех j = 1, .., n и для положительного ограничения скалярного блока С . Это первичная формализация неразлучных классы.

Алгоритм использует метод множителей Лагранжа для оптимизации цели, который вводит n коэффициентов α 1 ,…, α n (соответствует Mdl.Alpha ). Двойственные формализации для линейной SVM следующие: следующим образом:

  • Для разделяемых классов минимизировать

    в отношении α 1 , …, α n , при ∑αjyj = 0, α j ≥ 0 для всех j = 1, …, n и Каруш-Кун-Такер (KKT) условия дополнительности.(z)).

    В некоторых случаях классы разделяет нелинейная граница. Нелинейный SVM работает в преобразованном пространстве предикторов, чтобы найти оптимальное, разделяющее гиперплоскость.

    Двойная формализация для нелинейной SVM —

    в отношении α 1 , …, α n , при условии ∑αjyj = 0, 0≤αj≤C для всех j = 1, .., n и KKT условия дополнительности. G ( x k , x j ) являются элементами матрицы Грама. Результирующий функция оценки —

    Для получения дополнительных сведений см. Общие сведения о машинах опорных векторов, [1] и [3].

    Что такое машина опорных векторов и зачем ее использовать?

    Этот пост изначально был опубликован в блоге Yhat. Yhat — это компания из Бруклина, цель которой — сделать науку о данных применимой как для разработчиков, так и для специалистов по обработке данных и предприятий.Yhat предоставляет программную платформу для развертывания алгоритмов прогнозирования и управления ими в виде API-интерфейсов REST, устраняя при этом болезненные инженерные препятствия, связанные с производственными средами, такими как тестирование, управление версиями, масштабирование и безопасность.


    Что такое SVM?


    SVM — это управляемый алгоритм машинного обучения, который можно использовать для задач классификации или регрессии. Он использует технику, называемую трюком с ядром, для преобразования ваших данных, а затем на основе этих преобразований находит оптимальную границу между возможными выходами.Проще говоря, он выполняет несколько чрезвычайно сложных преобразований данных, а затем выясняет, как разделить ваши данные на основе меток или выходных данных, которые вы определили.

    Так что же в нем такого замечательного?


    Ну, SVM может выполнять как классификацию, так и регрессию. В этом посте я сосредоточусь на использовании SVM для классификации. В частности, я сосредоточусь на нелинейной SVM или SVM с использованием нелинейного ядра. Нелинейная SVM означает, что граница, которую вычисляет алгоритм, не обязательно должна быть прямой линией.Преимущество состоит в том, что вы можете фиксировать гораздо более сложные отношения между вашими точками данных без необходимости выполнять сложные преобразования самостоятельно. Обратной стороной является то, что время обучения намного больше, так как оно требует больших вычислительных ресурсов.

    Коровы и волки


    Так в чем же фокус с ядром?

    Уловка с ядром берет данные, которые вы ему даете, и преобразует их. Далее идут некоторые замечательные функции, которые, по вашему мнению, могут стать отличным классификатором, а на выходе появляются некоторые данные, которые вы больше не узнаете.Это похоже на распутывание цепи ДНК. Вы начинаете с этого безнадежно выглядящего вектора данных, а после того, как подвергнете его уловке с ядром, он распутывается и скомпилирован до тех пор, пока не станет гораздо большим набором данных, который невозможно понять, глядя на электронную таблицу. Но в этом и заключается волшебство: при расширении набора данных теперь между вашими классами появляются более очевидные границы, и алгоритм SVM может вычислить гораздо более оптимальную гиперплоскость.

    На секунду представьте, что вы фермер и у вас есть проблема — вам нужно установить забор, чтобы защитить своих коров от стаи волков.Но где вы строите свой забор? Что ж, если вы действительно фермер, ориентированный на данные , то одним из способов сделать это было бы создание классификатора, основанного на положении коров и волков на вашем пастбище. Рассматривая несколько различных типов классификаторов, мы видим, что SVM отлично справляется с отделением ваших коров от стаи волков. Я думал, что эти графики также хорошо иллюстрируют преимущества использования нелинейных классификаторов. Вы можете увидеть, что в обеих моделях логистики и дерева решений используются только прямые линии.

    Хотите воссоздать анализ?


    Хотите создать эти сюжеты для себя? Вы можете запустить код в своем терминале или в IDE по вашему выбору, но, что очень удивительно, я бы порекомендовал Rodeo. Он имеет отличную функцию всплывающего графика, которая пригодится для такого типа анализа. Он также поставляется с Python, уже включенным для компьютеров Windows. Кроме того, теперь это молниеносно благодаря упорной работе TakenPilot.

    После того, как вы скачали Родео, вам нужно сохранить сырые cows_and_wolves.txt из моего github. Убедитесь, что вы установили рабочий каталог туда, где вы сохранили файл.

    Хорошо, теперь просто скопируйте и вставьте приведенный ниже код в Rodeo и запустите его либо построчно, либо весь скрипт. Не забывайте, что вы можете открывать вкладку с графиками, перемещать окна или изменять их размер.

    Позвольте SVM делать тяжелую работу


    В случае, если связь между зависимой переменной и независимой переменной является нелинейной, она не будет такой же точной, как SVM.2)) становится гораздо менее важным, поскольку это будет учтено в алгоритме. Если у вас все еще возникают проблемы с представлением этого изображения, посмотрите, сможете ли вы последовать этому примеру.

    Допустим, у нас есть набор данных, состоящий из зеленой и красной точек. При нанесении на график с их координатами точки образуют форму красного круга с зеленым контуром (и выглядят очень похоже на флаг Бангладеш).

    Что произойдет, если мы каким-то образом потеряем 1/3 наших данных. Что, если мы не сможем его восстановить, и мы хотели бы найти способ приблизиться к тому, как выглядит эта недостающая 1/3.

    Так как же нам определить, как выглядит недостающая 1/3? Один из подходов может заключаться в построении модели с использованием 80% данных, которые у нас есть, в качестве обучающего набора. Но какой тип модели мы используем? Давайте попробуем следующее:

    • Логистическая модель
    • Дерево решений
    • SVM

    Я обучил каждую модель, а затем использовал каждую для прогнозирования недостающей 1/3 наших данных. Давайте посмотрим, как выглядят наши предсказанные формы …

    Следуйте по


    Вот код для сравнения вашей логистической модели, дерева решений и SVM.

    Следуйте за Родео, скопировав и запустив приведенный выше код!

    Результаты


    Из графиков ясно, что SVM — победитель. Но почему? Что вы заметите, если вы посмотрите на предсказанные формы дерева решений и моделей GLM? Прямые границы. Наша модель ввода не включала никаких преобразований для учета нелинейной зависимости между x, y и цветом. Учитывая определенный набор преобразований, мы определенно могли бы улучшить работу GLM и DT, но зачем тратить время? Без сложных преобразований или масштабирования SVM неверно классифицировал только 117/5000 точек (98% точность в отличие от DT-51% и GLM-12%! Из них все неправильно классифицированные точки были красными — отсюда и небольшая выпуклость.

    Когда не использовать


    Так почему бы не использовать SVM для всего? К сожалению, магия SVM также является самым большим недостатком. Сложные преобразования данных и результирующая граничная плоскость очень трудно интерпретировать. Вот почему его часто называют черным ящиком. GLM и деревья решений, напротив, прямо противоположны. Очень легко понять, что именно и почему DT и GLM делают за счет производительности.

    Дополнительные ресурсы


    Хотите узнать больше о SVM? Вот несколько хороших ресурсов, с которыми я столкнулся:

    Оригинал.Размещено с разрешения.

    Связанный:

    Кадр данных

    — классификация SVM в R

    У меня есть следующий фрейм данных , содержащий обучающие данные, которые будут использоваться в классификации SVM . Первый столбец ID следует избегать, а столбец Class содержит переменную ответа.

     > обучение_S
          ID Coherence_VV_Stack2.1 Coherence_VV_Stack2.2 Coherence_VV_Stack2.3 Coherence_VV_Stack2.4 Класс Coherence_VV_Stack2.5
    1 1 0,37249821 0,40778583 0,61994231 0,26051590 0,66157836 1
    2 1 0,24540116 0,25959459 0,10963936 0,37917945 0,42228147 1
    3 1 0,41568330 0,34043241 0,25767127 0,24456473 0,75776720 1
    4 1 0,74053413 0,55324554 0,49598694 0,27220318 0. ( -1: 1))
      

    Но я определенно делаю что-то не так, когда получаю

      Ошибка прогнозирования.svm (ret, xhold, solution.values ​​= TRUE):
      Модель пуста!
      

    Есть предложения о том, как запустить классификацию SVM, используя в качестве входных данных имеющуюся у меня структуру данных?

    — РЕДАКТИРОВАТЬ —

    Чтобы лучше проверить мои данные, вот str

     > str (training_S)
    'data.frame': 86745 набл. из 7 переменных:
     $ ID: число 1 1 1 1 1 1 1 1 1 1 ...
     $ Coherence_VV_Stack2.1: число 0,372 0,245 0,416 0,741 0,87 ...
     $ Coherence_VV_Stack2.2: число 0,408 0,26 0,34 0,553 0,931 ...
     $ Coherence_VV_Stack2.3: число 0,62 0,11 0,258 0,496 0,893 ...
     $ Coherence_VV_Stack2.4: число 0,261 0,379 0,245 0,272 0,64 ...
     $ Coherence_VV_Stack2.5: число 0,662 0,422 0,758 0,696 0,838 ...
     $ Класс: Фактор с 1 уровнем "1": 1 1 1 1 1 1 1 1 1 1 ...
      

    , а вот str данных, предложенных @spacedman:

     > str (обучение_S2)
    'data.frame': 10 набл. из 5 переменных:
     $ ID: число 1 1 1 1 1 1 1 1 1 1
     $ C1: число 0.266 0,372 0,573 0,908 0,202 ...
     $ C2: число 0,206 0,177 0,687 0,384 0,77 ...
     $ C3: число 0,935 0,212 0,652 0,126 0,267 ...
     $ Класс: число 1 1 1 1 1 2 2 2 2 2
      

    Я вижу два основных отличия. Во-первых, моя переменная Class содержит только значение 1 (а не 2). Во-вторых, я определил переменную Class как фактор , чтобы убедиться, что SVM выполняет классификацию? Может ли это быть проблема? Разве это не должно быть правильной процедурой?

    При попытке запустить без изменения h Class на factor я получаю следующую ошибку:

      Ошибка в svm.по умолчанию (x = training_S [, c (1: (length (training_S) - 1))],:
      NA / NaN / Inf в вызове внешней функции (аргумент 4)
      

    Однако проверка моих данных на NA / NaN или infinite не обнаруживает неправильного значения

     > применить (training_S, 2, function (x) any (is.na (x)))
    Coherence_VV_Stack2.1 Coherence_VV_Stack2.2 Coherence_VV_Stack2.3 Coherence_VV_Stack2.4 Coherence_VV_Stack2.5
                    ЛОЖЬ ЛОЖЬ ЛОЖЬ ЛОЖЬ ЛОЖЬ
                    Класс
                    ЛОЖНЫЙ
    > применить (training_S, 2, function (x) any (is.nan (x)))
    Coherence_VV_Stack2.1 Coherence_VV_Stack2.2 Coherence_VV_Stack2.3 Coherence_VV_Stack2.4 Coherence_VV_Stack2.5
                    ЛОЖЬ ЛОЖЬ ЛОЖЬ ЛОЖЬ ЛОЖЬ
                    Класс
                    ЛОЖНЫЙ
    > применить (training_S, 2, function (x) any (is.infinite (x)))
    Coherence_VV_Stack2.1 Coherence_VV_Stack2.2 Coherence_VV_Stack2.3 Coherence_VV_Stack2.4 Coherence_VV_Stack2.5
                    ЛОЖЬ ЛОЖЬ ЛОЖЬ ЛОЖЬ ЛОЖЬ
                    Класс
                    ЛОЖНЫЙ
      

    SVM — документация Orange Visual Programming 3

    Support Vector Machines сопоставляет входные данные с пространством функций более высокой размерности.

    Входы

    • Данные: входной набор данных
    • Препроцессор: метод (ы) предварительной обработки

    Выходы

    • Ученик: алгоритм обучения линейной регрессии
    • Модель
    • : обученная модель
    • Поддерживающие векторы: экземпляры, используемые в качестве опорных векторов

    Машина опорных векторов (SVM) — это метод машинного обучения, который разделяет пространство атрибутов гиперплоскостью, таким образом увеличивая расстояние между экземплярами разных классов или значений классов.Этот метод часто дает превосходные прогнозные результаты. Orange встраивает популярную реализацию SVM из пакета LIBSVM. Этот виджет является его графическим пользовательским интерфейсом.

    Для задач регрессии SVM выполняет линейную регрессию в пространстве признаков большой размерности, используя потери, нечувствительные к ε. Точность его оценки зависит от правильной настройки параметров C, ε и ядра. Виджет выводит прогнозы класса на основе регрессии SVM.

    Виджет работает как для задач классификации, так и для регрессии.

    1. Учащемуся может быть присвоено имя, под которым он будет отображаться в других виджетах. Имя по умолчанию — «SVM».
    2. Тип SVM с настройками ошибок теста. SVM и ν-SVM основаны на разной минимизации функции ошибок. С правой стороны вы можете установить границы ошибок теста:
      • SVM:
        • Стоимость: срок штрафа за потерю и применяется для задач классификации и регрессии.
        • ε: параметр модели epsilon-SVR, применяется к задачам регрессии.Определяет расстояние от истинных значений, в пределах которого с предсказанными значениями не связаны штрафы.
      • ν-SVM:
        • Стоимость: срок штрафа за убытки и применяется только к задачам регрессии
        • ν: параметр модели ν-SVR, применяется к задачам классификации и регрессии. Верхняя граница доли ошибок обучения и нижняя граница доли опорных векторов.
    3. Ядро — это функция, которая преобразует пространство атрибутов в пространство новых функций, чтобы соответствовать гиперплоскости с максимальным запасом, что позволяет алгоритму создавать модель с ядрами Linear, Polynomial, RBF и Sigmoid.Функции, определяющие ядро, отображаются при их выборе, и задействованные константы:
      • g для гамма-константы в функции ядра (рекомендуемое значение — 1 / k, где k — количество атрибутов, но поскольку там виджету может быть не задан обучающий набор, по умолчанию — 0, и пользователь должен установить эту опцию вручную),
      • c для константы c0 в функции ядра (по умолчанию 0) и
      • d для степени ядра (по умолчанию 3).
    4. Установите допустимое отклонение от ожидаемого значения в Числовой допуск . Установите флажок рядом с Предел итераций , чтобы установить максимальное разрешенное количество итераций.
    5. Составить отчет.
    6. Нажмите Применить , чтобы зафиксировать изменения. Если вы установите флажок слева от кнопки Применить , изменения будут сообщены автоматически.

    Предварительная обработка

    SVM использует предварительную обработку по умолчанию, когда не указаны другие препроцессоры.Он выполняет их в следующем порядке:

    • удаляет экземпляры с неизвестными целевыми значениями
    • продолжает категориальные переменные (с одним горячим кодированием)
    • удаляет пустые столбцы
    • подставляет пропущенные значения со средними значениями

    Для классификации SVM также нормализует плотные и масштабирует разреженные данные.

    Чтобы удалить предварительную обработку по умолчанию, подключите пустой виджет предварительной обработки к учащемуся.

    Примеры

    В первом (регрессионном) примере мы использовали , содержащий набор данных , и разделили данные на два подмножества данных ( Data Sample и Remaining Data ) с помощью Data Sampler.Образец был отправлен в SVM, который произвел Model , который затем использовался в прогнозировании для прогнозирования значений в Remaining Data . Аналогичную схему можно использовать, если данные уже находятся в двух отдельных файлах; в этом случае вместо комбинации File — Data Sampler будут использоваться два виджета File.

    Второй пример показывает, как использовать SVM в сочетании с точечной диаграммой. Следующий рабочий процесс обучает модель SVM на данных iris и выводит векторы поддержки, которые представляют собой те экземпляры данных, которые использовались в качестве векторов поддержки на этапе обучения.Мы можем наблюдать, каковы эти экземпляры данных, в визуализации точечной диаграммы. Обратите внимание, что для правильной работы рабочего процесса необходимо установить связи между виджетами, как показано на снимке экрана ниже.

    Так почему, черт возьми, они называются машинами опорных векторов? | by Vidhur Kumar

    Мой первый проход с контролируемым машинным обучением был быстрым: я провел небольшое исследование учебных программ и вручную выбрал темы, которые хотел изучать. Затем я прочитал о них несколько статей, пока не понял общую концепцию (или думал, что понял), поэкспериментировал с ними, используя готовую версию алгоритма Scikit-Learn, и двинулся дальше.Недавно я начал получать формальные, глубокие знания об этих алгоритмах контролируемого обучения («почему они работают», если хотите). Естественно, SVM были частью основ, и именно тогда я получил тревожное открытие: я понятия не имел, что означают слова «машины опорных векторов»! Я полностью упустил из виду тот факт, что это причудливое имя, вероятно, имело более глубокий смысл. В этой статье я резюмирую свои выводы и пытаюсь объяснить математическое обоснование этого «сложного» названия.

    Алгоритм персептрона — это алгоритм обучения с учителем для двоичной классификации.Формально, это позволяет нам изучить двоичный классификатор, называемый пороговой функцией , которая позволяет нам отображать некоторое x в пространстве измерений n- на выходное значение f (x) , , которое является двоичное значение:

    Двоичный классификатор, выраженный как кусочная функция.

    Обратите внимание, что условное выражение для f (x) как 1 содержит взвешенное суммирование в форме скалярного произведения w x вместе с добавленным к нему смещением .Более пристальный взгляд говорит нам, что мы можем переписать условие так, чтобы смещение представляло пороговое значение для нашего двоичного классификатора:

    Условное условие двоичного классификатора переписано, чтобы подчеркнуть смещение как пороговое значение, упомянутое выше.

    Обратите внимание, что персептрон представляет собой линейный классификатор , что означает, что если обучающий набор D не является линейно разделимым, то с использованием алгоритма обучения не будет достигнуто «приближенное» решение. Однако, если D линейно разделимо, алгоритм гарантированно найдет линейный разделитель.

    Однако каждый набор данных, который является линейно разделяемым, допускает бесконечное количество возможных границ линейного решения , для которых коэффициент ошибочной классификации равен 0. Персептрон гарантированно найдет одну из них, но нет гарантии, насколько «хорошо» эта граница решения.

    Каждый набор данных, который является линейно разделяемым, допускает и бесконечное количество возможных границ линейного решения , для которых коэффициент ошибочной классификации равен 0.Перцептрон гарантированно найдет один из них, но нет никакой гарантии, насколько «хороша» эта граница принятия решения.

    Задача двоичной классификации в двумерном пространстве с бесконечным числом границ решений, разделяющих классы. Алгоритм персептрона может создать любую из этих границ принятия решения.

    Это побуждает нас придумать другой алгоритм, который максимизирует разницу между двумя классами. Запас определяется как минимальное расстояние между экземплярами данных и границей решения.

    Пусть граница решения определяется уравнением w x + b = 0. В этом случае w — это вектор нормали n- к гиперплоскости. Нормализуем на , т.е. делим его на длину на всякий случай, если это не единичный вектор.

    Расстояние между границей и ближайшей к ней тренировочной точкой из положительного класса, за которой следует расстояние между границей и ближайшей к ней тренировочной точкой из отрицательного класса.

    Пусть T будет набором из n обучающих примеров, которые нам даны. Нам нужно найти вектор w , который максимизирует маржу, которая определяется как:

    Максимальный запас, выраженный математически. Обратите внимание, что уравнение в квадратных скобках представляет собой расстояние между точкой и полем («y» существует, чтобы различать положительный и отрицательный классы). Мы определяем запас по отношению к ближайшей к нему точке из каждого класса, поэтому мы минимизируем его во всех обучающих примерах.

    Рассмотрим набор векторов w , такой, что выполняется следующее ограничение:

    Эти векторы создают линейный разделитель, который идеально разделяет данные с ненулевым полем . Это помогает ввести некоторое равенство в указанное выше ограничение и масштабировать w , чтобы прийти к следующему набору решений S :

    Если D = 1, то

    С другой стороны, если D> 1, then

    Обратите внимание, что если ближайшая точка находится на расстоянии более 1 / || w || от разделителя мы всегда можем отрегулировать w , чтобы уменьшить расстояние.Таким образом, величина 1 / || w || это маржа, и нам нужно минимизировать || w || чтобы максимизировать маржу. У нас есть следующая оптимизационная задача:

    при следующих ограничениях:

    Теперь, когда у нас есть математическая основа для решения проблемы, есть одно предостережение, которое нам необходимо решить: мы работали в предположении, что данные мы have линейно разделимо. Но что, если это не так? В этом случае S будет пустым, и мы останемся с недопустимым решением.Мы можем обойти это, ослабив наши ограничения до следующего:

    Конечно, мы сохраняем константу релаксации ϵ> 0, но достаточно малую, чтобы не перескочить и получить неоптимальное решение. Мы перепишем нашу задачу минимизации следующим образом:

    Параметр C представляет собой компромисс между минимизацией ошибки и максимизацией маржи. Решение этой проблемы осуществляется с помощью квадратичного программирования.

    Опорные векторы — это обучающие экземпляры, которые удовлетворяют ограничению:

    Ограничение, которое должно быть удовлетворено, чтобы обучающий экземпляр стал опорным вектором.

    Решение нашей проблемы, то есть оптимальная (с максимальным запасом) гиперплоскость, останется неизменной, если мы удалим все обучающие экземпляры, кроме опорных векторов. Вот почему они получили название «опорные векторы». Эти обучающие примеры можно рассматривать как «поддерживающие» или «удерживающие» оптимальную гиперплоскость.

    Вот почему они получили название «опорные векторы». Эти обучающие примеры можно рассматривать как «поддерживающие» или «удерживающие» оптимальную гиперплоскость.

    Итак, что SVM делает с данными, которые мы им предоставляем? Задача следующая:

    Предполагая, что каждая точка данных имеет размерность n , машина опорных векторов пытается найти размерную гиперплоскость (n-1) — с максимальным запасом.

    Интуитивно это оказывается очень эффективным для повышения производительности классификатора / регрессора, поскольку чем больше запас, тем ниже ошибка обобщения классификатора / регрессора.

    «Большие разделители маржи»: http://cs.brown.edu/people/pfelzens/engn2520/CS1420_Lecture_10.pdf

    «Машины опорных векторов»: https://en.wikipedia.org/wiki/Support-vector_machine

    Понимание естественного языка с помощью SVM | Буве Сеунен | Axons

    Наш самый эффективный способ общения, но и самый сложный.Без какой-либо визуальной информации, только с колебаниями давления воздуха, мы можем создавать истории в своем уме, чувствовать эмоции и передавать свои мысли. Споры о том, сможет ли компьютер когда-нибудь придать смысл якобы пустым словам, все еще не утихают. Как может компьютер, который просто вычисляет числа, воспринимать слово «счастье» определенным образом или визуализировать то, что приходит на ум, когда вы произносите слово «дерево»? Естественный язык дает нам возможность общаться не только с помощью слов.

    Если вы попытаетесь обработать язык, вы получите очень скудные данные.Скорее всего, в обучающих данных использовались не все возможные словосочетания. (th) -порядка.Если n = 1 , это называется марковским предположением первого порядка, если n = 2 это называется марковским предположением второго порядка и т. Д.

    Марковское предположение

    Так, например, в предложении « кот носит носки в солнечный день », слово« день »относится только к предыдущим словам n , таким как« солнечный »,« а »и т. д. Релевантность тем ниже, чем дальше вы уходите от слова . Отсюда следует вывод, что наиболее релевантными являются только самые близкие слова.Это рассуждение помогает нам определить язык и изучить взаимосвязь между определенными словами и / или предложениями. N-граммы помогают нам определить степень релевантности слов, которые идут до или после определенного слова, как объясняется далее.

    n-граммы Языковое моделирование уступило место вероятностным моделям, таким как N-граммы. Модель униграммы вычисляет вероятность появления слова после каждого слова. Модель биграмм аппроксимирует вероятность слова, следующего за предыдущим словом.В нашем примере вероятность того, что слово «солнечный» стоит после слова «день» P («день» | «солнечный») . Модель триграммы аппроксимирует вероятность появления слова после двух предыдущих слов, поэтому P («день» | «а», «солнечный») . Таким образом, N-граммы заглядывают в прошлое на N-1 слов. Фактический расчет этих вероятностей выполняется с помощью оценки максимального правдоподобия (MLE).

    оценка максимального правдоподобия Оценка максимального правдоподобия получается путем получения результатов из корпуса и нормализации их таким образом, чтобы они находились между 0 и 1.

    оценка максимального правдоподобия

    Так, например, если у вас есть слово, встречающееся 1000 раз в корпусе из миллиона слов, вероятность того, что это слово появится после случайного другого слова, составляет 1000/1000000 = 1/1000.

    Представление слов

    Вложения слов, также известные как векторные представления слов, представляют собой способ преобразования слов в размерные векторы. Есть несколько способов преобразовать слово в размерный вектор, первое, что нужно сделать, — это найти себе словарный запас. Невозможно учесть все английские слова, это привело бы к слишком большому количеству измерений и огромному количеству времени для их обучения без суперкомпьютера.Из этого словаря слова могут быть представлены векторами более высокой размерности несколькими способами.

    В качестве примера возьмем лексику {женщина, ребенок, король, королева, мужчина, королевская власть, мужественность, женственность, возраст}. Тогда каждое слово будет представлено вектором той же длины, что и словарный запас.

    горячее представление Одно горячее представление или представление 1 из N — это наиболее простой способ представить заданное слово в размерный вектор. Из данного словаря слово «королева» будет представлено вектором [0,0,0,1,0,0,0,0,0].

    горячее представление (источник)

    распределенное представление Это представление не так прямолинейно, как горячее представление. В этом представлении слово «королева» может быть представлено вектором [0.99,0.03,0.82,0.99,0.99,0.05,0.94,0.54]. Каждое слово представлено своими соседями. Много информации можно получить по тому, как она к ним относится. Эти распределения обычно создаются нейронными сетями, и точное значение каждого числа в таком представлении часто остается для нас загадкой.Таким образом, вместо того, чтобы отображать каждое отображение слов во взаимно однозначном отношении к его вектору, как в случае однократного представления, каждое слово представлено во всех элементах вектора. Второе представление дает больше информации о слове. С распределенными векторными представлениями возможны такие вещи, как Король-Мужчина + Женщина = Королева, которые являются векторными манипуляциями, поэтому становятся видимыми несколько видов отношений.

    распределенное представление (источник)

    Изучение распределенных векторов слов

    Существует два способа изучения распределенных векторов слов: непрерывная модель набора слов и непрерывная модель скип-грамм.Эти два противоположны друг другу, где модель Bag-of-Words начинается с контекстных слов (предсказывая фокусное слово из его контекста), непрерывная модель Skip-gram начинается с фокусного слова (предсказывая контекст по его фокусному слову) . Рассмотрим следующее предложение: «Модель CBOW полностью отличается от модели Skip-gram» . Рассмотрите возможность скольжения по слову предложения на слово, контекст каждого слова — это N слов, окружающих его. Таким образом, контекст для ключевого слова «другой» — это, например, слова «полностью» и «от».

    непрерывная модель мешка слов В непрерывной модели мешка слов контекстные слова образуют входной уровень, и каждое слово кодируется через быстрое представление. Это означает, что если размер словаря равен V , то будут V-мерные векторы только с одним местом, установленным на 1, а другие на 0. Зная, какой вывод вы хотите с каждым словом, матрица весов скрытых слой W можно настроить для повышения вероятности правильного слова.Обратите внимание, что скрытый слой использует линейную функцию активации и просто передает взвешенный входной вектор в выходной слой. От скрытого уровня до выходного слоя вторая весовая матрица , , W2, , используется для вычисления вероятностей для каждого слова в словаре при любом входном слове.

    Continuous Skip-gram model Модель Skip-gram используется для изучения распределенных представлений слов. В этой модели слово фокуса принимается как входной вектор, а контекстные слова извлекаются как выходные векторы.Это противоположно модели непрерывного мешка слов. Входной вектор взвешивается весовой матрицей W между входным слоем и скрытым слоем, как в модели CBOW. Скрытый уровень также использует линейную функцию активации, передающую взвешенные векторы на выходной уровень, где они взвешиваются с помощью весовой матрицы W2 перед тем, как каждое из распределений контекстных слов C будет представлено на выходном уровне.

    Изучение векторов предложений

    Есть несколько способов выучить векторы предложений. Первый просто берет среднее всех векторов слов и делит их на количество слов, чтобы получить среднее, это представляет вектор предложения. Второй подход заключается в умножении векторов слов на их значения TFIDF и последующем вычислении среднего значения. Значения TFIDF — это значения Term Frequency-Inverse Document Frequency, которые обозначают важность слова в корпусе.Третий подход — использовать уникальные идентификаторы для каждой части предложения, а затем использовать стандартные модели встраивания слов.

    усреднение Самый простой способ сделать это — сложить векторы слов и разделить их на количество векторов слов. Это приводит к среднему вектору предложения для вашего предложения, как определено следующим уравнением, где n — это общее количество векторов слов, а V — это набор векторов слов.

    усреднение представления предложения

    TFIDF Другой подход состоит в том, чтобы сначала умножить вектор слова на их показатель TFIDF (Term Frequency Inverse Document Frequency). Оценка TFIDF используется для обозначения важности слова в документе. Это снизит важность слов, которые встречаются не часто, и повысит важность слов, которые встречаются. После умножения векторов слов на их показатель TFIDF они суммируются и усредняются, как и в первом подходе, как определено в следующем уравнении, где n — общее количество векторов слов, V — набор векторов слов и TFIDF оценка TFIDF.

    Представление предложения TFIDF

    Оценка TFIDF получается путем умножения частоты термина на обратную частоту документа. Термин «частота» — это вероятность того, что слово встречается в документе, а обратная частота документа используется для обозначения того, насколько редко слово встречается в документе. Термин аннотируется t , документ d , общее количество документов в коллекции N , частота термина аннотируется tf и частота документа по df .

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *