Внедрение искусственного интеллекта оказало огромное влияние на различные сферы жизни. Например, в медицине ИИ помогает врачам диагностировать заболевания и оценивать эффективность лечения. Не стоит забывать и про рост спроса на беспилотные средства передвижения, рекомендательные алгоритмы, поисковые выдачи.
Число компаний, работающих в сфере ИИ растет примерно в 5 раз каждые 4 года. Примерно $31,7 миллиарда уже инвестировано именно в развитие машинного обучения. Но почему-то в погоне за интеграцией ИИ в свой бизнес многие забывают о том, что становится фундаментом этих технологий. Мы говорим об индустрии разметки данных.
Особенности разметки данных
Разметка данных — это обработка неструктурированных данных с целью упрощения процесса машинного обучения. В основном в разметке данных задействуют живых людей, которые помогают выявлять логические закономерности между данными.
Например, выделяют нужные объекты на фотографиях и видео или слова в текстах. Чем точнее выполнена разметка данных — тем проще будет проходить обучение ИИ и тем лучше он будет работать.
Высокий спрос на качественную разметку привел к созданию целой индустрии. Стали появляться компании, сервис и инструменты, специалующиеся на аннотации данных.
Например, компания LabelMe профессионально занимается разметкой данных с 2019 года и за это время успела стать одним из лидеров рынка в России. Одной из особенностей компании является большой штат опытных и высококвалифицированных специалистов — разметчиков. Именно их работа ложится в основу любой нейросети.
Чтобы добиться наилучшего результат — каждый разметчик проходит обучение и осваивает необходимые программы и инструменты. На первый взгляд кажется, что в разметке данных нет ничего сложно, но это не так. Важно знать множество нюансов.
Например, семантическая сегментация требует точного выделения контуров объектов по определенным классам. Если объект будет неправильно, то в будущем весь алгоритм может работать некорректно. Если неправильно разметить человека для ИИ, который будет работать в беспилотном автомобиле, он может не распознать его и произойдет ДТП.
Именно поэтому опыт и навыки разметчиков — становятся определяющими фактором при выборе подрядчиков по разметке данных. Вот, что об этом говорит генеральный директора и основатель LabelMe Георгий Каспарьянц:
Качество данных — это верхняя оценка качества технологии. Получается еще на этапе нахождения датасета мы можем испортить всю технологию.
На что обратить внимание при заказе разметки данных
Как мы уже сказали выше — важнейших критерий качество данных. Но как его определить? Самый оптимальный вариант — заказать разметку небольшого набора данных. Так вы сможете убедиться, что подрядчик ответственно относится к своим обязанностям. В случае LabelMe вы можете запросить бесплатный тестовый датасет по своему ТЗ. Более того, специалисты компании проведут консультацию и помогут доработать техническое задание, чтобы разметка точно соответствовала вашим целям.
Также во время тестового будет произведены замеры на сложность и время исполнения, чтобы определить справедливое ценообразование. Ведь никто не хочет переплачивать просто так?
Также следует обратить внимание на то, предлагает ли подрядчик заключить NDA-договор. Важно сохранить конфиденциальность разработки технологии и не допустить утечки данных.
Не стоит забывать и про проверку разметки. Нужно понимать, что человеческий фактор присутствует всегда. Закладывайте средства на перепроверку качества разметки и учитывайте, как это отразится на конечной стоимости.
Гарантия на выполненные работы. Некоторые компании могут брать дополнительную оплату за исправление ошибок. Лучше обговаривайте этот нюанс в самом начале, чтобы избежать дополнительной наценки.
Разметка данных — это очень ресурсоемкий, затратный процесс и такую работу лучше доверить профессионалам, чтобы избежать издержек на переразметку.