Будущее искусственного интеллекта
ИИ начал «чувствовать» нехватку данных
Согласно исследованию, проведенному MIT под руководством Data Provenance Initiative, многие ключевые веб-источники теперь ограничивают использование своих данных, что сказывается на обучении мощных систем.
Исследователи проанализировали 14 000 доменов, используемых в трех основных наборах данных для обучения ИИ и обнаружили значительный «зарождающийся кризис согласия».
За последний год около 5% всех данных и 25% данных самого высокого качества были ограничены протоколом «исключения роботов» (Robots Exclusion Protocol) — инструментом, который владельцы сайтов используют для блокировки автоматических сборщиков данных.
Исследование также показало, что до 45% данных в наборе данных C4 теперь ограничены условиями обслуживания веб-сайтов.Ferra
QGS комментарий.
Не удивительно, эта проблема была изначально заложена в момент рождения технологии "Глубокого Обучения" AI( т.н."искусственного интеллекта)", которому для обучения необходимы огромные достоверные, структурированные и строго отформатированные под конкретное применение данные из разных областей человеческой деятельности.
Обычно такие базы данных являются собственностью фирм, научных учреждений, предприятий, медицинских учреждений и т.д. Создание таких баз данных чрезвычайно трудоемкий и дорогостоящий процесс, требующий усилий выскоквалифицированных специалистов из смежных областей знаний. К тому-же, успех обучения ИИ прямо зависит от объема баз данных, на которых он обучается!
Например медицинские истории болезней с подробными, строго по определенным шаблонам оформленными данными хранящимися в специальных структурированных и индексированных базах данных для конкретного раздела медицинской науки. В историю болезни включаются анамнез, заключения врачей, результаты анализов, находки и сделанные специалистом выводы на которых базируется поставленный диагноз... Естественно, в большинстве стран мира существуют законы охраняющие конфиденциальные данные о больном, истории его болезни. Эти данные составляют врачебную тайну, поэтому медучреждения, собирающие эти данные на своих пациентов, обязуются их не разглашать. Как правило, медучреждения запрещают кому - либо доступ этим конфиденциальным данным. Поэтому никакие IT компании не вправе требовать от медучреждения эту информацию. Тем более, жестко пресекается доступ к этой информации полчищам роботов шастающим по сайтам в поисках нужной им информации. Это и коммерческие боты, собирающие информацию для адресной рассылки рекламы, это и боты - промышленные шпионы охотящиеся за НОУ-ХАУ скрываемой производителями. И, конечно боты систем глубокого обучения("Deep learning") AI, которые должны обучаться на огромных строго выверенных реальных базах данных, а не на куцых базочках собираемых добровольцами для их использования в математических моделях разрабатываемых студентами ))