Вы, вероятно, сталкивались с видео в стиле презентации, которые сочетают слайды, рисунки, таблицы и устные объяснения. Эти видео стали широко используемым средством передачи информации, особенно после пандемии COVID-19, когда были введены меры по домашнему карантину.
Хотя видео являются привлекательным способом доступа к контенту, существенным недостатком является то, что они отнимают много времени, поскольку для поиска конкретной информации необходимо просмотреть все видео. Они также занимают значительное место в хранилище из-за большого размера файла.
Исследователи под руководством профессора Хёк-Юн Квона из Сеульского национального университета науки и технологий в Южной Корее решили решить эти проблемы с помощью PV2DOC, программного инструмента, который преобразует видеопрезентации в обобщенные документы. В отличие от других видеосумматоров, которые требуют транскрипт вместе с видео и становятся неэффективными, когда доступно только видео, PV2DOC преодолевает это ограничение, объединяя как визуальные, так и аудиоданные и преобразуя видео в документы.
Их исследование было размещено в сети 11 октября 2024 года и опубликовано в журнале SoftwareX 1 декабря 2024 года.
«Для пользователей, которым необходимо просматривать и изучать многочисленные видеоматериалы, например, лекции или презентации на конференциях, PV2DOC генерирует сводные отчеты, которые можно прочитать в течение двух минут. Кроме того, PV2DOC управляет рисунками и таблицами по отдельности, связывая их с сводным контентом, чтобы пользователи могли ссылаться на них при необходимости», — объясняет профессор Квон.
Для обработки изображений PV2DOC извлекает кадры из видео с интервалом в одну секунду. Он использует метод, называемый индексом структурного сходства, который сравнивает каждый кадр с предыдущим для определения уникальных кадров. Затем объекты в каждом кадре, такие как фигуры, таблицы, графики и уравнения, обнаруживаются моделями обнаружения объектов, Mask R-CNN и YOLOv5.
В ходе этого процесса некоторые изображения могут стать фрагментированными из-за пробелов или подрисунков. Чтобы решить эту проблему, PV2DOC использует технику слияния фигур, которая определяет перекрывающиеся области и объединяет их в одну фигуру. Затем система применяет оптическое распознавание символов (OCR) с помощью движка Google Tesseract для извлечения текста из изображений. Извлеченный текст затем организуется в структурированный формат, такой как заголовки и абзацы.
Одновременно PV2DOC извлекает аудио из видео и использует модель Whisper, инструмент преобразования речи в текст (STT) с открытым исходным кодом, чтобы преобразовать его в письменный текст. Затем транскрибированный текст суммируется с помощью алгоритма TextRank, создавая сводку основных моментов.
Извлеченные изображения и текст объединяются в документ Markdown, который можно преобразовать в файл PDF. Окончательный документ представляет содержимое видео — текст, рисунки и формулы — в ясном и организованном виде, следуя структуре исходного видео.
Преобразуя неорганизованные видеоданные в структурированные документы с возможностью поиска, PV2DOC повышает доступность видео и сокращает объём памяти, необходимый для обмена и хранения видео.
«Это программное обеспечение упрощает хранение данных и облегчает анализ данных для презентационных видео путём преобразования неструктурированных данных в структурированный формат, тем самым предлагая значительный потенциал с точки зрения доступности информации и управления данными. Оно обеспечивает основу для более эффективного использования презентационных видео», — говорит профессор Квон.
Исследователи планируют и дальше оптимизировать видеоконтент в доступные форматы. Их следующая цель — обучить большую языковую модель (LLM), похожую на ChatGPT, чтобы предложить услугу вопросов и ответов, где пользователи могут задавать вопросы на основе содержания видео, а модель будет генерировать точные, контекстно-релевантные ответы.
Её конек схемы в бизнесе, банковской и финансовой сфере.