微博

QQ

基于视频比对和网络爬虫技术的版权维权研究与探索

2021-03-19 吴梦霞 重庆广播电视集团(总台) 依马狮视听工场


【摘要】 随着广电媒资(MAM)影像资料内部和外部使用量的急剧增长,随之而来的版权被侵权问题日益凸显——互联网(新媒体)公司未经版权授权,擅自在各种平台使用,给版权管理和开发工作带来很大的影响。原有传统的人工维权方式在互联网信息海量的状况下,显得效率极其低下,本文探索以人工智能爬虫、视频比对和区块链存证三个核心技术为基础打造的版权维权系统。

【关键词】媒资(MAM) 确权 数据采集 区块链(Blockchain) 网络爬虫(General Purpose Web Crawler)  视频比对(visual comparision)


一.项目背景

全国各广电在媒资日常管理和对外开发中,随着媒资内部和外部使用量的急剧增长,随之而来的版权被侵权问题日益凸显———外部互联网(新媒体)公司未经授权,擅自在各种平台使用版权影像资料的情况大量出现。给媒资管理和开发工作带来很大的影响:一是媒资资料被随意改编、编排而歪曲媒资本身内容,造成一定程度上的不良传播;二是不受版权限制的媒资资料有被随意传播、泄露的风险;三是造成媒资资料价值的严重流失,给正规的媒资版权开发造成很大的冲击。

原有传统的维权方式是等待被动告知侵权情况后,然后再进行人工网络筛查、比对、确权、取证等操作,在互联网信息海量的状况下,显得效率极其低下。比如1-2媒资人员专职负责搜集和取证,每天仅能完成20~50个URL的检索,比对和网络取证工作,这样的效率完全不能满足维权需要,搜集取证的速度还比不上侵权的增长速度,对媒资版权维权监控工作造成了很大困难。

基于视频比对和网络爬虫技术的版权维权研究与探索

图1 区块链技术

针对以上的问题,本文探索自主研发媒资影像资料版权维权系统,以人工智能爬虫、视频比对和区块链存证三个核心技术为基础打造的版权维权系统。系统主要通过人工智能爬虫对互联网网站进行递归式查找和搜索,并通过和广电内部媒资库进行视频比对来进行侵权界定,确认侵权后采用区块链技术进行证据固化。这样全自动化、24小时不间断的人工智能检索和确权,大幅度提升了日常维权的能力和手段,为实现媒资资料规范化管理和维权,以及后期媒资媒体融合开发、拓展奠定了技术基础。

二.关键技术点

区块链存证

区块链具有去中心化、安全性高、永久存证、无限可溯源和可编程扩展性强等特点,特别适合于知识产权领域应用。通过利用区块链技术实现证据信息的及时固化与存证,并可在有需要的情况下,向受理公证处申请出具“存证函”,所有的侵权情况报表记录在不可篡改的区块链内,作为证据信息进行存证。

存证的内容不仅包含了比对结果,同时包括该视频在监控目标中的播放截图、展示名称、以及其他页面信息(根据监控目标的内容差异性,有所不同),形成完整的取证证据链。

人工智能爬虫

系统使用“聚焦爬虫”技术,并且加入了部分人工智能算法,进一步提升数据采集的准确性。这主要体现在爬虫对用户行为的模拟,以获取更接近人工操作的行为模式。

一方面,根据侵权监测系统的待比对作品类型不同,对于爬虫的采集规则进行了精确优化,使爬虫能够准确识别主标题、副标题、摘要、作者、正文等信息,模拟用户在查阅内容时对不同关键信息的关注情况。另一方面,对被采集的内容进行识别。将根据特定字、词组等关键信息,完成数据采集,模拟用户对于特定内容的关注情况。

监控目标采集模块,即是用于在目标App、Web站点中获取视频数据的采集工具。将根据实际的监控需求和源视频的特点采用不同的策略完成采集工作。

视频比对

视频比对技术是通过持续的数据采集,再根据源视频,主要方式是截取关键帧,转换成特征值。然后爬虫爬取目标视频,对视频进行截图,并根据视频的尺寸和位置进行裁剪。然后对截图进行计算特征值。最后通过对比算法把源和目标的比对,转换成特征值进行比对。

基于视频比对和网络爬虫技术的版权维权研究与探索

图2 视频比对示例

然后,在比对模块内将对二者的“自编码”相似性进行运算与判别,获取不同帧信息相对于源视频的相似度,最终经过加权运算,获得视频之间的相似度数值,作为比对结果。

三.管理及应用

经过前期大量研发和测试,现系统已初步具备自动爬虫检索、比对、区块链存证等基本功能。系统已于今年初投入到实际工作流程中进行应用,并取得相当不错的效果,主要实现了以下管理目标和效益:

(1)能够自动从媒资库中划定的制定范围库中,自动抓取媒资内容,包含文本、图片以及音视频信息;
(2)目前已实现在目标URL中自动爬虫检索比对媒资内容;
(3)文字、图片、音频、视频等内容的获取、比对技术已实现,并具备较为可靠的准确性;
(4)依照版权管理的要求,对比相似度比对结果以百分比形式体现;
(5)系统控制台内可获取站点名称、发布时间、发布人员、链接等关键信息,并可导出Excel表格;
(6)能够对数据进行统计分析,形成可视化图标;
(7)平台底层配备区块链系统,能够对监测结果进行存证。

图3为主要用于向用户展示媒资资料被侵权情况的整体监控统计。

基于视频比对和网络爬虫技术的版权维权研究与探索

图3 监控首页

对于某个平台的监控结果,以列表进行展示,如图4所示,将提供被侵权媒资资料的名称、平台、标题及对应的网络链接。

基于视频比对和网络爬虫技术的版权维权研究与探索

图4  任务报表页面

在应用详情页中,将展示所发现的侵权现象的具体信息,如图5所示。

基于视频比对和网络爬虫技术的版权维权研究与探索

图5 详情页

通过一段时间的运行测试,系统初步达到和实现前期规划设计的功能,其自动内容采集技术以较高的效率完成了待比对内容的获取工作,配合智能比对技术,完成了基于内容的相似度分析,同期对比原来人工方式,现在以两台服务器集群能力,全网爬虫、对比、存证能力为原来的8-10倍,显著提高了对侵权情况的发现能力、发现效率及时效性,为应对互联网时代的侵权挑战提供了可靠的技术基础。

“自动化+全时段”的工作方式在很大程度上能够代替媒资管理人员现行“高投入、低成效”的工作方式,媒资管理人员可以快速对侵权信息结果进行审核,迅速确认有效的侵权信息,从而大幅提升了媒资维权监控的效率,使得媒资管理人员能从繁琐且重复的侵权监控工作中解脱出来,将精力更多地投入到媒资创新应用和融媒体开发等工作上。B&P


【参考文献】

《基于云平台的视频比对系统研究》章杰 周勤 胡荣标 陈青

《基于区块链的应用系统开发方法研究》 蔡维德 郁莲 王荣 刘娜 邓恩艳

《分布式网络爬虫系统的设计与实现》 吕阳

《基于URL规则的聚焦爬虫及其应用》 叶勤勇

区块链 网络爬虫 视频比对

视听科技视频号 广告
发表评论