语义网络监控器

网络监控器时间:2021-03-26 阅读:()

情报资料工作2018年第6期面向数字人文的移动视觉搜索模型研究*曾子明秦思琪(武汉大学信息管理学院;武汉大学信息资源研究中心湖北430072)摘要文章结合数字人文视觉资源研究现状和移动视觉搜索(MobileVisualSearch,MVS)技术研究前沿,分析了面向数字人文的MVS模型研究思路,在全面分析用户需求的基础上,构建了面向数字人文的MVS体系架构.
该模型立足人文领域知识背景,充分融合数字技术,全面考察用户需求,旨在为用户提供高效的面向数字人文的MVS服务,拓宽数字人文视觉资源的研究思路.
关键词移动视觉搜索数字人文模型研究AnAnalysisofDigitalHumanities-orientedMobileVisualSearchModelZengZiming,QinSiqi(SchoolofInformationManagement,WuhanUniversity;CenterforInformationResourcesResearch,WuhanUniversity,Hubei,430072)AbstractThispaperfirstlyanalyzesthecurrentresearchstatusofvisualresourcesindigitalhumanitiesandfrontiertechnologiesinMVS(MobileVisualSearch),discussesideasandmethodsofthispaper,thenexplorestheusers'demandsintheprocessofMVSfordigitalhumanitiesandconstructsitsframework.
TheMVSmodelfordigitalhumanitiesisbasedondomainknowledgeofhumanity,fullyintegratedwithdigitaltechnologyandcomprehensiveusers'needs.
TheaimofthispaperistoprovideuserswithefficientMVSservicesorientedtodigitalhumanitiesandbroadentheviewoftheresearchesaboutdigitalvisualresources.
KeywordsMobileVisualSearch(MVS),digitalhumanities,modelresearch随着信息网络技术、计算机技术的快速发展,以现代计算机和网络技术为核心的数字技术深入应用于传统的人文研究与教学,逐渐形成了一种新型的跨学科研究领域——"数字人文"(DigitalHumanities).
数字人文的核心是围绕人文社会科学领域(如历史、哲学、语言学、文学、艺术、考古学等)的研究对象,实现与之相关的各类数字资源的深度整合与保存,向用户提供专题信息服务并为相关应用提供支持[1].
数字人文的研究意义在于:利用数字技术和方法解决人文学科领域问题,对创新人文学科领域研究方法、转变研究视角、丰富研究成果和提升研究效率起着重要作用[2].
目前,数字人文领域研究和实践仍然处于初级阶段,围绕数字人文的相关概念、研究思路和研究方法的探讨正面临着新的机遇和挑战:一方面,图片、视频、3D模型等信息载体形式的海量视觉数据逐渐成为人文领域大数据资源的重要组成;另一方面,传统的基于关键词的信息检索方式大多仅适用于文本资源,无法满足当前人文领域海量视觉资源的信息检索需求,围绕人文领域视觉数据的信息检索模式研究成为数字人文领域实践的重要内容.
移动视觉搜索(MobileVisualSearch,MVS)是通过移动智能终端采集的图像、视频或地图等视觉数据作为检索对象,获取关联信息并将检索结果返回给移动终端的一种新型信息检索模式[3],对人文领域视觉数*本文系国家自然科学基金项目"云环境下智慧图书馆移动视觉搜索模型与实现研究"(编号:71673203)、教育部人文社会科学重点研究基地重大项目"大数据资源的智能化管理与跨部门交互研究——面向公共安全领域"(编号:16JJD870003)的研究成果之一.
专题研究21情报资料工作2018年第6期据的信息检索模式研究起着重要作用.
本文在深入考察数字人文领域实践、充分融合前沿数字技术、全面分析用户需求的基础上,构建了面向数字人文的移动视觉搜索模型,旨在为用户提供高效的面向数字人文的MVS服务、拓宽数字人文研究思路、为数字人文领域实践提供有益的参考.
1数字人文与MVS1.
1数字人文视觉资源研究现状近年来,大数据、云计算、物联网、三维数字建模、虚拟现实、增强现实和可视化技术得到迅速发展,各种数字技术逐渐渗透到人文领域研究中,改变了传统的人文领域研究范式和研究视角,掀起了一股数字人文研究热潮.
目前,全球范围内有超过183个以"数字人文"为名称的实验室、研究中心、项目或团队,包括斯坦福大学人文中心、麻省理工学院HyperStudio、国际数字人文组织联盟、武汉大学数字人文研究中心等.
数字人文领域研究在国内外已有较为丰富的实践成果,从数字人文领域数据库建设,到各种软件、平台和工具,尽管如此,针对数字人文领域视觉资源的相关研究却相对较少.
从目前已有的研究成果来看,针对视觉资源的数字人文研究内容可以分为四个层次:一是人文视觉数据的转化,利用数字化信息技术将实体人文资料转化为数字化的视觉资料.
宋利良等[4]采用全景摄影技术记录、保存和修复敦煌石窟中的文物、环境和考古工作现场;王涌天等[5]采用户外增强现实系统构建圆明园的三维视觉模型,用于圆明园的数字化重建.
二是对人文视觉数据的存储和管理,包括各种人文视觉数据库和管理机制的建立.
李雪芬[6]以中国美术学院为例,提出艺术图像数据库的实施方法以及基于内容的图像数据库本体的构建;彭建波[7]提出在"皮影数字博物馆"项目的基础上构建皮影图片、影卷、表演视频等视觉数据库,探讨了面向数字人文的特色资源库建设的原则、内容和具体形式.
三是对人文视觉数据的分析和处理.
夏立新等[8]探讨了非物质文化遗产图片资源社会化标签之间的关联关系,构建了关联标签网络和共标签网络,对其进行社会网络分析,并采用可视化方法展示图片主题;王晓光等[9]针对敦煌壁画数字图像这一特定文化遗产领域,提出了语义描述框架和领域主题词表相结合的数字图像内容语义描述方法.
四是基于人文视觉资源的数字化服务研究.
张兴旺等[10]分析了非物质文化遗产视觉资源的获取、组织、理解和描述方法,并对数字人文领域的视觉资源相应的视觉搜索和交互模式进行了探讨.
1.
2MVS技术研究现状MVS是移动环境下以视觉数据作为查询对象,获取视觉图像关联信息的一种检索方式.
MVS针对海量视觉资源查找关联信息,是信息检索领域的前沿课题,包含MVS核心技术、MVS流程标准化、MVS模型和系统设计、搜索技术及搜索结果评价等多个研究视角.
在技术层面,MVS相关研究主要围绕视觉特征提取和视觉搜索流程两个方面.
视觉特征提取是MVS的一项基本任务,紧凑的视觉特征对海量视觉数据的存储、处理和索引起着关键作用.
传统的基于内容的图像检索通常采用图像局部或全局特征,通过距离度量计算完成特征匹配,常用的图像特征描述如SIFT、SURF等;其局限在于提取的是颜色、纹理等图像底层特征,无法处理高层语义信息,存在"语义鸿沟"问题.
近年来,相关研究主要集中于设计包含语义信息的图像特征表示方法:文献[11]通过机器学习方法将训练集中的图像底层特征和语义关键词建立联系,得到一定的知识或规则作为图像高层语义描述;文献[12]使用深度卷积神经网络学习图像语义特征,同时验证了使用卷积神经网络提取图像特征并用于图像检索任务的可行性.
视觉搜索流程研究侧重于通过结合实际应用场景和特定搜索需求,来提升和优化MVS的搜索性能:刘木林等[13]在数字图书馆领域背景下通过关联数据对视觉资源进行语义化描述,为读者提供语义信息关联的MVS服务;陈宜明等[14]提取图像中层语义信息,通过数据集划分策略将图像特征投影到潜在主题空间,从而降低图像背景带来的噪声干扰、有效确定搜索意图和语义主题;JiR等[15]将移动设备中的地理位置情境信息与检索图像视觉特征进行融合,形成紧凑的视觉特征描述,从而提高检索效率和检索性能,为移动用户提供更好地基于地理位置的MVS服务.
一方面,海量的数字人文视觉资源缺乏高效的信息检索方式,大量数字人文视觉资源被闲置,无法得到充分利用;另一方面,在缺乏领域知识背景的情况下,MVS通常难以有效突破视觉底层特征与高层语义认知的关联,无法为用户提供基于图像语义的、全面的信息专题研究22情报资料工作2018年第6期服务.
因此,本文认为,面向数字人文的MVS模型研究需要:(1)充分利用MVS前沿技术,高效完成图像特征提取、语义描述、语义标注和检索等视觉资源处理任务,提高数字人文视觉资源的信息检索效率和准确度;(2)融合人文领域知识背景,为视觉资源提供领域性的语义描述内容,缓解图像处理过程中的"语义鸿沟"问题;(3)全面考察用户需求,以用户需求为导向构建面向数字人文的MVS体系架构,为用户提供泛在、全面、智能的数字人文MVS服务.
2数字人文MVS需求分析面向数字人文的MVS模型研究的主要目标是通过准确识别用户视觉检索意图,为用户提供语义关联的人文信息,提升人文视觉资源信息检索服务的用户体验和服务质量,使得海量的数字人文视觉资源得到有效利用.
其中,服务、用户和资源是数字人文MVS服务的三个主要因素,据此,从三个角度分析数字人文MVS服务的用户需求:(1)服务过程的高效性、智能化.
用户的搜索目标通常是图像中包含的一个或多个实体对象,目标实体对象所在的图像区域称为兴趣区域,服务过程的高效性是指依据用户上传的目标图像,系统能够自动定位图像中的搜索目标所在的兴趣区域,减少非兴趣区域带来的干扰,有效提高检索效率和准确性;服务过程的智能化是指系统不仅能够自动提取目标对象所在的兴趣区域,而且能够从高层语义上理解和识别目标对象,同时形成一定的自然语言描述,系统能够在语义认知的基础上完成关联信息的检索任务.
(2)用户体验的泛在性、个性化.
用户体验的泛在性是指用户在无线泛在的环境下,在任何时间、任何地点都能通过移动智能终端获取面向数字人文的MVS服务,系统模型大小能够适用于各种移动智能终端并且具有一定兼容性;用户体验的个性化是指服务过程中通过获取用户情境数据、分析用户知识偏好,能够更准确地定位用户检索需求,通过个性化、可选择、互动式的服务体验提高用户满意度.
(3)检索结果的全面性、融合性.
检索结果的全面性是指系统返回的检索结果不应该局限于单一的主题或资源形式,需要综合考虑主题内容的全面性、信息形式的多样性;融合性是指搜索结果可能包含了文字、图片、网页、视频等多模态的信息内容,这些信息呈现形式不一,需要通过多模态的融合才能更好地呈现给用户.
3面向数字人文的MVS体系架构在充分利用MVS前沿技术、融合人文领域知识背景、全面考察数字人文MVS用户需求的基础上,本文提出面向数字人文的MVS体系架构,主要处理流程如图1所示:(1)移动用户提出面向数字人文的MVS服务请专题研究图1面向数字人文的MVS体系架构6.
多模态融合3.
模型压缩搜索结果移动用户1.
图像特征提取与兴趣区域定位领域语义标注列表2.
语义标注生成器语义标注概率5.
基于视觉内容的信息检索资源库越王勾践剑0.
92春秋文物0.
71湖北省博物馆0.
69青铜器0.
64……4.
辅助信息融合·用户情境信息·领域知识图谱图像特征23情报资料工作2018年第6期求并提交搜索图片,首先提取图片特征并且对图像的兴趣区域进行定位.
(2)将提取的图像兴趣区域特征放入语义标注生成器中,生成搜索图像的语义标签及对应概率值.
其中,图像特征提取过程和语义标注生成器采用深度神经网络模型结构,运用深度学习方法进行训练和学习.
(3)采用一定的模型压缩方法,在不影响模型功能的情况下缩减模型大小,使模型适用于移动智能设备.
(4)获取用户情境信息、构建人文领域知识图谱,作为辅助信息为体系架构中的语义标注列表生成逻辑处理过程提供依据.
(5)结合图像整体特征、图像语义标注列表以及辅助信息检索人文视觉资源库,获取图像视觉内容关联的信息资源.
(6)对检索结果进行多模态融合处理,并最终呈现给用户.
下面对上述六个主要步骤进行详细阐述.
3.
1图像特征提取与兴趣区域定位图像特征提取与兴趣区域定位为整个面向数字人文的MVS过程提供数据支持,是保证检索质量和提高检索效率的基础.
一方面,数字人文图像特征具有层次性,底层特征分辨率高、保留大量图像细节信息,而高层特征涵盖丰富语义概念,有利于图像语义的抽象和概括,图像特征提取过程中要保证特征的全面性、多层次性,为后续的语义分析和提炼提供有效支持;另一方面,用户检索过程具有一定针对性,精确地定位图像兴趣区域是识别用户检索意图、提高检索效率的有效方法.
首先,利用卷积神经网络(ConvolutionalNeuralNetwork,CNN)提取和融合图像底层、中层和高层特征作为图像特征.
CNN是一种多层非全连接的神经网络,每层都由多个独立神经元组成,CNN通常包含多个卷积层和下采样层,在卷积层提取图像特征,在下采样层进行模糊和泛化,经过多层交替的特征提取和下采样,图像特征得到逐层抽象,使得CNN具备了逐层学习图像特征的能力[12];在具体实现过程中,将海量数字人文图像资源作为CNN模型的训练数据集,并通过经典的误差反向传播(BackPropagation,BP)算法来调整模型中的参数;CNN模型参数进行训练并基本确定之后,将搜索图像输入模型,利用CNN的多个层次的卷积层输出整合图像特征.
图像卷积是图像特征提取的一种常用操作,是指输入图像小区域像素通过加权操作得到对应输出,这个小区域称为局部感受域(receptivefield),区域的权值称为卷积核,输入图像通过卷积运算后再加上偏置项,通过激活函数得到其卷积层输出;利用CNN提取图像I的底层特征XL,形式化表示如式(1):其中,L为模型层数、M为输入层的感受域、K为卷积核、b为偏置项、f为激活函数;同理可提取图像中层特征XM和高层特征XH,整合CNN提取的图像底层、中层和高层卷积层输出,得到图像的整体特征CI,如式(2).
XL=f(∑iMXL-1i*XLi+bLi(1)CI=(XL,XM,XH)(2)在获得图像特征的基础上,采用候选区域生成网络(RegionProposalNetwork,RPN)[16],对图像的兴趣区域位置进行定位.
RPN的基本思想是:以特征图上的每一个特征点为中心,使用一种不同面积和长宽比的矩形框(称为滑动窗口)获取候选的兴趣区域,例如文献[17]预设了9种矩形框,对应三种面积(1282,2562,5122像素)和三种长宽比(1:1,1:2,2:1);将所有采集到的候选区域特征维度进行统一,并输入到分类层,分类层对候选区域中是否包含实体目标进行打分,得分高的为正样本,得分低的为负样本;正样本将被输入到回归校正层,对实体目标所在的区域位置进行进一步精确,最终得到准确定位的图像兴趣区域位置.
3.
2语义标注生成器语义标注的自动生成是一种高效实现数字人文视觉资源的语义提取、组织和索引的方法,其主要任务是准确识别图像语义内容,采用一定的语言模型,形成符合语言规范的自然语言描述.
语义标注自动生成方法可分为基于统计分类的方法和基于概率的方法[17]:基于统计分类的方法将图像的每一个语义概念当作一个类别,语义标注生成任务转化为图像的多类别有监督的分类任务;基于概率的方法将图像特征和文本视为对等的数据,利用已标注图像,在无监督的基础上尝试通过统计推理的方法推断图像特征与语义概念(或语义关键词)之间的相关性或者联合概率分布,并将这种关联性应用于未标注图像语义概念的预测.
面向数字人文的MVS语义标注生成过程本质上是完成图像特征到人文领域语义描述的转换,采用基于概率的模型方法,构建数字人文图像语义概念的概率模型,如式(3):即给定输入图片I,学习模型θ*参数,使得生成准确语句描述S的概率最大化;由于自然描述语句S是不定长的,假设S长度为N,Si为S中的单词,使用链式法则表示对数概率logp(S|I;θ),如式(4).
专题研究24情报资料工作2018年第6期θ*=argmax∑(I,S)logp(S|I;θ)(3)logp(S|I;θ)=∑t=0Nlogp(St|I,S0,…,St-1;θ)(4)其中,自然描述语句生成及其生成概率的计算使用长短期记忆模型(Long-ShortTermMemory,LSTM)[18]完成,LSTM是一种递归神经网络,擅长存储语句表达中的时间序列特征,使用数字人文图像特征和对应的图像标注训练LSTM模型参数,经海量数字人文视觉资源训练的LSTM模型能够预测未标注图像的人文领域语义概念及其预测概率:将CNN、RPN处理得到的兴趣区域特征作为图像特征输入,如式(5);假设t时刻生成的语句描述的词向量表示为St,通过词嵌入模型[18]W处理得到语句时序特征xt,如式(6);将数字人文领域图像和对应的语句描述经处理后作为训练数据集(I,S)输入LSTM模型进行训练和学习,结合误差反向传播和梯度下降方法学习和优化模型参数θ*;在已知兴趣区域特征x0、0至t-1时刻生成的语句描述S0,…,St-1和模型参数θ*的情况下,通过LSTM可以计算t时刻生成语句St的后验概率,如式(7).
最后,根据生成的语义标注概率大小进行排序,得到I图像的人文领域语义标注列表,如图1.
x0=RPN(CNN(I))(5)xt=W(St),t∈{1,…,N}(6)p(St|x0,S0,…,St-1;θ*)=LSTM(xt-1),t∈{1,…,N}(7)3.
3模型压缩模型压缩是保障服务的移动性和泛在化的重要步骤.
图像特征提取使用的CNN和语义描述生成器中的LSTM模型都属于深度神经网络模型,研究表明[19]:许多基于深度神经网络的图像分类模型大小都在500M以上,一些自然语言处理模型甚至超过1G,无法适用于移动设备和环境.
常用的CNN模型压缩方法有剪枝、权值共享、量化和二值化.
剪枝即直接去掉模型中权重较小的参数值,基于保留的参数对模型重新训练;权值共享是对模型参数进行聚类分析,属于同一类的参数共享相同权值;量化是对参数的数值类型重新规范和标准化,通过减小参数精度缩减权值占用空间;二值化是量化的一种极致做法,所有模型参数采用二值化数值表示,例如+1和-1.
研究表明[20]:使用二值化方法对CNN进行模型压缩,能够显著减少所需的存储空间和计算成本,并且模型的性能损失较小,能够在移动设备上有效运行.
缩减LSTM模型大小主要通过设计更好地模型压缩算法、改善词向量表示以及优化硬件框架等:例如文献[21]采用二维向量代替自然语言处理模型中的一维词向量表达,使用二维表格表达整个词表,有效缩减了模型大小;文献[22]提出一种新的深度压缩算法,采用剪枝方法对模型参数稀疏化,并保证各节点负载均衡,在硬件方面使用专用编译器和处理器架构,通过算法和硬件的协同优化,使得在几乎没有预测精度损失的情况下将LSTM模型的大小压缩到原来的1/20.
3.
4辅助信息融合辅助信息的融合有助于更准确地定位用户搜索意图、满足用户个性化搜索需求、增强模型对人文领域语义概念的理解,主要包括了用户情境信息和领域知识图谱两个部分.
用户情境信息范围包含多个方面:例如个人情境(基本资料、兴趣偏好、职业等)、自然情境(地理位置、天气等)、设备情境(终端设备、网络状况等)、社交情境(兴趣部落、交互行为等).
用户情境信息感知过程包括情境信息采集、预处理、情境建模、情境分析等,模型首先通过访问数据库采集用户静态情境数据,通过全球定位系统(GPS)、网络监控器等设备监测、采集移动环境下的用户动态情境数据;经过过滤、去噪、不一致检测等预处理方法形成具有明确意义的情境信息;基于这些情境信息建立形式化模型,情境建模使计算机对情境数据产生理解能力,便于用户情境信息的快速存储、更新和处理;在情境模型的基础上结合情境推理、规则匹配等操作,能够挖掘和分析用户搜索意图和知识偏好.
此外,由于用户情境信息包含大量隐私数据,涉及用户隐私安全,需要制定安全的情境信息存储、访问控制策略以及数据脱敏处理方法等.
面向数字人文的MVS模型中的CNN和LSTM采用深度学习方法进行有监督训练,其本质就是从标注数据中自动提取特征并学习特征与人文语义标注之间的对应关系,因此需要大量的标注数据,即具有人文领域语义描述的图片,然而领域标注数据通常难以获取或成本较高.
知识图谱是结构化的语义知识库,以符号形式描述了知识概念及各概念之间的语义关系,构建领域知识图谱一方面能够提升模型对无标签数据的学习能力,另一方面又能对标签数据进行语义扩展和延伸,进一步增强模型的领域语义理解能力.
领域知识图谱构建过程主要包括信息提取、知识融合和知识加专题研究25情报资料工作2018年第6期工[23].
首先从领域数据库中提取概念实体、属性和关系,形成本体化的知识表示;融合知识表示,消除冗余和歧义;对知识进行分析、拓展、加工,得到新知识.
最终形成的领域知识图谱架构可分为知识层和模式层两个层次[23]:知识层主要存储以"实体-关系-实体"为单元的图数据库,形成实体的语义关系图谱;模式层主要存储经过提炼的知识,通过一定的规则、公理和约束条件来规范和管理数据层中的实体、实体属性和实体间关系.
3.
5基于视觉内容的信息检索基于视觉内容的信息检索过程是数字人文MVS体系架构的核心,其实现过程可分为三个阶段:首先依据搜索图像特征匹配人文领域视觉资源库;再利用搜索图像的语义标注列表对匹配的视觉资源做进一步的筛选;最后利用筛选出来的视觉资源获取关联的其他形式资源,作为搜索结果返回给用户.
依据搜索图像特征匹配人文领域视觉资源库,本质上是基于图像特征计算视觉资源之间的相似度.
本文利用式(2)中提取的具有层次性的图像特征CI作为图像的特征向量,采用欧几里得距离函数,综合匹配底层、中层和高层图像特征相似的视觉资源.
图片I与匹配资源R的图像特征相似度的形式化表示如式(8):其中,L,M,H分别表示图像特征底层、中层和高层的对应处理方法,w为权重矩阵,X为图像特征,D为欧几里得距离函数.
S(I,R)=∑i(L,M,H)wiD(XIi,XRi)(8)基于图像语义标注列表对上述匹配的视觉资源做进一步筛选,以获取语义主题更相近的视觉资源,本质上是计算搜索图像与匹配资源对象之间在人文领域语义概念的概率分布上的差别.
假设对于每一幅搜索图片I生成的语义标注列表L,取前N个语义标签t及对应概率,则有LI(ti,Pi),i=1,…,N,其中Pi反映了语义标签与图片之间的语义关联程度;同理,提取匹配对象的语义标签列表LR(tr,pr),r=1,.
.
.
,N).
采用标签语义距离计算方法[24]计算标签ti与tr之间的语义距离,如式(9);其中,Δ为常数,语义标签之间的语义距离具有关联单向性,d(ti,tr)代表标签i关联到标签r的单向语义距离、ti与tr为标签r关联到标签i的单向语义距离;两标签之间的单向距离d(ti,tr)计算公式如式(10),其中fre(ti,tr)为标签ti与tr共同标注某一资源的频率,T(ti,tr)为标签ti与tr共同标注的次数,T(tr)为标签tr单独标注的次数.
据此,结合LI(ti,pi),i=1,.
.
.
,N和LR(tr,pr),r=1,.
.
.
,N求得图片I与资源R的语义距离,如式(11),并选取其中语义距离最小的TopN个视觉资源对象.
D(ti,tr)=2Δd(ti,tr)+d(tr,ti)(9)d(ti,tr)=lnfre(ti,tr)+lnT(ti,tr)T(tr)(10)D(I,R)=∑i,rND(ti,tr)(11)经过上述两个步骤筛选的TopN个视觉资源对象不仅与搜索图片特征相匹配,而且在人文领域语义上相近,利用这些匹配的视觉资源在人文领域资源库中获取语义关联的其他形式资源,作为搜索结果返回给用户.
3.
6多模态融合从信息管理角度,多模态融合是利用计算机技术对多模态信息资源进行多维度、多层次的挖掘、重组、排序和融合[25].
以图1中的搜索图片为例,假设语义标注生成器生成了"越王勾践剑""春秋文物""湖北省博物馆"等多个语义标签及其相应概率;搜索结果返回与搜索图片整体语义最相近的资源内容,按资源与图片的语义距离排序,资源形式包含文本、图像、视频.
对返回结果进行多模态信息融合:利用用户情境信息、领域知识图谱对语义标注内容关联的知识点进行再挖掘;根据单个或多个语义标签的不同组合(例如"越王勾践剑"和"春秋文物""春秋文物"和"湖北省博物馆"等)对资源进行重新组合、排序和信息抽取;资源的形式融合,例如在文本资源中嵌入图片、视频或网页链接,在图片资源中添加文字说明、视频链接等;此外,通过多模态信息融合和用户交互行为获取用户知识偏好,可以重新定位用户搜索意图,为用户提供更智能的面向数字人文的MVS服务.
4面向数字人文的MVS模型评价指标面向数字人文的MVS体系架构需要一定的评价指标以验证其有效性和可行性,模型评价指标主要考察三个方面:一是图像自动标注的效果;二是MVS的信息检索效率和准确度;三是用户对整个MVS服务体系的满意度.
常用的图像自动标注指标有BLEU、ROUGE、ME专题研究26情报资料工作2018年第6期TEOR、TER、CIDEr等.
实际上,图像自动标注的最终目的是使自动生成的标注能够媲美甚至超越人工标注,与人工标注结果相关性较高的评估指标能够更好地反映图像自动标注模型的效果.
文献[26]对比了BLEU、ROUGE、METEOR、TER四种评价指标与人工判定的相关性,研究结果推荐使用METEOR指标.
CIDEr[27]是专为评价图像自动标注问题而设计的指标,基于共识的评价标准(consensus-basedprotocol),其基本原理是通过度量待测评标注与人工标注的相似性来评价自动标注的有效性,研究表明CIDEr在人工共识的匹配度上要优于上述其他指标.
针对MVS检索效率和准确度,常用的指标如查准率(Precision)[12]、查全率(Recall)[18]、平均查准率的均值(MAP)[16]等.
查准率测量检索返回结果中相关信息所占比例;查全率测量返回结果中相关信息占所有相关信息的比例;对于一个检索系统,返回结果的排序也是一个重要的参考因素,MAP是单个查询主题的一定查全率水平下的平均查准率:假设单次MVS查询得到结果列表L中的相关文档数m个,tr为所有文档中的相关文档数,ti为第i个相关文档在列表L中的排序位置,MAP定义如式(12).
MAP(L,m)=1tr∑i=1miti(12)考察用户对整个MVS服务体系的满意度可以采用在线问卷调查、在线访问和用户反馈分析的方法,从MVS服务的搜索过程的实时性、交互过程的易操作性、搜索结果的匹配准确度和一致性、反馈内容的丰富性和个性化服务等多个方面进行综合评价,依据具体的评估项对面向数字人文的MVS服务模型进行不断完善.
5结语现代化的数字技术对人文领域研究和发展带来了新的机遇和挑战,数字人文领域研究和实践需要跨越学科壁垒、融合人文领域和自然学科成果,面向数字人文的MVS模型研究立足数字人文领域问题、充分融合前沿计算机和信息技术、全面考察面向数字人文的MVS用户需求,为数字人文领域研究和发展提供了新的研究思路和有益的参考.
本文主要从理论角度构建了面向数字人文的MVS模型,但仍然需要通过实践检验其有效性和可行性,下一阶段的研究工作计划从三个方面展开:一是以某一具体的数字人文视觉资源库为例,完成相应的语义标注和语义关联工作,为本文模型的检验提供数据基础;二是搭建基于深度学习的实验环境,利用人文视觉资源库中的已标注图像完成其中的CNN和LSTM模型训练过程,实现面向数字人文的MVS处理流程;三是利用较为全面的评价指标对模型中算法的有效性、服务的用户满意度进行综合评价,不断更新和完善面向数字人文的MVS模型和服务.
参考文献[1]赵生辉,朱学芳.
我国高校数字人文中心建设初探[J].
图书情报工作,2014,58(6):64-69.
[2]张舵,吴跃伟.
国外图书馆支持数字人文的实践及启示[J].
图书馆杂志,2014,33(8):47-52.
[3]张兴旺,黄晓斌.
国外移动视觉搜索研究述评[J].
中国图书馆学报,2014,40(3):114-128.
[4]宋利良,李大丁.
敦煌石窟数字化工作中的洞窟全景漫游技术初步应用[J].
敦煌研究,2010,124(6):93-97.
[5]王涌天,林倞,刘越,等.
亦真亦幻的户外增强现实系统——圆明园的数字重建[J].
中国科学基金,2006,20(2):76-80.
[6]李雪芬.
基于内容的图像数据库本体构建探究——以中国美术学院艺术图像数据库为例[J].
图书馆杂志,2011,30(4):63-65.
[7]彭建波.
谈面向非物质文化遗产的特色资源建设——以皮影数字博物馆为例[J].
图书馆工作与研究,2012,195(5):33-36.
[8]夏立新,白阳,孙晶琼.
基于关联标签的非遗图片资源主题发现研究[J].
图书情报工作,2016,60(2):22-29.
[9]王晓光,徐雷,李纲.
敦煌壁画数字图像语义描述方法研究[J].
中国图书馆学报,2014,40(1):50-59.
[10]张兴旺,卢桥,田清.
大数据环境下非遗视觉资源的获取、组织与描述[J].
图书与情报,2016,171(5):48-55.
[11]吕明磊,刘冬梅,曾智勇,等.
基于改进K-means算法的图像检索方法[J].
计算机应用,2013,33(s1):195-198.
[12]DonahueJ,JiaY,VinyalsO,etal.
DeCAF:Adeepconvolutionalactivationfeatureforgenericvisualrecognition[J].
ComputerScience,2013,50(1):815-830.
[13]刘木林,朱庆华,赵宇翔.
基于关联数据的数字图书馆移动视觉搜索框架研究[J].
情报资料工作,2016,211(4):6-10.
[14]陈宜明,段凌宇,黄艳,等.
基于潜在主题的分布式视觉检索模型[J].
计算机工程,2012,38(24):146-151.
[15]JiR,DuanLY,ChenJ,etal.
Locationdiscriminativevocabularycodingformobilelandmarksearch[J].
InternationalJournalofComputerVision,2012,96(3):290-314.
[16]RenS,HeK,GirshickR,etal.
FasterR-CNN:towardsreal-timeobjectdetectionwithregionproposalnetworks[J].
IEEETransactionsonPatternAnalysis&MachineIntelligence,专题研究27情报资料工作2018年第6期2017,39(6):1137.
[17]杨阳,张文生.
基于深度学习的图像自动标注算法[J].
数据采集与处理,2015,30(1):88-98.
[18]VinyalsO,ToshevA,BengioS,etal.
Showandtell:aneuralimagecaptiongenerator[C].
ComputerVisionandPatternRecognition(CVPR2015),Boston,2015:3156-3164.
[19]KimYD,ParkE,YooS,etal.
Compressionofdeepconvolutionalneuralnetworksforfastandlowpowermobileapplications[J].
ComputerScience,2015,71(2):576-584.
[20]RastegariM,OrdonezV,RedmonJ,etal.
XNOR-Net:ImageNetClassificationUsingBinaryConvolutionalNeuralNetworks[M].
ComputerVision–ECCV2016:SpringerInternationalPublishing,2016:525-542.
[21]LiX,QinT,YangJ,etal.
LightRNN:memoryandcomputation-efficientrecurrentneuralnetworks[C].
30thConferenceonNeuralInformationProcessingSystems(NIPS2016),Barcelona,Spain,2016:1-9.
[22]HanS,KangJ,MaoH,etal.
ESE:efficientspeechrecognitionenginewithsparseLSTMonFPGA[C].
FPGA'17,Monterey,2017:75-84.
[23]刘峤,李杨,段宏,等.
知识图谱构建技术综述[J].
计算机研究与发展,2016,53(3):582-600.
[24]黄微,高俊峰,李瑞,等.
Folksonomy中Tag语义距离测度与可视化研究[J].
现代图书情报技术,2014,30(z1):64-70.
[25]张鹤,黄倩.
多模态信息融合的知识服务[J].
中国科技资源导刊,2016,48(6):50-54.
[26]DesmondElliott,FrankKeller.
Comparingautomaticevaluationmeasuresforimagedescription[C].
MeetingoftheAssociationforComputationalLinguistics,Baltimore,Maryland,USA,2014:452-457.
[27]VedantamR,ZitnickCL,ParikhD.
CIDEr:consensus-basedimagedescriptionevaluation[J].
ComputerScience,2014:4566-4575.
[作者简介]曾子明,男,1977年生,武汉大学信息管理学院教授,博士生导师.
秦思琪,女,1992年生,武汉大学信息管理学院硕士研究生.
收稿日期:2017-06-07专题研究欢迎订阅2019年图书、情报、信息、资料工作者自己的刊物《情报资料工作》CSSCI来源期刊,全国中文核心期刊,中国人文社会科学核心期刊双月刊,大16开,112页,全年定价288元,国内统一刊号CN11-1448/G3——图书馆、情报室、资料室、信息中心的理想文献、必藏刊物——图书、情报、信息、资料、档案工作者的业务参谋、良师益友《情报资料工作》杂志面向图书情报界、信息产业界和文献资料档案界,读者遍及高校、党校、社会科学院、军队院校、政府信息机构及公共图书馆系统.
刊物一贯注重追求理论精品,面向工作实际,形成了求实创新的学术风格,是广大图书情报工作者进行学术研讨及业务交流的重要园地.
订阅方式:(1)在全国各地邮局订阅,邮发代号:82-22(2)直接向中国人民大学书报资料中心市场部订阅①邮政汇款:地址:北京9666信箱(邮编100086)收款人:市场部电话:010-82503412/4082503029欢迎致电《情报资料工作》编辑部,电话:010-62512296/62514977;或登录博客:http://blog.
sina.
com.
cn/qbzlgz;登录网站:http://qbzl.
zlzx.
org/CN/volumn/home.
shtml;或发邮件至qingbaoziliao@263.
net.
②银行汇款:户名:中国人民大学书报资料中心开户行:中国银行北京人大支行账号:34415603174228

展开全文