移动社交应用提供的社交互动功能使得用户可以轻松地获取其他用户的个人信息,进而促成跨用户的隐私分享。根据相关法律规定的最小必要原则,应用分享的个人信息应当限定于展示功能所需要的最小范围,因此不得分享未在隐私政策声明且未在用户界面上展示的个人信息。目前相关工作缺少对跨用户隐私分享合规性的研究,因此设计了自动化合规检测系统,以隐私政策和用户界面作为判定是否符合最小必要原则的依据,检测违规的跨用户隐私分享行为。该系统面向应用市场509个移动社交应用展开合规检测,对每个移动社交应用进行20 min的动态测试发现,47个移动社交应用存在合计101次非重复的违规隐私分享行为,涉及18类用户隐私数据。经过人工验证,确认91.09%的违规隐私分享行为实际存在。实验结果表明,该系统相较先前工作在精准率和召回率上均有良好表现。
数据安全存储与检索是开放大数据安全利用的基础。然而,现有大数据存储与检索系统难以支持存储密钥的高效更新,且无法兼顾多模态数据的密文存储与高效检索,难以满足开放大数据的安全高效利用需求。为此,针对存储密钥更新问题,提出了基于嵌套加密的存储密钥更新机制,支持非解密式存储密钥高效更新,满足非可信环境下密钥定期轮换需求;针对密文索引体积膨胀问题,提出了压缩密文多集合查询过滤器,支持海量数据的高密度密文索引;针对多模态数据密文检索问题,提出了跨类型密文复合关联检索算法,支持文本、空间、图像等多模态数据的单类型和跨类型密文检索。基于以上关键技术研发了多模态加密数据库系统,该系统支持存储计算分离,兼容现有大数据服务的技术架构,现有大数据平台可通过微服务增量部署完成安全加固,保障系统的可扩展性、易用性和高效性。实验结果表明,相比传统的解密重加密机制,所提出的存储密钥更新机制性能提高了80%以上;相比现有的明文数据库系统,所提出的多模态加密数据库系统在文本、空间、图像、跨模态检索等方面综合性能损耗不超过25%。
社交媒体作为信息获取的主要途径,其假新闻问题日益严重。假新闻检测任务的重要挑战之一是确保模型能够及时响应新出现的事件,并在有限时间内完成检测任务,这要求模型具备高效的实时性和对新事件的快速适应能力,与此同时,多模态假新闻检测技术作为未来的重要发展方向也值得关注。针对上述挑战,提出了一种多模态假新闻检测模型ADSCL,利用卷积神经网络提取文本和图像的语义特征,并通过多层联合注意力机制进行融合。针对新事件的及时响应需求,引入生成对抗网络和对比学习,从大量数据中提取可转移特征,提高泛化能力。同时,通过对抗性训练增强模型鲁棒性。实验结果表明,ADSCL模型有效提升了假新闻检测能力,验证了多模态融合和对抗性方法在新闻检测任务上的优越性。
全同态加密算法支持直接对加密数据(密文)执行代数运算,但其密文评估中的数论变换(NTT)涉及大量高维度整系数多项式环运算,限制了其在隐私计算中的应用。针对CPU实现方案对NTT算法计算并行度较低的问题,提出一种CPU+GPU异构的CKKS全同态加密实现方案。首先,根据NTT算法数据内存访问规律,设计一种数据暂存共享内存策略,有效减少频繁的全局内存访问。其次,针对数据规模可变导致内核出现部分空闲线程的问题,设计线程工作负载动态分配机制,并采用不同基数的蝴蝶变换结构,提高数据输入的灵活性并优化并行策略。再次,提出单—多内核混合调用模式,通过NTT算法蝶形变换分组大小动态切换内核调用模式,充分利用GPU多核调用的并行潜力。最后,设计并实现并行程度更高、计算复杂度更低的NTT算法,利用该算法实现并行的同态乘法运算,并基于HElib库实现CPU+GPU异构的CKKS全同态加密算法。实验结果表明,与使用AVX-512加速的HElib库相比,所提的NTT/INTT计算时间减短近65%。
语音通信已成为人们生活中不可或缺的一部分,但其中蕴含的语义、声纹等隐私数据也面临严重泄露风险。提出一种面向实时通信的语音数据隐私保护方法,从语义内容与声纹特征两个维度进行实时语音数据的隐私保护。该方法采用语音识别技术,实现了文本域上的语义内容脱敏工作。在通过计算文本嵌入向量间的相似度推断敏感词信息的基础上,用户可以通过指定敏感词来实现个性化隐私保护。同时,该方法结合了基于语义相似度与随机字符两种方式将敏感内容替换为安全词的语义内容脱敏算法,并基于深度学习模型的语音合成技术与语音引擎两种方式实现了声纹特征的匿名化处理。实验证明,该方法支持根据隐私级别与时间开销选择语义脱敏和声纹匿名;尤其当获取语音识别结果的时间在原本时间的30%~50%之间时,可以较好地平衡识别准确度与时间开销。
当前,数据拥有者通常需要将自己收集到的数据交予其他机构进行数据分析或向公众发布。为了防止用户隐私信息的泄露,在发布或共享数据前,往往需要对数据进行匿名处理,达到一定隐私保护程度后才可安全发布。因此衡量发布数据的隐私保护水平是一项重要的研究内容。由于在以往的研究中,缺少足够通用的方案,不能对发布数据的隐私保护水平进行精确度量。因此提出了一种度量发布数据隐私保护程度方法,该方法主要通过条件熵与互信息,度量出数据处理前后的差异值,在此基础上基于互信息和联合熵融合得到具体的隐私保护效果,最终输出一个0~1范围的数值精确表示发布数据的隐私保护水平。将该方法应用到真实的数据集中,在匿名处理数据集使其满足常用的隐私模型后,分别度量不同隐私模型下数据各个属性的隐私保护水平,证明了所提方法的有效性。
随着网络空间的迅速发展,网络安全威胁日益复杂和多样化,知识图谱为解决多源异构网络安全数据的提取、整合和分析提供了新的手段。近年来,知识图谱已逐步应用于威胁情报、漏洞管理、攻击路径分析等众多网络安全细分领域,展现出广阔的应用前景。此外,随着知识图谱应用的不断深入,其自身面临的诸多安全问题同样值得重视。全面概述网络安全知识图谱(Cybersecurity Knowledge Graph,CKG)的构建与应用,以及知识图谱当前面临的安全风险。首先介绍了CKG的构建,包括网络安全本体和网络安全信息提取的相关工作;其次梳理了基于威胁情报的CKG、CKG补全以及CKG具体应用的相关工作;随后探讨了知识图谱当前面临的安全风险,涉及针对知识图谱的攻击与防御、知识图谱中的隐私保护等相关工作;最后讨论了当前面向网络空间安全领域的知识图谱研究中存在的挑战以及未来的工作方向。通过对CKG的构建与应用以及知识图谱风险与防护的全面介绍和深入分析,可以更好地促进知识图谱在网络空间安全领域的应用。