(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211517274.9
(22)申请日 2022.11.30
(71)申请人 浙江工业大 学
地址 310014 浙江省杭州市下城区潮王路
18号
(72)发明人 陈铁明 郑陈彬 朱添田 吕明琪
路晓明
(74)专利代理 机构 杭州求是专利事务所有限公
司 33200
专利代理师 陈升华
(51)Int.Cl.
G06F 16/18(2019.01)
G06F 16/174(2019.01)
G06F 16/172(2019.01)
G06F 40/216(2020.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于起源图的日志采集、 压缩、 存储方
法
(57)摘要
本发明公开了一种起源图的日志采集、 压
缩、 存储方法, 包括如下步骤: (1)采集系统审计
日志数据, 建立系统实体间的交互关系; (2)执行
基于起源图的数据压缩策略, 降低数据存储开
销; (3)设计基于起源图的日志数据存储模型, 进
一步降低数据中的信息冗余, 并设计基于起源图
的图形数据库, 该数据库具有特定于APT攻击的
查询语言。 该方法的优势在于: 在保证数据的统
一性和保真性的条件下高效地采集系统审计日
志数据; 在维护语义的同时尽可能降低系统审计
日志数据的存储开销; 设计简洁、 高效、 便捷的持
久化数据管理系统, 支持基于AP T的攻击检测、 威
胁狩猎、 溯源研判等 安全分析任务。
权利要求书2页 说明书6页 附图4页
CN 115543951 A
2022.12.30
CN 115543951 A
1.一种基于起源图的日志采集、 压缩、 存 储方法, 其特 征在于, 包括如下步骤:
(1) 采集日志数据: 采集原 始系统审计日志, 建立系统实体间的交 互关系;
(2) 实施日志压缩: 执行基于起源图的数据压缩策略对建立因果关系后的系统审计日
志压缩, 得到 压缩后的系统审计日志;
(3) 执行日志存储: 将压缩后的系 统审计日志根据数据产生的时间长短采用第一种
日志数据存 储方式或第二种日志数据存 储方式存 储在系统实体中;
第一种日志数据存储方式: 设计一种具有空间效率的基于起源图的数据存储格式, 每
个实体集 合间的交 互关系使用8~32个字节进行存 储, 存储在系统实体中;
第二种日志数据存储方式: 将压缩后的系 统审计日志经过预处理后, 输入到双层LSTM
的深度神经网络预测每个字词的概率, 并利用得到的概率执行算术编 码策略进行文本无损
压缩存储在本地硬 盘中。
2.根据权利要求1所述的基于起源图的日志采集、 压缩、 存储方法, 其特征在于, 步骤
(1)中, 系统实体包括: 进程和文件。
3.根据权利要求1所述的基于起源图的日志采集、 压缩、 存储方法, 其特征在于, 步骤
(1)中, 采集原 始系统审计日志, 具体包括:
(1‑1) 处理原始系统审计日志: 根据用户的需求从原始系统审计日志中提取用户感兴
趣的信息并过 滤用户认定的低价 值数据, 得到处 理后的系统审计日志;
(1‑2) 建立系统事件交互关系: 处理后的系 统审计日志包括系 统实体以及系统事件,
建立各个系统实体间保真的因果关系, 得到建立因果关系后的系统审计日志。
4.根据权利要求3所述的基于起源图的日志采集、 压缩、 存储方法, 其特征在于, 步骤
(1‑2)中, 建立各个系统实体间保真的因果关系, 具体包括:
轻量级双执行预定义处理后的系统审计日志中的输入点和 交汇点, 给定一个主执行,
并行派生一个从执行并 改变从执行输入值, 若在主执行和从执行对齐的交汇点处上观察到
输出缓冲区数据存在差异, 则交汇点和输入点存在依赖 关系, 重复执行, 建立各个系统实体
间保真的因果关系。
5.根据权利要求1所述的基于起源图的日志采集、 压缩、 存储方法, 其特征在于, 步骤
(2)中, 执行基于起源图的数据压缩策略对建立因果关系后的系统审计日志压缩, 具体包
括:
(2‑1)实体驱动的日志压缩:
删除建立因果关系后的系统审计日志中无法访问的系统实体, 然后采用基于FP ‑
Growth的模板学习策略对频繁使用的系统实体组合生 成模板, 根据模板匹配 建立因果关系
后的系统审计日志中符合模板中系统操作序列的系统实体, 匹配成功后进行合并, 形成实
体集合;
(2‑2)事件驱动的日志压缩:
观察实体集合间的交互关系, 观察实体集合间的交互关系是否是冗余的, 如果是冗余
的, 则进行压缩, 如果 不冗余的, 则不进行压缩。
6.根据权利要求5所述的基于起源图的日志采集、 压缩、 存储方法, 其特征在于, 步骤
(2‑1)中, 频繁使用为 一小时内出现10次~10万次。
7.根据权利要求5所述的基于起源图的日志采集、 压缩、 存储方法, 其特征在于, 步骤权 利 要 求 书 1/2 页
2
CN 115543951 A
2(2‑2)中, 观察实体集 合间的交 互关系是否是冗余的, 具体包括:
将排好序的交互关系作为输入, 为每一对实体集合的每种类型的交互关系维护一个堆
栈, 一旦有同一对实体集合的事件入栈时, 检查该交互关系的前向和后向跟踪能力是否可
以和堆栈中的交互关系相同, 若相同, 则聚合两个交互关系, 将前一个交互关系的结束时间
延长到后一个交 互关系的结束时间, 完成压缩, 得到 压缩后的系统审计日志。
8.根据权利要求1所述的基于起源图的日志采集、 压缩、 存储方法, 其特征在于, 步骤
(3)中, 设计一种具有空间效率的基于起源图的数据存储格式, 每个实体集合间的交互关系
使用8~32个字节进行存 储, 具体包括:
(3‑1‑1)将实体集合间的交互关系存储在系 统实体中, 并使用可变长度编码策略编码
实体集合间的交 互关系;
(3‑1‑2)用相对增量的时间表示方法来编码实体集合上的所有交互关系的发生时间和
结束时间, 发生时间和结束时间采用建立处理后的系统审计日志中的发生时间和结束时
间;
(3‑1‑3)根据实体标识符采用索引表来引用实体集合, 实体标识符采用互不重复的数
字唯一表示每 个实体集 合。
9.根据权利要求1所述的基于起源图的日志采集、 压缩、 存储方法, 其特征在于, 步骤
(3)中, 第二种日志数据存 储方式中, 所述的预处 理具体包括:
(3‑2‑1) 将压缩后的系统审计日志进行关键 字模板处 理;
(3‑2‑2) 将关键字模板处 理后的系统审计日志进行 单调值处 理;
(3‑2‑3) 单调值处 理后的系统审计日志进行 频繁事件处理。
10.根据权利要求9所述的基于起源图的日志采集、 压缩、 存储方法, 其特征在于, 步骤
(3‑2‑3)中, 频繁事 件处理具体包括:
将单调值处理后的系统审计日志中的实体集合间的交互关系, 若主体、 客体、 操作类型
相同, 根据相同次数的频繁程度用可变长度编码策略进行编码。权 利 要 求 书 2/2 页
3
CN 115543951 A
3
专利 一种基于起源图的日志采集、压缩、存储方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:23:41上传分享