为了规范互联网信息服务活动,促进互联网信息服务健康有序发展,根据国务院令第292号《互联网信息服务管理办法》和工信部令第33号《非经营性互联网信息服务备案管理办法》规定,国家对经营性互联网信息服务实行许可制度,对非经营性互联网信息服务实行备案制度。未取得许可或者未履行备案手续的,不得从事互联网信息服务。
我司开发的“慧林非法信息拦截系统”,通过深度分析网络流量及机器学习技术,对非法域名、文本、多媒体图片、多媒体视频,挖矿行为等进行拦截,协助网络内容管理人员用来发现、处置网络内容中的非法内容。
非法信息拦截系统可以通过配置指令来进程流量监测,系统将形成监测日志,以及相应统计信息,以方便用户对疑似非法信息进程审核。监测指令可通过协议类型、域名、URL、关键字、源IP、源端口、目的IP、目的端口、生效时间几个维度进行组合指定。如下图:
非法信息拦截系统可以通过配置指令来进程对非法流量内容进行自动拦截。监测指令可通过协议类型、域名、URL、关键字、源IP、源端口、目的IP、目的端口、生效时间几个维度进行组合指定(图见监测功能部分)
可以针对域名、url、目的ip等信息设置黑名单或者白名单。系统将不对匹配白名单的内容进行拦截;系统将对匹配黑名单的内容进行自动拦截。
自动识别http、https协议中所访问域名是否已备案,对于未备案的网站可进行自动拦截。可以设置系统使用“宽松模式”或者“严格模式”两种不同模式进行未备案拦截。系统会自动学习域名相关的备案信息,也可以通过管理界面配置或者批量导入的方式进行手工编辑。
慧林非法信息拦截系统使用机器学习技术对网络中的图片和视频信息进行自动审核,提取出网络中的黄色、暴力等非法图片和视频。用户审核后可对非法图片和视频进行拦截。
慧林非法信息拦截系统可通过流量特征、访问的域名、IP等信息,识别出主机的挖矿行为。同时,保留相应的快照信息以便取证。
系统日志包括访问日志、监测日志、过滤日志。用户可到对应界面根据各字段信息进行查询或者导出。如果是关键字指令产生的监测和过滤日志,还可查看它的快照。
系统通过深度解析网络流量,可以根据流量的具体内容识别出http协议,而不是简单的按端口号进行识别。系统可审核出https流量中的域名信息,从而实现https协议的未备案拦截。 系统使用高效的关键字匹配技术,从而及时有效的拦截非法关键字。
系统使用机器学习自动识别出黄色、暴力等非法图片和视频,并按域名、ip等信息分组,使用户能简单地进行审核。用户可针对特定域名进行审核,如果发现该域名下有很多非法信息,可以直接把整个域名审核为“非法网站”,以避免每次出现非法内容都要重新审核。 系统配备了邮件通知、短信功能,当系统有较多非法信息没有审核时,会给用户邮件、短信通知。用户只需要在接到通知时再进入系统进行审核管理。
慧林非法信息拦截系统使用高性能网络流量处理架构,单套设备可处理流量高达100G。系统内多个模块如关键字匹配算法、日志处理等都使用针对特定场景优化了的的算法,以保证系统高效运行。
针对日志写多读少,只写不更新等特点,我司研制出非常适合非法信息拦截系统使用的日志数据库,可支持单机每秒写入20万条日志以上(Mysql 7000+),从而极大提高了整个系的处理性能。同时使用特定算法,极大缩减了日志占用空间,占用磁盘空间仅为mysql的1/3左右,大大减少系统的硬盘使用成本。
非法信息拦截系统由控制单元,执行单元,多媒体学习单元组成。三个单元可部署在同台设备中,也可分别部署在多台设备中。执行单元和多媒体学习单元可根据具体线上流量特征使用多台设备分步式并行处理。其中执行单元一般是使用交换机克隆口克隆要分析的流量进行分析。
控制单元使用BS架构,用来管理整个系统,为整个系统提供可视化的管理界面,负责下发客户配置,展示非法信息拦截系统概况,修改客户信息。
执行单元模块负责网络报文分析,提取客户关心的关键信息,给学习分析引擎处理;负责非法信息过滤。
多媒体学习单元用于处理多媒体图片和视频,判断其是否为非法多媒体资源。