Miguel Pérez del Castillo, Gastón Rial, R. Sotelo, Máximo Gurméndez
{"title":"Clasificador de logs de acceso para detección de incidentes de ciberseguridad","authors":"Miguel Pérez del Castillo, Gastón Rial, R. Sotelo, Máximo Gurméndez","doi":"10.36561/ing.18.7","DOIUrl":null,"url":null,"abstract":"espanolRecientemente los sitios web de los gobiernos en el mundo han sido objeto de ataques informaticos. Por ello urge una solucion que asista a los analistas de ciberseguridad a detectar los incidentes con rapidez. Para optimizar el tiempo de deteccion en el proyecto se desarrollo un clasificador que filtre lineas de logs de servidores web en formato CLF (Combined Log Format) que indican comportamiento anomalo. Para ello, se codifican los logs de acceso en representacion vectorial y luego se usa el algoritmo de aprendizaje automatico K-NN ponderado (K vecinos mas proximos) para filtrar los logs. Los datos de entrada fueron provistos por el CERTuy (Equipo de Respuesta ante Emergencias Informaticas) y el SOC (Centro de Operaciones de Seguridad). De las pruebas realizadas sobre el servicio de clasificacion, se detecto el 82% de ofensas de ciberseguridad de un conjunto de datos asociado, se logro filtrar el 80% de logs que indican comportamiento normal y se disminuyo el tiempo de deteccion de logs que indican comportamiento anomalo de 13 horas a 15 minutos. EnglishThe number of attacks on government websites has escalated in the last years. In order to assist in the detection process conducted by cybersecurity analysts, this document suggests implementing machine learning techniques over web server access logs. The overall objective is to optimize the detection time using a customized classifier which selects traces corresponding to anomalous activity. Specifically, web server combined log format (CLF) access logs coded as real vectors are an input to a weighted K-NN nearest neighbors’ model. The methodology was tested on datasets and premises provided by the CERTuy (National Cybersecurity Event Response Team) and the SOC (Security Operations Center). According to evaluations 82% of cybersecurity offenses have been detected, 80% of normal behavior has been filtered and the reduction time has been reduced from 13 hours to 15 minutes.","PeriodicalId":42925,"journal":{"name":"Memoria Investigaciones en Ingenieria","volume":null,"pages":null},"PeriodicalIF":0.4000,"publicationDate":"2020-06-06","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Memoria Investigaciones en Ingenieria","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.36561/ing.18.7","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q4","JCRName":"ENGINEERING, MULTIDISCIPLINARY","Score":null,"Total":0}
引用次数: 0
Abstract
espanolRecientemente los sitios web de los gobiernos en el mundo han sido objeto de ataques informaticos. Por ello urge una solucion que asista a los analistas de ciberseguridad a detectar los incidentes con rapidez. Para optimizar el tiempo de deteccion en el proyecto se desarrollo un clasificador que filtre lineas de logs de servidores web en formato CLF (Combined Log Format) que indican comportamiento anomalo. Para ello, se codifican los logs de acceso en representacion vectorial y luego se usa el algoritmo de aprendizaje automatico K-NN ponderado (K vecinos mas proximos) para filtrar los logs. Los datos de entrada fueron provistos por el CERTuy (Equipo de Respuesta ante Emergencias Informaticas) y el SOC (Centro de Operaciones de Seguridad). De las pruebas realizadas sobre el servicio de clasificacion, se detecto el 82% de ofensas de ciberseguridad de un conjunto de datos asociado, se logro filtrar el 80% de logs que indican comportamiento normal y se disminuyo el tiempo de deteccion de logs que indican comportamiento anomalo de 13 horas a 15 minutos. EnglishThe number of attacks on government websites has escalated in the last years. In order to assist in the detection process conducted by cybersecurity analysts, this document suggests implementing machine learning techniques over web server access logs. The overall objective is to optimize the detection time using a customized classifier which selects traces corresponding to anomalous activity. Specifically, web server combined log format (CLF) access logs coded as real vectors are an input to a weighted K-NN nearest neighbors’ model. The methodology was tested on datasets and premises provided by the CERTuy (National Cybersecurity Event Response Team) and the SOC (Security Operations Center). According to evaluations 82% of cybersecurity offenses have been detected, 80% of normal behavior has been filtered and the reduction time has been reduced from 13 hours to 15 minutes.
最近,世界各地的政府网站都受到了网络攻击。因此,迫切需要一个解决方案,帮助网络安全分析师快速检测事件。为了优化项目中的检测时间,我们开发了一个分类器,该分类器以CLF(组合日志格式)格式过滤显示异常行为的web服务器日志行。为此,我们将访问日志编码为向量表示,然后使用加权K- nn机器学习算法(K个最近的邻居)过滤日志。输入数据由CERTuy(计算机紧急响应小组)和SOC(安全操作中心)提供。clasificacion检测服务,拾起了82%的网络安全犯罪相关联的一组数据显示,80%实现过滤logs正常行为和disminuyo时间成为logs表示anomalo行为13小时15分钟。在过去的几年里,针对政府网站的攻击数量有所增加。为了协助网络安全分析师进行的检测过程,本文建议通过web服务器访问日志实现机器学习技术。总体目标是优化检测时间,使用定制分类器选择与异常活动相对应的轨迹。为此,web server logs combined log format (CLF) access coded as real载体are an input to a weighted K-NN nearest在“model。该方法在CERTuy(国家网络安全事件响应小组)和SOC(安全行动中心)提供的数据集和设施上进行了测试。根据评估,82%的网络安全犯罪被发现,80%的正常行为被过滤,减少时间从13小时减少到15分钟。