{"title":"摘自Reddit的葡萄牙语评论的作者归属","authors":"Vinicius Alves Matias, L. A. Digiampietri","doi":"10.5335/rbca.v15i2.14045","DOIUrl":null,"url":null,"abstract":"Ambientes de interação na Internet, como redes sociais, transferem dados textuais em larga escala que carregam implicitamente os estilos de escrita de cada usuário da rede. Dado o fluxo constante e intenso de informações por meio de sistemas de informação desse tipo, é necessário desenvolver técnicas que possam distinguir um texto entre dois possíveis autores peor motivos de, por exemplo, evitar o retorno de usuários banidos da plataforma. Este artigo abordou e avaliou diferentes formas de realizar a atribuição de autoria por meio de processamento de linguagem natural e aprendizado de máquina, com base em comentários em português extraídos da rede social Reddit. Este artigo tem como objetivo atualizar a literatura de atribuição de autoria utilizando o português como idioma principal, dada a escassez de trabalhos atualizados nesse idioma. Os resultados de vários métodos viáveis para a tarefa de atribuição de autoria binária foram expostos e avaliados na questão da viabilidade de acordo com sua significância estatística, obtendo-se dois modelos dentro do mesmo intervalo de confiança que atingiram 0,88 de F1-score e 0,94 de AUC com extração de texto atributos por meio de embeddings BERTimbau e por meio de TF-IDF de palavras.","PeriodicalId":41711,"journal":{"name":"Revista Brasileira de Computacao Aplicada","volume":null,"pages":null},"PeriodicalIF":0.2000,"publicationDate":"2023-07-27","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":"{\"title\":\"Authorship attribution of comments in Portuguese extracted from Reddit\",\"authors\":\"Vinicius Alves Matias, L. A. Digiampietri\",\"doi\":\"10.5335/rbca.v15i2.14045\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"Ambientes de interação na Internet, como redes sociais, transferem dados textuais em larga escala que carregam implicitamente os estilos de escrita de cada usuário da rede. Dado o fluxo constante e intenso de informações por meio de sistemas de informação desse tipo, é necessário desenvolver técnicas que possam distinguir um texto entre dois possíveis autores peor motivos de, por exemplo, evitar o retorno de usuários banidos da plataforma. Este artigo abordou e avaliou diferentes formas de realizar a atribuição de autoria por meio de processamento de linguagem natural e aprendizado de máquina, com base em comentários em português extraídos da rede social Reddit. Este artigo tem como objetivo atualizar a literatura de atribuição de autoria utilizando o português como idioma principal, dada a escassez de trabalhos atualizados nesse idioma. Os resultados de vários métodos viáveis para a tarefa de atribuição de autoria binária foram expostos e avaliados na questão da viabilidade de acordo com sua significância estatística, obtendo-se dois modelos dentro do mesmo intervalo de confiança que atingiram 0,88 de F1-score e 0,94 de AUC com extração de texto atributos por meio de embeddings BERTimbau e por meio de TF-IDF de palavras.\",\"PeriodicalId\":41711,\"journal\":{\"name\":\"Revista Brasileira de Computacao Aplicada\",\"volume\":null,\"pages\":null},\"PeriodicalIF\":0.2000,\"publicationDate\":\"2023-07-27\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"0\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"Revista Brasileira de Computacao Aplicada\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.5335/rbca.v15i2.14045\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"Q4\",\"JCRName\":\"COMPUTER SCIENCE, INTERDISCIPLINARY APPLICATIONS\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"Revista Brasileira de Computacao Aplicada","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.5335/rbca.v15i2.14045","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q4","JCRName":"COMPUTER SCIENCE, INTERDISCIPLINARY APPLICATIONS","Score":null,"Total":0}
Authorship attribution of comments in Portuguese extracted from Reddit
Ambientes de interação na Internet, como redes sociais, transferem dados textuais em larga escala que carregam implicitamente os estilos de escrita de cada usuário da rede. Dado o fluxo constante e intenso de informações por meio de sistemas de informação desse tipo, é necessário desenvolver técnicas que possam distinguir um texto entre dois possíveis autores peor motivos de, por exemplo, evitar o retorno de usuários banidos da plataforma. Este artigo abordou e avaliou diferentes formas de realizar a atribuição de autoria por meio de processamento de linguagem natural e aprendizado de máquina, com base em comentários em português extraídos da rede social Reddit. Este artigo tem como objetivo atualizar a literatura de atribuição de autoria utilizando o português como idioma principal, dada a escassez de trabalhos atualizados nesse idioma. Os resultados de vários métodos viáveis para a tarefa de atribuição de autoria binária foram expostos e avaliados na questão da viabilidade de acordo com sua significância estatística, obtendo-se dois modelos dentro do mesmo intervalo de confiança que atingiram 0,88 de F1-score e 0,94 de AUC com extração de texto atributos por meio de embeddings BERTimbau e por meio de TF-IDF de palavras.