An investigation of linguistic problems in automatic multi-document summaries / Uma investigação de problemas linguísticos em sumários automáticos multidocumento
Márcio de Souza Dias, Ariani Di Felippo, A. Rassi, P. Cardoso, F. Nóbrega, T. Pardo
{"title":"An investigation of linguistic problems in automatic multi-document summaries / Uma investigação de problemas linguísticos em sumários automáticos multidocumento","authors":"Márcio de Souza Dias, Ariani Di Felippo, A. Rassi, P. Cardoso, F. Nóbrega, T. Pardo","doi":"10.17851/2237-2083.29.2.859-907","DOIUrl":null,"url":null,"abstract":"Abstract: Automatic summaries commonly present diverse linguistic problems that affect textual quality and thus their understanding by users. Few studies have tried to characterize such problems and their relation with the performance of the summarization systems. In this paper, we investigated the problems in multi-document extracts (i.e., summaries produced by concatenating several sentences taken exactly as they appear in the source texts) generated by systems for Brazilian Portuguese that have different approaches (i.e., superficial and deep) and performances (i.e., baseline and state-of-the art methods). For that, we first reviewed the main characterization studies, resulting in a typology of linguistic problems more suitable for multi-document summarization. Then, we manually annotated a corpus of automatic multi-document extracts in Portuguese based on the typology, which showed that some of linguistic problems are significantly more recurrent than others. Thus, this corpus annotation may support research on linguistic problems detection and correction for summary improvement, allowing the production of automatic summaries that are not only informative (i.e., they convey the content of the source material), but also linguistically well structured. Keywords: automatic summarization; multi-document summary; linguistic problem; corpus annotation. Resumo: Sumarios automaticos geralmente apresentam varios problemas linguisticos que afetam a sua qualidade textual e, consequentemente, sua compreensao pelos usuarios. Alguns trabalhos caracterizam tais problemas e os relacionam ao desempenho dos sistemas de sumarizacao. Neste artigo, investigaram-se os problemas em extratos (isto e, sumarios produzidos pela concatenacao de sentencas extraidas na integra dos textos-fonte) multidocumento em Portugues do Brasil gerados por sistemas que apresentam diferentes abordagens (isto e, superficial e profunda) e desempenho (isto e, metodos baseline e do estado-da-arte). Para tanto, as principais caracterizacoes dos problemas linguisticos em sumarios automaticos foram investigadas, resultando em uma tipologia mais adequada a sumarizacao multidocumento. Em seguida, anotou-se manualmente um corpus de extratos com base na tipologia, evidenciando que alguns tipos de problemas sao significativamente mais recorrentes que outros. Assim, essa anotacao gera subsidios para as tarefas automaticas de deteccao e correcao de problemas linguisticos com vistas a producao de sumarios automaticos nao so mais informativos (isto e, que cobrem o conteudo do material de origem), como tambem linguisticamente bem-estruturados. Palavras-chave: sumarizacao automatica; sumario multidocumento; problema linguistico; anotacao de corpus .","PeriodicalId":42188,"journal":{"name":"Revista de Estudos da Linguagem","volume":"29 1","pages":"859-907"},"PeriodicalIF":0.2000,"publicationDate":"2021-03-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Revista de Estudos da Linguagem","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.17851/2237-2083.29.2.859-907","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"0","JCRName":"LANGUAGE & LINGUISTICS","Score":null,"Total":0}
引用次数: 0
Abstract
Abstract: Automatic summaries commonly present diverse linguistic problems that affect textual quality and thus their understanding by users. Few studies have tried to characterize such problems and their relation with the performance of the summarization systems. In this paper, we investigated the problems in multi-document extracts (i.e., summaries produced by concatenating several sentences taken exactly as they appear in the source texts) generated by systems for Brazilian Portuguese that have different approaches (i.e., superficial and deep) and performances (i.e., baseline and state-of-the art methods). For that, we first reviewed the main characterization studies, resulting in a typology of linguistic problems more suitable for multi-document summarization. Then, we manually annotated a corpus of automatic multi-document extracts in Portuguese based on the typology, which showed that some of linguistic problems are significantly more recurrent than others. Thus, this corpus annotation may support research on linguistic problems detection and correction for summary improvement, allowing the production of automatic summaries that are not only informative (i.e., they convey the content of the source material), but also linguistically well structured. Keywords: automatic summarization; multi-document summary; linguistic problem; corpus annotation. Resumo: Sumarios automaticos geralmente apresentam varios problemas linguisticos que afetam a sua qualidade textual e, consequentemente, sua compreensao pelos usuarios. Alguns trabalhos caracterizam tais problemas e os relacionam ao desempenho dos sistemas de sumarizacao. Neste artigo, investigaram-se os problemas em extratos (isto e, sumarios produzidos pela concatenacao de sentencas extraidas na integra dos textos-fonte) multidocumento em Portugues do Brasil gerados por sistemas que apresentam diferentes abordagens (isto e, superficial e profunda) e desempenho (isto e, metodos baseline e do estado-da-arte). Para tanto, as principais caracterizacoes dos problemas linguisticos em sumarios automaticos foram investigadas, resultando em uma tipologia mais adequada a sumarizacao multidocumento. Em seguida, anotou-se manualmente um corpus de extratos com base na tipologia, evidenciando que alguns tipos de problemas sao significativamente mais recorrentes que outros. Assim, essa anotacao gera subsidios para as tarefas automaticas de deteccao e correcao de problemas linguisticos com vistas a producao de sumarios automaticos nao so mais informativos (isto e, que cobrem o conteudo do material de origem), como tambem linguisticamente bem-estruturados. Palavras-chave: sumarizacao automatica; sumario multidocumento; problema linguistico; anotacao de corpus .