{"title":"Text Mining Method in the Field of Health","authors":"S. Toplu, Ş. Cangür","doi":"10.18521/ktd.700789","DOIUrl":null,"url":null,"abstract":"Amac: Metinsel verileri sayisal hale getirerek veri madenciligi algoritmalarina uygulanmasini saglayan metin madenciligi, gunumuz dunyasinda onemli bir yere sahiptir. Bu calismanin amaci, metin madenciligi yontemini tanitmak ve saglik alaninda belirlenen bir konuda uygulamasini gostermektir. Gerec ve Yontem: Calismanin uygulama asamasinda; insan-ve-kanser” ve fare- ve-kanser” seklinde belirlenen iki farkli konu basligi altinda en sik kullanilan Pubmed veritabanindan ayri ayri elde edilen dokumanlara ve daha sonra birlestirilmis dokumanlara Knime programi araciligiyla metin madenciligi yontemi uygulanmis ve K nearest neighbor (K-NN) algoritmasi kullanilarak dokuman siniflamasi yapilmistir. Bulgular: Etiket bulut grafiklerinde one cikan kelimeler “cell” (hucre) ve “cancer” (kanser) kelimeleridir. Her iki dokumanda frekans degeri yuksek cikan “cell”, “cancer”, “tumor”, “patient” gibi kelimelerin veriler birlestirildikten sonra yapilan analizde de yuksek oranla ciktigi gozlenmistir. 600 adet test dokumaninin 255 tanesi insan-ve-kanser sinifina, geri kalaninin ise fare-ve-kanser sinifina ait olduklari; F olcutune gore insan-ve-kanser dokumanlari icin %56,6’lik, fare-ve-kanser dokumanlari icin ise %62,6’lik dogru siniflandirilma yuzdesi tespit edilmistir. K-NN algoritmasi ile %59,8 oraninda kismen basarili bir dokuman siniflama tahmini yapildigi ancak Cohen kappa degerinin %19,7 oldugu ve bu uyumun zayif duzeyde oldugu belirlenmistir. Sonuc: Dijital ve basili dokumanlarin sayisinin oldukca fazla oldugu saglik alaninda hizli ve guvenilir bir sekilde bilgi elde edebilmek icin metin madenciligi yonteminden yararlanilmasi ve kullaniminin yayginlastirilmasi onerilmektedir.","PeriodicalId":17884,"journal":{"name":"Konuralp Tip Dergisi","volume":"12 1","pages":"236-246"},"PeriodicalIF":0.3000,"publicationDate":"2020-06-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"1","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Konuralp Tip Dergisi","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.18521/ktd.700789","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q3","JCRName":"MEDICINE, GENERAL & INTERNAL","Score":null,"Total":0}
引用次数: 1
Abstract
Amac: Metinsel verileri sayisal hale getirerek veri madenciligi algoritmalarina uygulanmasini saglayan metin madenciligi, gunumuz dunyasinda onemli bir yere sahiptir. Bu calismanin amaci, metin madenciligi yontemini tanitmak ve saglik alaninda belirlenen bir konuda uygulamasini gostermektir. Gerec ve Yontem: Calismanin uygulama asamasinda; insan-ve-kanser” ve fare- ve-kanser” seklinde belirlenen iki farkli konu basligi altinda en sik kullanilan Pubmed veritabanindan ayri ayri elde edilen dokumanlara ve daha sonra birlestirilmis dokumanlara Knime programi araciligiyla metin madenciligi yontemi uygulanmis ve K nearest neighbor (K-NN) algoritmasi kullanilarak dokuman siniflamasi yapilmistir. Bulgular: Etiket bulut grafiklerinde one cikan kelimeler “cell” (hucre) ve “cancer” (kanser) kelimeleridir. Her iki dokumanda frekans degeri yuksek cikan “cell”, “cancer”, “tumor”, “patient” gibi kelimelerin veriler birlestirildikten sonra yapilan analizde de yuksek oranla ciktigi gozlenmistir. 600 adet test dokumaninin 255 tanesi insan-ve-kanser sinifina, geri kalaninin ise fare-ve-kanser sinifina ait olduklari; F olcutune gore insan-ve-kanser dokumanlari icin %56,6’lik, fare-ve-kanser dokumanlari icin ise %62,6’lik dogru siniflandirilma yuzdesi tespit edilmistir. K-NN algoritmasi ile %59,8 oraninda kismen basarili bir dokuman siniflama tahmini yapildigi ancak Cohen kappa degerinin %19,7 oldugu ve bu uyumun zayif duzeyde oldugu belirlenmistir. Sonuc: Dijital ve basili dokumanlarin sayisinin oldukca fazla oldugu saglik alaninda hizli ve guvenilir bir sekilde bilgi elde edebilmek icin metin madenciligi yonteminden yararlanilmasi ve kullaniminin yayginlastirilmasi onerilmektedir.
Amac:在我国,阻止数据挖掘算法应用计算纺织品数据的文本挖掘包含一个小数位。这种钙的用途决定了文本的完整性和在健康领域的应用。Gerec和Yontem:在Calisman的主要应用中;在“ve fare-ve kanser”seklinde belirlenen iki farkli konu basligi altinda en sik kullanilan Pubmed veritabanin和ayri ayri elde edilen dokumanlara ve daha sonra birlestirilmis dokumanara Knime programi araciligiyla metin madenciligi yontemi vigulanmis ve K最近邻(K-NN)算法的基础上。项目符号:在云图形中,一个小单词是“细胞”(hucre)和“癌症”(癌症)。在这两份文件中,高血细胞、癌症、肿瘤、患者的频率下降,以及在收集数据后产生的高血液率分析。600份检测文件有255个人类和癌症分类,其余属于小鼠和癌症分类;在F中,检测到56.6%的人类和癌症文件,同时检测到62.6%的正确同步率。K-NN算法预测的负面文档类别为59.8%,但Cohen是Kappa退化的19.7%,这被发现是弱的。因此,数字和基础文档在卫生领域的数量要高效和可靠得多,可以获得有关文本挖掘内容的信息并得到广泛使用。