{"title":"Influence of Membership Functions on Classification of Multi-Dimensional Data","authors":"Madara Gasparovica, Irena Tuleiko, L. Aleksejeva","doi":"10.2478/v10143-011-0046-x","DOIUrl":null,"url":null,"abstract":"Influence of Membership Functions on Classification of Multi-Dimensional Data The aim of this study is to explore whether the number of intervals for each attribute influences the classification result and whether a larger number of intervals provide better classification accuracy using the Fuzzy PRISM algorithm. The feature selection has been carried out using Fast correlation-based filter solution, and then the decreased data sets have been applied in experiments with preferences used in the previous experiment series. The article also provides conclusions about the obtained classification results and analyzes criteria of certain experiments and their impact on the final result. Also a series of experiments was carried out to assess how and whether the classification result is influenced by categorization of continuous data, which is one of the membership function construction steps; Fuzzy unordered rule induction algorithm was used. The experiments have been carried out using four real data sets - Golub leukemia, Singh prostate, as well as Gastric cancer and leukemia donor data sets of the Latvian Biomedical Research and Study Center. Piederības funkciju ietekme daudzatribūtu datu klasifikācijā Šajā rakstā pētīts tas, vai katra atribūta intervālu skaits ietekmē klasifikācijas rezultātu, kā arī tas, vai lielāks intervālu skaits nodrošina arī labāku klasifikācijas rezultātu. Eksperimentu veikšanai izmantots FuzzyPRISM algoritms. Eksperimentos izmantotas četras reālas datu kopas - Golub leukemia, Singh prostate, Leukemia II un Latvijas biomedicīnas pētījumu un studiju centra kuņga vēža pacientu un veselo pacientu datu kopas. Visām datu kopām ir ļoti liels atribūtu skaits (līdz pat 10 000 atribūtu) un salīdzinoši neliels ierakstu skaits. Pirmajā sērijā, kurā bija divpadsmit eksperimenti, netika veikta atribūtu atlase. Nākamajā sērijā veikta atribūtu atlase, izmantojot Fast Correlation Based Filter risinājumu, un atkārtoti eksperimenti ar iepriekšējā eksperimentu sērijā izmantotajiem uzstādījumiem. Var secināt, ka vairāk likumu iegūts atribūtu atlases eksperimentos. Papildus trim eksperimentiem apmācības kopā veikta atribūtu atlase, izmantojot Fast Correlation Based Filter ar desmitkārtīgo šķērsvalidāciju, lai pārliecinātos, par to kā šķērsvalidācija ietekmē gala rezultātu. Izdarīti secinājumi par iegūtajiem klasifikācijas rezultātiem, kā arī analizēti atsevišķi eksperimentu parametri un to ietekme uz gala rezultātu. Izmantojot algoritmu FURIA, veikta arī eksperimentu sērija, lai noskaidrotu kā un vai klasifikācijas rezultātu ietekmē skaitlisku datu pārveidošana par kategoriskiem, kas ir viens no piederības funkciju konstruēšanas soļiem. Salīdzinot klasifikācijas rezultātus, tika secināts, ka visaugstākos rezultātus uzrāda eksperimenti ar originālo datu kopu ar nepārtrauktām atribūtu vērtībām, tomēr iegūtie klasifikācijas rezultāti, sākot ar dalījumu 10 intervālos, tuvojas pilno datu kopu rezultātiem. Tāpēc izvēloties, cik intervālos dalīt atribūta vērtību, jābūt skaidrībai, kas ir galvenais - klasifikācijas precizitāte, interpretējamība vai skaitļošanas ilgums. Влияние функций принадлежности на классификацию данных со многими атрибутами Статья посвящена исследованию следующих вопросов: влияет ли число интервалов определения каждого атрибута на результат классификации, обеспечивает ли увеличение числа интервалов улучшение результата классификации. Для проведения экспериментов использован алгоритм FuzzyPRISM. В экспериментах использованы четыре реальных множества данных Golub leukemia, Singh prostate, Leukemia II и множество данных о здоровых и больных раком желудка пациентах Латвийского центра биомедицины. Для всех множеств данных характерно очень большое число атрибутов (до 10 000) и сравнительно небольшое число записей. В первой серии из двенадцати экспериментов отбор атрибутов не проводился. В следующей серии отбор атрибутов проводился с использованием алгоритма Fast Correlation Based Filter, и далее повторялись эксперименты с установками, используемыми в экспериментах предыдущей серии. Можно заключить, что больше правил получено в экспериментах, основанных на отборе атрибутов. Дополнительно в трех экспериментах на обучающем множестве производился отбор атрибутов по алгоритму Fast Correlation Based Filter, а также использовалась 10кратная кроссвалидация (для проверки ее влияния на конечный результат). Сделаны выводы о полученных результатах классификации, проанализированы параметры отдельных экспериментов и их влияние на конечный результат. С использованием алгоритма Fuzzy Unordered Rule Induction Algorithm проведена также серия экспериментов, позволяющая выяснить влияние преобразования численных данных в категорические (что является одним из этапов конструирования функций принадлежности) на результат классификации. Сравнивая результаты классификации, можно заключить, что наилучшие результаты получены в экспериментах с полным оригинальным множеством данных, которое характеризуется непрерывными оценками атрибутов; однако, начиная с деления оценок атрибутов на 10 интервалов, полученные результаты классификации приближаются к результатам на полном множестве данных. Поэтому при выборе числа интервалов, на которые нужно делить оценки атрибутов, целесообразно выяснить, что важнее точность классификации, интерпретация результатов или продолжительность расчетов.","PeriodicalId":211660,"journal":{"name":"Sci. J. Riga Tech. Univ. Ser. Comput. Sci.","volume":"104 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"1900-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"2","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Sci. J. Riga Tech. Univ. Ser. Comput. Sci.","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.2478/v10143-011-0046-x","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 2
Abstract
Influence of Membership Functions on Classification of Multi-Dimensional Data The aim of this study is to explore whether the number of intervals for each attribute influences the classification result and whether a larger number of intervals provide better classification accuracy using the Fuzzy PRISM algorithm. The feature selection has been carried out using Fast correlation-based filter solution, and then the decreased data sets have been applied in experiments with preferences used in the previous experiment series. The article also provides conclusions about the obtained classification results and analyzes criteria of certain experiments and their impact on the final result. Also a series of experiments was carried out to assess how and whether the classification result is influenced by categorization of continuous data, which is one of the membership function construction steps; Fuzzy unordered rule induction algorithm was used. The experiments have been carried out using four real data sets - Golub leukemia, Singh prostate, as well as Gastric cancer and leukemia donor data sets of the Latvian Biomedical Research and Study Center. Piederības funkciju ietekme daudzatribūtu datu klasifikācijā Šajā rakstā pētīts tas, vai katra atribūta intervālu skaits ietekmē klasifikācijas rezultātu, kā arī tas, vai lielāks intervālu skaits nodrošina arī labāku klasifikācijas rezultātu. Eksperimentu veikšanai izmantots FuzzyPRISM algoritms. Eksperimentos izmantotas četras reālas datu kopas - Golub leukemia, Singh prostate, Leukemia II un Latvijas biomedicīnas pētījumu un studiju centra kuņga vēža pacientu un veselo pacientu datu kopas. Visām datu kopām ir ļoti liels atribūtu skaits (līdz pat 10 000 atribūtu) un salīdzinoši neliels ierakstu skaits. Pirmajā sērijā, kurā bija divpadsmit eksperimenti, netika veikta atribūtu atlase. Nākamajā sērijā veikta atribūtu atlase, izmantojot Fast Correlation Based Filter risinājumu, un atkārtoti eksperimenti ar iepriekšējā eksperimentu sērijā izmantotajiem uzstādījumiem. Var secināt, ka vairāk likumu iegūts atribūtu atlases eksperimentos. Papildus trim eksperimentiem apmācības kopā veikta atribūtu atlase, izmantojot Fast Correlation Based Filter ar desmitkārtīgo šķērsvalidāciju, lai pārliecinātos, par to kā šķērsvalidācija ietekmē gala rezultātu. Izdarīti secinājumi par iegūtajiem klasifikācijas rezultātiem, kā arī analizēti atsevišķi eksperimentu parametri un to ietekme uz gala rezultātu. Izmantojot algoritmu FURIA, veikta arī eksperimentu sērija, lai noskaidrotu kā un vai klasifikācijas rezultātu ietekmē skaitlisku datu pārveidošana par kategoriskiem, kas ir viens no piederības funkciju konstruēšanas soļiem. Salīdzinot klasifikācijas rezultātus, tika secināts, ka visaugstākos rezultātus uzrāda eksperimenti ar originālo datu kopu ar nepārtrauktām atribūtu vērtībām, tomēr iegūtie klasifikācijas rezultāti, sākot ar dalījumu 10 intervālos, tuvojas pilno datu kopu rezultātiem. Tāpēc izvēloties, cik intervālos dalīt atribūta vērtību, jābūt skaidrībai, kas ir galvenais - klasifikācijas precizitāte, interpretējamība vai skaitļošanas ilgums. Влияние функций принадлежности на классификацию данных со многими атрибутами Статья посвящена исследованию следующих вопросов: влияет ли число интервалов определения каждого атрибута на результат классификации, обеспечивает ли увеличение числа интервалов улучшение результата классификации. Для проведения экспериментов использован алгоритм FuzzyPRISM. В экспериментах использованы четыре реальных множества данных Golub leukemia, Singh prostate, Leukemia II и множество данных о здоровых и больных раком желудка пациентах Латвийского центра биомедицины. Для всех множеств данных характерно очень большое число атрибутов (до 10 000) и сравнительно небольшое число записей. В первой серии из двенадцати экспериментов отбор атрибутов не проводился. В следующей серии отбор атрибутов проводился с использованием алгоритма Fast Correlation Based Filter, и далее повторялись эксперименты с установками, используемыми в экспериментах предыдущей серии. Можно заключить, что больше правил получено в экспериментах, основанных на отборе атрибутов. Дополнительно в трех экспериментах на обучающем множестве производился отбор атрибутов по алгоритму Fast Correlation Based Filter, а также использовалась 10кратная кроссвалидация (для проверки ее влияния на конечный результат). Сделаны выводы о полученных результатах классификации, проанализированы параметры отдельных экспериментов и их влияние на конечный результат. С использованием алгоритма Fuzzy Unordered Rule Induction Algorithm проведена также серия экспериментов, позволяющая выяснить влияние преобразования численных данных в категорические (что является одним из этапов конструирования функций принадлежности) на результат классификации. Сравнивая результаты классификации, можно заключить, что наилучшие результаты получены в экспериментах с полным оригинальным множеством данных, которое характеризуется непрерывными оценками атрибутов; однако, начиная с деления оценок атрибутов на 10 интервалов, полученные результаты классификации приближаются к результатам на полном множестве данных. Поэтому при выборе числа интервалов, на которые нужно делить оценки атрибутов, целесообразно выяснить, что важнее точность классификации, интерпретация результатов или продолжительность расчетов.
隶属函数对多维数据分类的影响本研究的目的是探讨每个属性的间隔数是否会影响分类结果,以及使用Fuzzy PRISM算法时,更大的间隔数是否能提供更好的分类精度。使用基于Fast相关的滤波方案进行特征选择,然后使用先前实验系列中使用的偏好将减少的数据集应用于实验中。文章还对得到的分类结果进行了总结,并分析了某些实验的判定标准及其对最终结果的影响。并进行了一系列实验,以评估连续数据的分类对分类结果的影响,以及分类结果是否受到分类结果的影响,这是隶属函数构造的步骤之一;采用模糊无序规则归纳算法。这些实验使用了拉脱维亚生物医学研究中心的四个真实数据集——Golub白血病、Singh前列腺癌以及胃癌和白血病供体数据集进行。pieder<e:1> bas funkciju ietekme daudzatribūtu datu klasifikācijā Šajā rakstae pētīts tas, vai katra atribūta intervālu skaits ietekm æ klasifikācijas rezultātu, kai ari æ tas, vai lielāks intervālu skaits nodrošina ari æ labāku klasifikācijas rezultātu。ekexperimentu veikšanai izmantots FuzzyPRISM算法。Eksperimentos izmantotas <e:1> etras reālas datu kopas - Golub白血病,Singh前列腺,白血病II,拉脱维亚生物医学研究中心pētījumu unstudiju centra kuņga vēža pacientu unveselo pacientu datu kopas。Visām datu kopām ir ļoti liels atribūtu skaits (līdz pat 10000 atribūtu) un salīdzinoši neliels ierakstu skaits。pirmaji ā sērijā, kuri ā bija divpadsmit eksperimenti, netika veikta atribūtu atlase。Nākamajā sērijā veikta atribūtu atlase, izmantojot快速相关过滤器risinājumu, un atkārtoti eksperimenti ar iepriekšējā eksperimentu sērijā izmantotajem uzstādījumiem。Var secināt, ka vairāk likumu iegūts atribūtu实验地图集。Papildus trim eksperimentiem apmācības kopi ā veikta atribūtu atlase, izmantojot基于快速相关的过滤器ar desmitkārtīgo šķērsvalidāciju, lai pārliecinātos, par to ki ā šķērsvalidācija ietek ā gala rezultātu。Izdarīti secinājumi par iegūtajiem klasifikācijas rezultātiem, kā ar ā analizēti atsevišķi ekperientu参数运行到ietekme uz gala rezultātu。Izmantojot算法FURIA, veikta arkiksperimentu sērija, lai noskaidrotu kkaitlisku datu pārveidošana par categororiskiem, kas ir viens no pieder<e:1> has funkciju konstruēšanas soļiem。萨尔īdzinot klasifikā比赛rezultā、tika secināts, ka visaugstākos rezultā摘要uzrāda eksperimenti ar起源ālo酋长kopu ar nepārtrauktām这位ū涂vērtībām,汤姆ēr iegū领带klasifikā比赛rezultāti,年代ā科特ar dalī时候10间歇雨刷ā洛杉矶,tuvojas pilno酋长kopu rezultā下面。Tāpēc izvēloties, cik intervālos dalicalt atribūta vērtību, jābūt skaidricalbai, kas ir galvenais - klasifikācijas precizitāte, interpretējamība vai skaitļošanas ilinguks。ВлияниефункцийпринадлежностинаклассификациюданныхсомногимиатрибутамиСтатьяпосвященаисследованиюследующихвопросов:влияетличислоинтерваловопределениякаждогоатрибутанарезультатклассификации,обеспечиваетлиувеличениечислаинтерваловулучшениерезультатаклассификации。ДляпроведенияэкспериментовиспользованалгоритмFuzzyPRISM。ВэкспериментахиспользованычетыререальныхмножестваданныхGolub白血病,辛格前列腺癌、白血病IIимножестводанныхоздоровыхибольныхракомжелудкапациентахЛатвийскогоцентрабиомедицины。Длявсехмножествданныххарактернооченьбольшоечислоатрибутов(до10 000)исравнительнонебольшоечислозаписей。Впервойсериииздвенадцатиэкспериментовотборатрибутовнепроводился。Вследующейсерииотборатрибутовпроводилсясиспользованиемалгоритма快速相关滤波器为基础,идалееповторялисьэкспериментысустановками,используемымивэкспериментахпредыдущейсерии。Можнозаключить,чтобольшеправилполученовэкспериментах,основанныхнаотбореатрибутов。Дополнительновтрехэкспериментахнаобучающеммножествепроизводилсяотборатрибутовпоалгоритму快速相关滤波器为基础,атакжеиспользовалась10кратнаякроссвалидация(дляпроверкиеевлияниянаконечныйрезультат)。Сделанывыводыополученныхрезультатахклассификации,проанализированыпараметрыотдельныхэкспериментовиихвлияниенаконечныйрезультат。Сиспользованиемалгоритмпа模糊无序规则归纳算法роведенатакжесерияэкспериментов,позволяющаявыяснитьвлияниепреобразованиячисленныхданныхвкатегорические(чтоявляетсяоднимизэтаповконструированияфункцийпринадлежности)нарезультатклассификации。 比较分类的结果,可以得出最好的结果是在具有完整原始数据集的实验中,这些数据具有连续的属性评价;然而,从将属性的值除以10间隔开始,分类的结果接近于完整的数据集的结果。因此,在选择分配属性评价的间隔数时,重要的是要弄清楚分类的准确性、解释结果或计算的持续时间。