模式识别与人工智能
主办单位:中国科学技术协会
国际刊号:1003-6059
国内刊号:34-1089/TP
学术数据库优秀期刊 《中文科技期刊数据库》来源期刊
       首 页   |   期刊介绍   |   新闻公告   |   征稿要求   |   期刊订阅   |   留言板   |   联系我们   
  本站业务
  在线期刊
      最新录用
      期刊简明目录
      本刊论文精选
      过刊浏览
      论文下载排行
      论文点击排行
      
 

访问统计

访问总数:22769 人次
 
    本刊论文
基于自然计算的模式识别在微信息识别中的应用

摘 要:随着微信息应用的发展,产生了对微信息分类识别的强烈需求。在自然算法中选择人工免疫系统算法,应用于微信息识别领域。针对微信息系统本身的一些特点,提出了适应这些特点的人工免疫算法。实验结果表明,基于人工免疫的微信息识别方法具有较低的错误否定率和错误肯定率。 
中国论文网 http://www.xzbu.com/8/view-6481660.htm
  关键词:人工免疫;微信息;文本分类识别;匹配算法;检测器生成 
  中图分类号:TP181 
  自然计算(Nature Inspired Computation)具有模仿自然界的特点,通常是一类具有自适应、自组织、自学习能力的模型与算法,能够解决传统计算方法难于解决的各种复杂问题。人工免疫系统是受生物免疫学启发,模拟生物体免疫系统功能、原理和模型来解决复杂问题的自适应系统。[1]微信息是即时传播的小容量文本信息。微信息既有传统的短信,又有随互联网发展而产生的twitter、iMessage、微博、微信、陌陌等社交工具产生的简短信息,按照ETIS的标准,最大字符数不超过140个字符[2],信息容量小,易于快速传播。人工免疫系统可用于微信息的识别上,能够适应微信息待识别类型的变化,保持极高的识别率。 
  1 仿生学定义对照、识别算法 
  生物体中,基因是指携带有遗传信息的DNA序列,是生物体蛋白质的决定信息,入侵生物体的病毒、细菌均由蛋白质组成,这些特异性蛋白是进行自体/非自体识别的依据。在微信息识别中,特异性蛋白可以等同于待分类微信息所包含的字或词;抗原是指待识别的这类微信息;抗体是指能与抗原能够匹配的检测器的集合,用来检测微信息是否为待归类信息。生物体中的自体对应微信息识别是指正常非待归类微信息。根据对应关系,定义: 
  特异性蛋白集合:P={P1,P2,…Pn}; m,Pn Agm 
  抗原集合Ag={Ag1,Ag2,…Agn}; 
  抗体集合Ab={Ab1,Ab2,…Abn}; 
  自体集合B={B1,B2,…Bn} 
  2 抗原蛋白质库的组成 
  首先进原始微信息进行分类,并从分类的微信息中提取出特异性的蛋白,每一个这样的蛋白都是检测器,即抗原蛋白质库。 
  特异性蛋白的提呈:对已经人工判定为垃圾信息的微信息进行字元提取工作,得到原始的抗原蛋白库:P={P1,P2,….Pn}。 
  3 生成检测器库 
  由微信息的字元数量比较小,决定检测器的长度使用固定值,用随机使用字元的方法生成检测器集合。 
  检测器生成算法有多种,效率各有优劣,这里使用骨髓模型[3],设检测器的字元数量为Np,使用随机函数从检测器集合中随机选择。在不同的应用环境中,Np的取值有所不同,Np的值的大小与检测器生成算法的复杂度有很大的关系,数值过大,检测器生成算法时间复杂度高,检测效率亦高,反之生成算法时间复杂度降低,但检测效率亦相应降低,因此需要选择合适的值。根据应用中抗原的特点,Np的取值设定为6。 
  检测器的数量应该保持在较小的范围,但又不能影响到错误否定率、错误肯定率。有学者提出初始检测器与自体集合的大小是成指数关系的: 
  [4] 
  衡量匹配程序的值是Pm,衡量错误否定率的值是Pf,开始时,检测器的数量为NR0,自身的集合用NS来表示。此外,检测器的数量还要考虑实际因素进行调整。 
  检测器生成后,需要进行自体耐受算法检验,保证不将正常微信息识别为待分类微信息,经过耐受算法检验的检测器才能成熟为抗体。 
  4 微信息的识别 
  对于待检测微信息,应用亲和力计算公式对检测器集合中的元素逐一计算,当一个检测器与微信息的亲和力达到一定程度时,这个程度通常由匹配阀值Pf来决定,将该微信息归类于已匹配信息,同时该微信息将作为下一轮特异性蛋白质选择时的候选对象。如微信息被匹配,则检测器的生命周期值Tg变为0,如微信息未匹配检测器,这个检测器的Tg值则减去1,直到该值为零,则将该检测器从集合中除去。因此,检测器集合中的元素数量始终保持在适度内。 
  在微信息识别应用中,根据生物体免疫系统二次应答的这种特性,使用匹配公式Affinity()对抗原与检测器进行计算,衡量它们的匹配值,并根据该值进行排列,该算法的效率较高。 
  算法的实际应用表明,该算法具有较高的准确度和效率。 
  5 抗体库更新 
  随着系统的运行,抗原的数量会不断扩充,抗体库必须具有淘汰无用抗体,集成新抗体的能力才能保持较高的识别率。 
  当新的抗原的增加达到一定的数量时,有必要在将抗原的变化反应到特异性蛋白质集合中。按照提取时的算法,对新抗原进行特异性蛋白提呈,提呈的结果将被补充到蛋白集合P中。然后按照随机原则生成一定数量的新检测器,使用成熟算法对新检测器进行训练,使得检测器集合维持动态更新的状态。 
  5.1 降低错误肯定率、错误否定率。检测器的覆盖集合超出待分类微信息集合时,发生错误肯定。对于此类检测器,否认是否能与其它正确对象匹配,均就进行删除操作。 
  5.2 检测器集合中的所有对象均不能正确检出目标微信息时,发生错误否定,有两种方法能够处理:一是加大检测器集合数量,以系统运行效率来换取系统的正确率。二是实施人工干预,重新将被错误否定的微信息人工添加到已分类微信息集合中,称之为人工协同刺激。 
  5.3 人工协同刺激。当错误否定发生时,手工在已分类微信息集合中加入目标微信息,并单独对加入的新微信息进行基因提呈,由提呈产生的基因集合为元素,以随机原则生成若干数量的检测器,再依上述步骤重新进行检测器的自体耐受的成熟训练,生成准确的检测器并加入检测器集合中。这些检测器对于这类的微信息及类似的待分类微信息具有极高的亲和力。 
  算法的实际应用表明,该算法具有较高的准确度和效率。 
  参考文献: 
  [1]Dasgupta D,Attoh―Okine N.Immunity based systems:A survey:IEEE International Conference on Systems,Man,and Cybernetics[C].Orlando,Florida,1997:369-374. 
  [2]ETIS.ETS90301 Digital cellular telecommunications system(Phase 2+).Technical realization of the Short Message Service (SMS);Point-to-Point(PP)[S].Sophia Antipolice:European Telecommunications Standards Institute,1998. 
  [3]李涛.计算机免疫学[M].北京:电子工业出版社,2004:44+47. 
  [4]R J De Boer,A S Perelson.How diverse should the immune system be?:Proceedings of the royal Society London B, v. [C].London,S.N.,1993:252. 
  作者简介:李倩(1978-),女,讲师,本科,研究方向:人工智能、汽车电子;徐佳(1976-),男,副教授,硕士研究生,研究方向:人工智能、计算机网络;章丽芳(1975-),女,讲师,硕士研究生,研究方向:人工智能。 
  作者单位:浙江汽车职业技术学院,浙江台州 317000;浙江广播电视大学临海学院,浙江台州 317000

特别说明:本站仅协助已授权的杂志社进行在线杂志订阅,非《模式识别与人工智能》杂志官网,直投的朋友请联系杂志社。
版权所有 © 2009-2024《模式识别与人工智能》编辑部  (权威发表网)   苏ICP备20026650号-8