专利内容由知识产权出版社提供
专利名称:基于词聚类的低频关键词识别方法专利类型:发明专利发明人:陈艳平,刘莎,黄瑞章申请号:CN201711228193.6申请日:20171129公开号:CN108038099A公开日:20180515
摘要:本发明公开了一种基于词聚类的低频关键词识别方法。本发明提出了3个创新点:(1)提出一种区别于传统方法的低频关键词词识别方法,该方法利用关键词的语义结构信息进行识别,能有效缓解低频关键词识别中上下文特征稀疏的问题。(2)提出一种基于词聚类的关键词语义结构生成方法,该方法利用词聚类后的词类标签替换候选关键词,然后选择出现次数多的标签模式作为语义结构。(3)针对相同语义结构下的低频关键词,提出一种面向低频关键词的排序方法,该方法利用文档信息对低频词进行排序。因此,本发明以网页自设置的关键词进行匹配,不需要训练数据,也不需要进行样本学习,脱离了网站结构的,具有较好的通用性。
申请人:贵州大学
地址:550025 贵州省贵阳市花溪区贵州大学北校区科学技术处
国籍:CN
代理机构:贵阳中新专利商标事务所
更多信息请下载全文后查看