Web文本挖掘技术在新闻主题检测中的应用研究

Web文本挖掘技术在新闻主题检测中的应用研究

Web文本挖掘技术在新闻主题检测中的应用研究

Web文本挖掘技术在新闻主题检测中的应用研究

王志明1,2,沙 莎1

(1 中南大学信息科学与工程学院,湖南长沙 410083;

2 怀化职业技术学院,湖南怀化 418000)

*

摘 要:随着Internet的大规模普及,互联网成为人们获取新闻的主要来源.如何从动态的海量网络信息中自动发现突发事件的新闻流主题,并跟踪突发事件的相关信息,从技术上实现对新闻专题进行组织和生成,对新闻事件进行探测与跟踪,一直是技术上的一个难题.Web文本挖掘的概念及关键技术,对其在新闻主题检测与主题追踪中的应用进行了一些探索性的工作.

关键词:Web文本挖掘;新闻主题;特征提取;主题检测与追踪

中图分类号:TP391 文献标识码:A 文章编号:1008 4681(2007)09 0058 03

2 3 1 文本表示

文本表示,指文本在机器中的表示方法,当前文本检索TR(TextRetrieval)应用中最主要的有3个模型:布尔模型、概率模型、向量空间模型.布尔模型是一种严格匹配模型.假定有一个文档集,对于一个特定的文档d,Wj是其相应的特征项,即d={W1,W2,W3, ,Wn}.在布尔模型中,若该特征项在文

档中出现,则特征值为1;反之,若该特征项在文档中没有出现,则特征值为0.而向量空间模型的对特征项权重的计算方法主要运用公式(1)[4].W(t,d)=

t d

1 引言

近年来随着Internet的大规模普及,互联网已成为人们获取新闻的主要来源.如何从异构、动态的海量网络信息中自动发现突发事件的新闻流主题,

并跟踪突发事件的相关信息,从技术上实现对新闻专题进行组织和生成,对新闻事件进行探测与跟踪,一直是困扰技术上的一个难题,Web文本挖掘技术是解决这一问题的方向

[1]

.

2 Web文本挖掘概述

2 1 文本挖掘概念

Web文本挖掘是采用计算语言学的原理对Web文本信息进行抽取的研究和实践,Web文本挖掘可以对文档集合的内容进行总结、分类、聚类、关联分析以及趋势预测等.Web文本挖掘和通常的平面文本挖掘有类似之处,但是Web文档中的标记给文档提供了额外的信息,可以借此提高Web文本挖掘的性能

[2]

[tf(t,d)

logN/nt+0 01)]

2

(1)

其中:W(t,d)指词t在文本d中的权重;tf(t,d)是指词t在文本d中的词频;N是指训练文本的总数;nt是指训练文本集中出现t的文本数;分母为归一化因子.

2 3 2 特征抽取

.

2 2 Web文本挖掘的过程

Web文本挖掘的过程包括文档收集、建立特征集、缩减特征集、提取知识模式、评价模型质量和输

[3]

出知识模型.

2 3 Web文本挖掘关键技术

特征提取是文本聚类中的一个比较关键的问题,它具有降低空间维数、简化计算、防止过分拟合等作用.目前存在多种筛选特征项的算法,如词频选择特征(词频统计);也可通过特征评价函数来进行特征抽取.即根据某个特征评分函数计算各个特征的评分,然后按评分值排序,选取若干个评分最高的

*

收稿日期:2007 07 10;修回日期:2007 08 31

基金项目:湖南省自然科学基金(批准号:05JJ40101);湖南省教育厅科学研究基金(批准号:05D027)资助项目.),男,,...

Word文档免费下载Word文档免费下载:Web文本挖掘技术在新闻主题检测中的应用研究 (共3页,当前第1页)

你可能喜欢

  • 跟踪技术
  • 文本特征提取方法
  • 网络数据挖掘
  • 信息挖掘
  • 语义分析
  • 数据挖掘研究现状
  • 云计算学习
  • 生物医学

Web文本挖掘技术在新闻主题检测中的应用研究相关文档

最新文档

返回顶部