一、内容相似度
这是搜索引擎的去重机制,常用的是 TF/IDF 算法,如果某个词或者短句在一篇文章中出现的频率高,并且在其它文章中少,就认为这个词或短句可以用来分类。TF 词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。IDF 反文档频率(Inverse Document Frequency)指的是:如果包含词条的文档越少,IDF 越大,则说明词条具有很好的类别区分能力。当一篇文章根据 TF/IDF 进行计算,形成一个多维的向量,当两篇文章的特征向量趋于一致的时候,就会被认为是内容接近,如果一致说明重复的文章。
二、数据指纹
数据指纹判定有很多种算法,常见的提取有文章的标点符号进行对比。
三、代码噪音
搜索引擎会通过对代码的布局和噪音比例进行区分,忽略一些典型的代码,找到哪些是栏目,哪些是正文。我们设计网页的时候,要对整页降噪,正文区域适当加噪。