文章相似度檢測工具(文章相似度檢測工具免費)

時間:2023-01-13 14:22:21 閱讀:132

原標題:文章相似度檢測工具(文章相似度檢測工具免費)

  文章相似度檢測工具(文章相似度檢測工具免費)

文章相似度檢測工具

  每年六月,都是一個畢業季。每個大學生不僅要參加論文答辯,還要提交優質的論文。但什么樣的論文才能被認為是優質的呢?最基本的一個要求就是查重率不能超過30%(這個每個學??赡芤蟛灰粯?,有的是20%)。那么問題來了,我們的論文在知網下是怎么計算出查重率的呢?其實查重率最重要的是計算兩篇文章的相似度。

  文本相似度

  文本相似度計算在信息檢索、數據挖掘、機器翻譯、文檔復制檢測等領域有著廣泛應用。例如輿論控制,假設你開發了一個微博網站,并且已經把世界上罵人的句子都已經收錄進了一個數據庫,那么當一個用戶發微博時會先跟罵人句子的數據庫進行比較,如果符合里面的句子就不讓用戶發出去。

  基本算法--余弦相似度

文章相似度檢測工具免費

  使用TF-IDF算法,找出兩篇文章的關鍵詞;

  每篇文章各取出若干個關鍵詞(比如20個),合并成一個集合,計算每篇文章對于這個集合中的詞的詞頻(為了避免文章長度的差異,可以使用相對詞頻);

  生成兩篇文章各自的詞頻向量;

  計算兩個向量的余弦相似度,值越大就表示越相似。

  對于TF-IDF算法,我在之前的文章介紹過,有需要的可以去翻閱。這篇文章主要詳細講述余弦相似度算法。

  假設向量a、b的坐標分別為(x1,y1)、(x2,y2) 文章。則:

  文章相似度檢測工具(文章相似度檢測工具免費)工具

  設向量 A=(A1,A2,...,An),B=(B1,B2,...,Bn) 。推廣到多維,數學家已經幫我們證明了,所以你只要記住下面的公式:

  文章相似度檢測工具(文章相似度檢測工具免費)

  簡單來說可以寫成下面的式子:

  文章相似度檢測工具(文章相似度檢測工具免費)

  舉一個具體例子,我們先從句子開始:

  句子A:我喜歡看電視,不喜歡看電影。

  句子B:我不喜歡看電視,也不喜歡看電影。

  第一步:分詞

  句子A:我/喜歡/看/電視,不/喜歡/看/電影。

  句子B:我/不/喜歡/看/電視,也/不/喜歡/看/電影。

  第二步:列出所有的詞

  我,喜歡,看,電視,電影,不,也

  第三步:計算詞頻

  句子A:我 1,喜歡 2,看 2,電視 1,電影 1,不 1,也 0

  句子B:我 1,喜歡 2,看 2,電視 1,電影 1,不 2,也 1

  第四步:寫出詞頻向量

  句子A:[1, 2, 2, 1, 1, 1, 0]

  句子B:[1, 2, 2, 1, 1, 2, 1]

  第五步:計算余弦值

  檢測 文章相似度檢測工具(文章相似度檢測工具免費)

  余弦值越接近1,就表明夾角越接近0度,也就是兩個向量越相似,這就叫"余弦相似性"。

  簡單來說上面計算出的值代表兩個句子大概九成相似,越接近1就越相似。

  文章相似度檢測工具(文章相似度檢測工具免費)

  ?

版權聲明:本文來自互聯網整理發布,如有侵權,聯系刪除

原文鏈接:http://www.freetextsend.comhttp://www.freetextsend.com/wangluozixun/16097.html

標簽:文章 工具 檢測

Copyright ? 2021-2022 All Rights Reserved 備案編號:閩ICP備2023009674號 網站地圖 聯系:dhh0407@outlook.com

www.成人网