如何使用Python构建一个抄袭检测系统?( 二 )


定义三个文本框,两个用于要比较的文本,一个用于显示结果 。声明父元素、宽度和高度,并将换行选项设置为tk.word,以确保程序在最近的边界处对单词换行,并且不中断中间的任何单词 。
复制
root = tk.Tk()
root.title("Text Comparison Tool")
frame = tk.Frame(root)
frame.pack(padx=10, pady=10)
text_label1 = tk.Label(frame, text="Text 1:")
text_label1.grid(row=0, column=0, padx=5, pady=5)
text_textbox1 = tk.Text(frame, wrap=tk.WORD, width=40, height=10)
text_textbox1.grid(row=0, column=1, padx=5, pady=5)
text_label2 = tk.Label(frame, text="Text 2:")
text_label2.grid(row=0, column=2, padx=5, pady=5)
text_textbox2 = tk.Text(frame, wrap=tk.WORD, width=40, height=10)
text_textbox2.grid(row=0, column=3, padx=5, pady=5)
定义三个按钮,两个用于加载文件,一个用于比较 。定义父元素、它应该显示的文本,以及它在被点击时应该执行的函数 。创建两个输入组件来输入文件路径,并定义父元素及其宽度 。
使用网格管理器以行和列的形式组织所有这些元素 。使用pack来组织compare_button和text_textbox_diff 。在必要的地方添加适当的填充 。
复制
file_entry1 = tk.Entry(frame, width=50)
file_entry1.grid(row=1, column=2, columnspan=2, padx=5, pady=5)
load_button1 = tk.Button(frame, text="Load File 1", command=lambda: load_file_or_display_contents(file_entry1, text_textbox1))
load_button1.grid(row=1, column=0, padx=5, pady=5, columnspan=2)
file_entry2 = tk.Entry(frame, width=50)
file_entry2.grid(row=2, column=2, columnspan=2, padx=5, pady=5)
load_button2 = tk.Button(frame, text="Load File 2", command=lambda: load_file_or_display_contents(file_entry2, text_textbox2))
load_button2.grid(row=2, column=0, padx=5, pady=5, columnspan=2)
compare_button = tk.Button(root, text="Compare", command=show_similarity)
compare_button.pack(pady=5)
text_textbox_diff = tk.Text(root, wrap=tk.WORD, width=80, height=1)
text_textbox_diff.pack(padx=10, pady=10)
用黄色背景和红色字体高亮显示标记为相同的文本 。
复制
text_textbox1.tag_configure("same", foreground="red", background="lightyellow")
text_textbox2.tag_configure("same", foreground="red", background="lightyellow")
mAInloop()函数告诉Python运行Tkinter事件循环并监听事件,直到您关闭窗口 。
复制
root.mainloop()
把它们放在一起,然后运行代码以检测抄袭 。
抄袭检测器的输出示例
当您运行这个程序时,它会显示一个窗口 。点击Load File 1按钮后,将打开文件对话框,要求您选择一个文件 。选择一个文件后,程序在第一个文本框内显示内容 。在输入路径并点击Load File 2后,程序将在第二个文本框内显示内容 。在点击Compare按钮后,您得到的相似度为100%,它高亮显示相似度100%的整个文本 。

如何使用Python构建一个抄袭检测系统?

文章插图
如果您为其中一个文本框添加另一行并点击Compare,程序将高亮显示相似的部分,并忽略其余部分 。
如何使用Python构建一个抄袭检测系统?

文章插图
如果几乎没有相似度,程序会高亮显示一些字母或单词,但相似度百分比非常低 。
如何使用Python构建一个抄袭检测系统?

文章插图
使用NLP进行抄袭检测虽然Difflib是一种功能强大的文本比较方法,但它对微小的变化很敏感,对上下文的理解有限,并且对于庞大文本而言通常无效 。这时候您应该考虑探究自然语言处理,因为它可以执行文本的语义分析,提取有意义的特征,而且能够理解上下文 。
此外,您可以针对不同的语言训练模型,并对其进行优化以提高效率 。可以用于抄袭检测的一些技术包括Jaccard相似性、余弦相似性、单词嵌入、潜在序列分析以及序列到序列模型 。
您可以在这个Github代码仓库中找到使用Python构建抄袭检测器的全部源代码:https://github.com/makeuseofcode/Plagiarism-Detector-using-Python
原文标题:How to Build a Plagiarism Detector Using Python,作者:Sai Ashish Konchada

【如何使用Python构建一个抄袭检测系统?】


推荐阅读