如何使用Python构建一个抄袭检测系统？( 二 ) _Python

定义三个文本框，两个用于要比较的文本，一个用于显示结果。声明父元素、宽度和高度，并将换行选项设置为tk.word，以确保程序在最近的边界处对单词换行，并且不中断中间的任何单词。
复制
root = tk.Tk()
root.title("Text Comparison Tool")
frame = tk.Frame(root)
frame.pack(padx=10, pady=10)
text_label1 = tk.Label(frame, text="Text 1:")
text_label1.grid(row=0, column=0, padx=5, pady=5)
text_textbox1 = tk.Text(frame, wrap=tk.WORD, width=40, height=10)
text_textbox1.grid(row=0, column=1, padx=5, pady=5)
text_label2 = tk.Label(frame, text="Text 2:")
text_label2.grid(row=0, column=2, padx=5, pady=5)
text_textbox2 = tk.Text(frame, wrap=tk.WORD, width=40, height=10)
text_textbox2.grid(row=0, column=3, padx=5, pady=5)
定义三个按钮，两个用于加载文件，一个用于比较。定义父元素、它应该显示的文本，以及它在被点击时应该执行的函数。创建两个输入组件来输入文件路径，并定义父元素及其宽度。
使用网格管理器以行和列的形式组织所有这些元素。使用pack来组织compare_button和text_textbox_diff 。在必要的地方添加适当的填充。
复制
file_entry1 = tk.Entry(frame, width=50)
file_entry1.grid(row=1, column=2, columnspan=2, padx=5, pady=5)
load_button1 = tk.Button(frame, text="Load File 1", command=lambda: load_file_or_display_contents(file_entry1, text_textbox1))
load_button1.grid(row=1, column=0, padx=5, pady=5, columnspan=2)
file_entry2 = tk.Entry(frame, width=50)
file_entry2.grid(row=2, column=2, columnspan=2, padx=5, pady=5)
load_button2 = tk.Button(frame, text="Load File 2", command=lambda: load_file_or_display_contents(file_entry2, text_textbox2))
load_button2.grid(row=2, column=0, padx=5, pady=5, columnspan=2)
compare_button = tk.Button(root, text="Compare", command=show_similarity)
compare_button.pack(pady=5)
text_textbox_diff = tk.Text(root, wrap=tk.WORD, width=80, height=1)
text_textbox_diff.pack(padx=10, pady=10)
用黄色背景和红色字体高亮显示标记为相同的文本。
复制
text_textbox1.tag_configure("same", foreground="red", background="lightyellow")
text_textbox2.tag_configure("same", foreground="red", background="lightyellow")
mAInloop()函数告诉Python运行Tkinter事件循环并监听事件，直到您关闭窗口。
复制
root.mainloop()
把它们放在一起，然后运行代码以检测抄袭。
抄袭检测器的输出示例
当您运行这个程序时，它会显示一个窗口。点击Load File 1按钮后，将打开文件对话框，要求您选择一个文件。选择一个文件后，程序在第一个文本框内显示内容。在输入路径并点击Load File 2后，程序将在第二个文本框内显示内容。在点击Compare按钮后，您得到的相似度为100%，它高亮显示相似度100%的整个文本。

文章插图
如果您为其中一个文本框添加另一行并点击Compare，程序将高亮显示相似的部分，并忽略其余部分。

文章插图
如果几乎没有相似度，程序会高亮显示一些字母或单词，但相似度百分比非常低。

文章插图
使用NLP进行抄袭检测虽然Difflib是一种功能强大的文本比较方法，但它对微小的变化很敏感，对上下文的理解有限，并且对于庞大文本而言通常无效。这时候您应该考虑探究自然语言处理，因为它可以执行文本的语义分析，提取有意义的特征，而且能够理解上下文。
此外，您可以针对不同的语言训练模型，并对其进行优化以提高效率。可以用于抄袭检测的一些技术包括Jaccard相似性、余弦相似性、单词嵌入、潜在序列分析以及序列到序列模型。
您可以在这个Github代码仓库中找到使用Python构建抄袭检测器的全部源代码：https://github.com/makeuseofcode/Plagiarism-Detector-using-Python
原文标题：How to Build a Plagiarism Detector Using Python，作者：Sai Ashish Konchada

【如何使用Python构建一个抄袭检测系统？】